СИНТЕЗ РЕЧИ С ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ.

Е.

Евразийский национальный университет им. Л. Н. Гумилева, Институт искусственного интеллекта, Астана, Казахстан, a.sadenov@gmail.com

Введение.

Применительно к задаче синтеза речи (порождение человеческой речи из текста) Скрытые Марковские Модели используются для формирования последовательности упрощенных параметров речи, из которых мы можем получить речевой сигнал. Данное порождение базируется на критерии максимума вероятности, что означает - при цепочке событий (слогов или букв в слове) мы можем породить последовательность речевых звуков, так называемый вектор результатов наблюдения.

Звуковой сигнал естественной речи очень сложен и последовательность, которую необходимо породить содержит слишком много частотной информации, для ее упрощения используются образцы основных частот. Для решения проблемы непроизносимых звуков необходимо моделировать последовательность вектора результатов наблюдения с различной размерностью, включая результаты наблюдения нулевой размерности. Далее из этих основных частот мы можем восстановить полноценный речевой отрезок.

В упрощенном виде в момент синтеза речи мы должны выбрать последовательность основных частот с наибольшей вероятностью для входной последовательности букв или слогов.

Таким образом синтез речи, основанный на Скрытых Марковских Моделях может синтезировать речь с произвольного текста.

Вероятностная модель.

Скрытая модель Маркова — это вероятностная модель множества случайных переменных. Переменные — известные дискретные наблюдения, а — «скрытые» дискретные величины. В рамках скрытой модели Маркова есть два независимых утверждения, обеспечивающих сходимость данного алгоритма:

НЕ нашли? Не то? Что вы ищете?

t-я скрытая переменная при известной -ой переменной, независима от всех предыдущих (t − 1) переменных, то есть ;

t-е известное наблюдение зависит только от t-го состояния, то есть не зависит от времени .

Далее будет предложен алгоритм «предположений и максимизаций» для поиска максимальной вероятностной оценки параметров скрытой модели Маркова при заданном наборе наблюдений. Этот алгоритм так же известен как алгоритм Баума — Уэлша.

— это дискретная случайная переменная, принимающая одно из N значений . Будем полагать, что данная модель Маркова, определенная как, однородна по времени, то есть независима от t. Тогда можно задать как независящую от времени стохастическую матрицу перемещений . Особый случай для времени t = 1 определяется начальным распределением.

Будем считать, что мы в состоянии j в момент времени t, если . Последовательность заданных состояний определяется как , где является состоянием в момент t.

Наблюдение может иметь одно из L возможных значений, . Вероятность заданного вектора наблюдений в момент времени t для состояния j определяется как

— это матрица L на N. Заданная последовательность наблюдений O выражается как .

Следовательно, мы можем описать скрытую модель Маркова с помощью . При заданном векторе наблюдений O алгоритм Баума — Уэлша находит .

λ максимизирует вероятность наблюдений O

Марковские процессы в синтезе речи.

Применительно к марковским процессам задача синтеза речи описывается как наблюдаемая последовательность и модель . Необходимо подобрать последовательность состояний системы λ, которая лучше всего соответствует наблюдаемой последовательности.

Для подбора параметров используется алгоритм Баума-Уэлша, который позволяет для каждого состояния просчитать максимальное значение вероятности выходной последовательности состояния.

При заданном векторе наблюдений O алгоритм Баума — Уэлша находит , λ максимизирует вероятность наблюдений O. Алгоритм итеративно обновляет параметр λ до схождения в одной точке.

Построение модели – это всегда упрощения того, что мы собираемся моделировать. Здесь важно найти компромисс между качеством модели (т. е. пригодностью её для решения поставленной задачи), и её сложностью. Для этого необходимо выбрать наиболее важные параметры исследуемой системы. В нашем случае основными характеристиками являются:

Частота основного тона. Определяющий параметр голосового источника, характеризует высоту голоса.

Частота шума. Образование шума – довольно сложный процесс и зависит от многих факторов – давления и скорости воздушной струи, геометрической формы воздушного тракта, акустических свойств материала – поэтому моделирование этого процесса на физическом уровне представляет собой серьезную задачу и требует построения всего речевого аппарата человека. Альтернатива этому – представить звук как белый шум, спектр которого распределен по некоторому закону (например, по Гауссу) относительно некоторой частоты. Закон распределения можно подобрать экспериментально, и у нас остается один переменный параметр – центральная частота, что намного упрощает моделирование.

Центральная частота каждой форманты. т. к. форманта представляет собой резонанс в речевом тракте, у неё есть частота резонанса и огибающая. Вид огибающей также определяется экспериментально, в первом приближении это Гауссово распределение.

Модель речевого синтеза.

Формально модель речевого синтеза может быть представлена в виде двух слоев марковских цепей.

1. Символьный слой – входная последовательность ассоциирована с символами алфавита (это не обязательно должен быть обычный буквенный алфавит, но любой, например, алфавит фонем). Этот слой осуществляет ввод символов при синтезе. Данный слой обучается по алгоритму Баума-Уэлша с использованием эталонов выходных фонем или букв. Выходная последовательность представляет собой набор параметров для генерации отдельных фонем

2. Связующий слой – этот слой получает выходные фонемы от символьного слоя и также является слоем, обучающимся по алгоритму Баума-Уэлша. Выходом слоя является вектор эффекторов – элементов, конечное представление которых управляется заданными параметрами в модели синтеза. Связь эффекторов с параметрами модели синтеза осуществляется через карту эффекторов. Этот слой позволяет сопоставить каждому фонемному параметру некоторый вектор эффекторов, позволяющий объединить раздельные фонемы, а, следовательно, и определенный синтезируемый звук.

Обучение проводится сначала на отдельные буквы, далее фонемные данные. Таким образом, получив матрицу вероятностей для каждого слоя и сохранив ее, мы можем получить модель, основанную на скрытых марковских цепях, которая при входных параметрах - фонемах дает на выходе синтезированный звук.

Литература

1.  К. «Анализ, распознавание и интерпретация речевых сигналов.» - Киев: Наук. думка, 1987. -262 с.

2.  Л. В.Бондарко «Звуковой строй современного русского языка» - М.: Просвещение, 1997. –175 с.

3.  Speech Analysis FAQ - http://svr-www. eng. cam. ac. uk/~ajr/ SA95/Speech Analysis. html

4.  http://ru. wikipedia. org/wiki/Алгоритм_Баума-Велша

5.  http://ru. wikibooks. org/wiki/Скрытые_марковские_модели

6.  http://frolov-lib. ru/books/hi/ch00.html

7.  http://alexmoshp. chat. ru

Основные порталы (построено редакторами)

Домашний очаг

ДомДачаСадоводствоДетиАктивность ребенкаИгрыКрасотаЖенщины(Беременность)СемьяХобби
Здоровье: • АнатомияБолезниВредные привычкиДиагностикаНародная медицинаПервая помощьПитаниеФармацевтика
История: СССРИстория РоссииРоссийская Империя
Окружающий мир: Животный мирДомашние животныеНасекомыеРастенияПриродаКатаклизмыКосмосКлиматСтихийные бедствия

Справочная информация

ДокументыЗаконыИзвещенияУтверждения документовДоговораЗапросы предложенийТехнические заданияПланы развитияДокументоведениеАналитикаМероприятияКонкурсыИтогиАдминистрации городовПриказыКонтрактыВыполнение работПротоколы рассмотрения заявокАукционыПроектыПротоколыБюджетные организации
МуниципалитетыРайоныОбразованияПрограммы
Отчеты: • по упоминаниямДокументная базаЦенные бумаги
Положения: • Финансовые документы
Постановления: • Рубрикатор по темамФинансыгорода Российской Федерациирегионыпо точным датам
Регламенты
Термины: • Научная терминологияФинансоваяЭкономическая
Время: • Даты2015 год2016 год
Документы в финансовой сферев инвестиционнойФинансовые документы - программы

Техника

АвиацияАвтоВычислительная техникаОборудование(Электрооборудование)РадиоТехнологии(Аудио-видео)(Компьютеры)

Общество

БезопасностьГражданские права и свободыИскусство(Музыка)Культура(Этика)Мировые именаПолитика(Геополитика)(Идеологические конфликты)ВластьЗаговоры и переворотыГражданская позицияМиграцияРелигии и верования(Конфессии)ХристианствоМифологияРазвлеченияМасс МедиаСпорт (Боевые искусства)ТранспортТуризм
Войны и конфликты: АрмияВоенная техникаЗвания и награды

Образование и наука

Наука: Контрольные работыНаучно-технический прогрессПедагогикаРабочие программыФакультетыМетодические рекомендацииШколаПрофессиональное образованиеМотивация учащихся
Предметы: БиологияГеографияГеологияИсторияЛитератураЛитературные жанрыЛитературные героиМатематикаМедицинаМузыкаПравоЖилищное правоЗемельное правоУголовное правоКодексыПсихология (Логика) • Русский языкСоциологияФизикаФилологияФилософияХимияЮриспруденция

Мир

Регионы: АзияАмерикаАфрикаЕвропаПрибалтикаЕвропейская политикаОкеанияГорода мира
Россия: • МоскваКавказ
Регионы РоссииПрограммы регионовЭкономика

Бизнес и финансы

Бизнес: • БанкиБогатство и благосостояниеКоррупция(Преступность)МаркетингМенеджментИнвестицииЦенные бумаги: • УправлениеОткрытые акционерные обществаПроектыДокументыЦенные бумаги - контрольЦенные бумаги - оценкиОблигацииДолгиВалютаНедвижимость(Аренда)ПрофессииРаботаТорговляУслугиФинансыСтрахованиеБюджетФинансовые услугиКредитыКомпанииГосударственные предприятияЭкономикаМакроэкономикаМикроэкономикаНалогиАудит
Промышленность: • МеталлургияНефтьСельское хозяйствоЭнергетика
СтроительствоАрхитектураИнтерьерПолы и перекрытияПроцесс строительстваСтроительные материалыТеплоизоляцияЭкстерьерОрганизация и управление производством