Цель работы на УИР: исследование существующих вокодеров для кодирования и передачи речи в сжатом виде.

  Речь – это один из самых сложных сигналов из всех существующих в природе. Речевой сигнал (РС) – это процесс передачи речевого сообщения (акустические, электрические, механические и другие процессы). Речевое сообщение создается в мозгу человека и с помощью органа речи излучается в окружающее пространство в виде акустического сигнала звукового поля. Акустический сигнал, воздействуя на барабанную перепонку уха превращается в механический сигнал, а во внутреннем ухе – в сигнал нервной системы. Таким образом воссоздается первоначальное сообщение.

  Речь состоит из предложений, фраз, слов, слогов. Наименьшей единицей является звук. Между звуками речи имеется связь: вероятность появления каждого звука зависит как и от предыдущего, так и от последующего звука. Каждому человеку присуща своя манера произнесения звука. Поэтому существует несколько тысяч звуков, отличающихся по субъективному восприятию друг от друга.

  Наименьшая звуковая единица данного языка называется фонемой (буква – это то, что мы читаем и хотим произнести, фонема – то, что фактически произносим). Поэтому число фонем всегда больше числа букв во всех языках. Фонемы делятся на гласные и согласные звуки. Около каждой фонемы группируются ее различные возможные варианты произношения, поэтому можно определить границы фонемных областей. Но зачастую эти границы могут перекрывать друг друга. Таким образом наблюдается смешивание звуков.

НЕ нашли? Не то? Что вы ищете?

  В процессе речеобразования сообщение представляет собой акустическую волну. Источником её является артикуляционный аппарат человека (рис. 1). Воздух проходит через голосовые связки, которые могут находиться в сомкнутом и разомкнутом состояниях, в результате чего акустическая волна приобретает импульсный характер и поступает в глотку, носовую и ротовую полости. Гортань и ротовую полость называют голосовым трактом. Результатом работы голосового тракта является акустические колебание.

Рисунок 1 – Артикуляционный аппарат человека

  Речеобразующий тракт состоит из ларингальных, фарингальных, ротовых и носовых полостей. Изменение конфигурации голосового тракта и колебания голосовых связок взаимосвязаны, в результате вся речеобразующая система функционирует как единый сложный механизм.

  Голосовой тракт и носовую полость обычно представляют в виде системы резонаторов (секций цилиндрических труб) с изменяющейся по продольной оси площадью поперечного сечения, которая описывается функцией площади поперечного сечения.

Рисунок 2 – модель голосового тракта

  Для представления простейшей модели нужно иметь три основных резонатора и один дополнительный, для имитации округлости губ (рис. 2). Первый резонатор (с площадью А1 и длиной l1) имитирует гортань и ротовую полость до сужения, создаваемого языком; второй (A2 и l2) – участок сужения между языком и твердым небом; третий (А3 и l3) – переднюю ротовую полость; четвертый (A4 и l4) – проход между губами. В процессе речеобразования эти размеры постоянно изменяются.

  Все звуки речи могут быть разделены на три группы:

Вокализованные – гласные и звонкие согласные звуки. Возникают вследствие проталкивания воздуха через напряженные вибрирующие голосовые связки. Важной характеристикой сигнала возбуждения является частота основного тона:

, где – период основного тона голоса.

Невокализованные – глухие согласные. Образуются вследствие возбуждения при сужении голосового тракта в каком-либо месте. Взрывные (смычковые). Эти согласные характеризуются тем, что образуются путем смычки тех или иных органов артикуляции.

  Образованный с помощью вышеописанных механизмов акустический сигнал, называемый функцией возбуждения речи, может принимать три разные формы: квазипериодических импульсов, непрерывного шума и единичного импульса.

  Для образования речевых звуков функция возбуждения подвергается «фильтрации» в голосовом тракте. Частотная характеристика тракта изменяется из-за перемещения языка, губ и других органов артикуляции. Таким образом функцию возбуждения можно рассматривать как несущую, параметры которой непрерывно изменяются во времени под воздействием модулирующего процесса, в котором содержится вся фонетическая информация.

  При произнесении вокализованных звуков сигналом возбуждения является последовательность импульсов, создаваемых изменениями в голосовых связках. Эти импульсы проходят через речеобразующий тракт (систему резонаторов), который осуществляет фильтрацию сигнала возбуждения.

  При произнесении шумовых звуков сигналом возбуждения является фрикативный шум, возникающий при трении воздуха о стенки ротовой полости. При  взрывных сигнал возбуждения возникает из-за ударного воздействия воздушной струи на полости речеобразующего тракта.

  Трубы голосового тракта определяются формантами – резонансными частотами речеобразующего тракта.  Форманты зависят от размеров и формы голосового тракта. Форма голосового тракта описывается набором формантных частот (определенным спектром). То есть форманты – это участки частотного диапазона около спектральных максимумов, определяющие распознавание и восприятие конкретных звуков речи.

Характеристики и структурные параметры речи

  Человеческую речь можно представить в виде колебаний сложной формы. Форма колебания зависит от произносимых слов, тембра голоса, интонации. Подобное колебание можно описать с помощью следующими параметрами:

    Статистическое распределение звуков, слогов и слов при произношении речи; Временные характеристики звуков; Основной тон речи; Спектральные характеристики речи; Распределение формантных частот.

  Также эти параметры занимают важное место при построении систем кодирования речи.

  Каждый звук является реализацией случайного процесса с  определенными  характеристиками. Длительность отдельных звуков речи составляет от 20 до 350 мс. При этом гласные звуки имеют большую длительность (в среднем около 200 мс), чем согласные (около 80 мс, а звук "п" – около 30 мс). Звонкие звуки речи,  особенно гласные, имеют высокий уровень интенсивности,  глухие - низкий – в среднем на 20 дБ ниже уровня гласных.  Динамический диапазон уровней речи находится в  пределах  35...45  дБ.

  Речь с физической точки  зрения  состоит  из  последовательности звуков речи с паузами между их группами. Паузой считается отсутствие речи в течение времени, большего 350 мс. В целом средняя длительность пауз составляет 16 % длительности речи, а средняя скорость речи от 10 до 15 звуков в секунду.

  Важной характеристикой вокализованных звуков является частота основного тона – частота колебаний голосовых связок или частота пер­вой гармоники спектра вокализованных звуков.

– период  основного тона голоса.

У вокализованных звуков спектр является дискретным с большим числом

гармоник (до 40), которые имеют частоту, кратную частоте основного тона. Частота основного тона изменяется в пределах от 60-70 Гц для низких мужских голосов до 450-500 Гц для высоких женских голо­сов. Средняя частота основного тона для мужских голосов 140 Гц, для женских — 250 Гц. Медленное изменение частоты основного тона при произнесении речи создает эмоциональную  окраску  и называется интонацией.  Пример плотности распределения вероятности часто­ты основного тона  представлен на рис. 3:

Рисунок 3 -  Плотность распределения вероятности частоты основного тона

  Спектр речи — зависимость среднего в течение длительного време­ни наблюдения спектрального уровня речи от частоты. Спектральный состав звуков речи весьма различен. Каждому звуку речи соответствует свое распределение энергии по частотному диапазону, называемое формантным рисунком. Формантные частоты, на которых происходит максимальное увеличение амплиту­ды спектральных составляющих, образуют формантные  области частотного диапазона. Например, для глас­ных и звонких согласных (вокализованных звуков речи) энергетический спектр (формантный рисунок) имеет вид, представленный на рис. 4:

Рисунок 4 – формантный рисунок вокализованных звуков

  Форманта характеризуется амплитудой Аi, частотой Fi, и шириной полосы ?Fi. (На рисунке 4 А1-А3 – амплитуды формант; F1-F3 – частоты формант; ?F1 – ширина первой форманты).  Различные звуки имеют разное число формант: гласные – до че­тырех формант, глухие согласные до 5-6 формант. Наиболее информативны первые три форманты: F1,  F2 и F3. Первые две (основные) форманты определяют произносимый звук речи, а остальные (вспомогательные) характеризуют индивидуальную для каждого человека окраску, тембр речи. Некоторые звуки отчетливо распознаются по одной первой форманте F1 ("а", "о", "у"). Это происходит потому, что низкие частоты обладают большой энергией. Формантный рисунок глухих звуков выражен слабо. У них спектр не дискретный, а сплошной и характеризуется только огибающей спектра.

Преобразование аналогового сигнала в цифровой и виды модуляции

  Для того, чтобы преобразовать аналоговый сигнал в цифровой посредством импульсно-кодовой модуляции (ИКМ), необходимо последовательно выполнить над ним три операции: дискретизацию, квантование и кодирование. Эти операции выполняет АЦП – аналого-цифровой преобразователь.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13