(12)
где p(n) – периодическая импульсная последовательность с периодом Np отсчётов, hV(n) – импульсная характеристика линейной системы, отражающая эффект формы возбуждения g(n), импульсную характеристику речевого тракта ?(n) и импульсную характеристику излучения r(n). Аналогично, для невокализованного сегмента речевого сигнала получаем
(13)
где u(n) – сигнал возбуждения в виде случайного шума, cV(n) – импульсная реакция системы, объединяющая воздействие речевого тракта и излучения.
Текущая гомоморфная обработка предполагает вычисление кепстра достаточно коротких сегментов речи. В результате получаем для вокализованной речи кепстр
(14)
а для невокализованной
(15)
где cp(n) – кепстр сигнала возбуждения в виде периодической импульсной последовательности, c?(n) – кепстр импульсной характеристики h? (v), cu(n) — кепстр сигнала возбуждения в виде случайного шума, ch(n) — кепстр импульсной характеристики hu(n). Обычно при вычислении кепстра сигнал (12) или (13) предварительно взвешивается с окном w(n) , в качестве которого используют окно Хемминга. Поэтому в (14), (15) фигурируют не кепстры сигналов (12), (13), а кепстры взвешенного речевого сигнала x(n) = w(n)s(n).
В гомоморфном вокодере речевой сигнал «нарезается» на сегменты длительностью 10-20мс. Сегменты могут существенно перекрываться. Для каждого сегмента вычисляется кепстр, на основе которого оцениваются период основного тона и признак тон/шум. Сами компоненты кепстра в области малых времен (примерно первые 30 отсчетов) квантуются и кодируются для передачи в канал связи вместе с параметрами источника возбуждения. На рисунке 20 показан анализатор:

Рисунок 20 – Алгоритм кодирования гомоморфного вокодера
Кепстр вычисляется в соответствии с выражением (11). Затем с помощью кепстрального окна l(n) выделяется область малых времен и используются первые N отсчетов кепстра (в литературе N=26). Полный кепстр используется также для выделения информации и об основном тоне и признаке тон/шум. Информация о сигнале возбуждения совместно с квантованными значениями кепстра в цифровом представлении передаётся по каналу 50—100 раз в секунду.
Алгоритм восстановления сигнала гомоморфного вокодера показан на рис. 21. На приёмной стороне по информации об основном тоне и признаке тон-шум восстанавливается функция возбуждения.

Рисунок 21 – Алгоритм декодирования гомоморфного вокодера
По квантованным отсчетам кепстра в области малых времен в синтезаторе восстанавливается импульсная реакция h?(n) или hu(n) и вычисляется свёртка с функцией возбуждения. При этом необходимо учесть, что кепстр – это четная функция времени и поэтому для построения кепстра достаточно знать лишь его часть, локализованную в области положительного времени. Преобразование Фурье части кепстра в области малых времён приводит к логарифму передаточной функции, описывающей совместное влияние речевого тракта, формы импульса возбуждения и излучения. Однако фаза в данном случае равна нулю.
В схеме рис. 21 преобразование Фурье изменяется для получения действитель-ного чётного преобразования, обратное преобразование которого представляет собой «импульсную характеристику», являющуюся чётной функцией. Полученная таким образом по кепстру импульсная характеристика сворачивается с последовательностью импульсов, отстоящих друг от друга на период основного тона для вокализованной речи, и с равноотстоящей последовательностью импульсов случайной полярности для невокализованных сегментов.
По логарифмическому спектру можно получить и минимально-фазовую импульсную характеристику, для чего следует использовать кепстральное окно вида

Тесты на восприятие показали, что минимально-фазовое описание является наиболее предпочтительным, поскольку минимально фазовый сигнал наиболее соответствует речевому сигналу.
Гомоморфный вокодер с 26 значениями кепстра, квантованными с частотой 50 Гц, обеспечивает очень высокое качество и натуральность речевого сигнала. Последующие исследования показали, что при преобразовании кепстральной информации перед квантованием скорость передачи может быть значительно понижена. Другие исследования показали, что для повышения эффективности кепстральных методов целесообразно применять адаптацию протяженности временного окна, используемого при вычислении кепстра сигнала.
Гомоморфный вокодер, как и любые вокодерные системы, в которых пытаются разделить параметры речи на сигнал возбуждения и параметры речевого тракта, позволяет достигнуть малой скорости передачи и дополнительной гибкости при обработке речи ценой усложнения в описании и потерь в качестве.
Данная система обладает тем преимуществом, что кепстр, требующий для своего вычисления наибольших затрат, позволяет оценить как параметры речевого тракта, так и параметры возбуждения.
5. Липредеры (вокодеры с линейным предсказанием).
Вокодеры с линейным предсказанием являются самыми распространёнными в современных системах передачи речи. Метод линейного предсказания предложен в 1960-х годах и получил мощное развитие в 1980-х, в том числе в прямой связи с разработкой речевых кодеков для цифровых систем сотовой связи. Линейное предсказание является одним из наиболее эффективных методов анализа речевого сигнала. Этот метод становится доминирующим при оценке основных параметров речевого сигнала, таких, как период основного тона, форманты, спектр, а также при сокращенном представлении речи с целью ее низкоскоростной передачи и экономного хранения. Важность метода обусловлена высокой точностью получаемых оценок и простотой вычислений.
Именно методы кодирования с линейным предсказанием и применяются в сотовой связи. Рассмотрим сначала модель речевого тракта, которая позволяет использовать методы линейного предсказания для анализа и синтеза речевого сигнала. Блок-схема модели речевого тракта изображена на рис. 22:

Рисунок 22 – Блок-схема модели речеобразования
Общий спектр, обусловленный излучением, речевым трактом и возбуждением, описывается с помощью линейной системы с переменными параметрами с передаточной функцией

(16)
Эта система возбуждается импульсной последовательностью для вокализованных звуков речи и шумом для невокализованных. Таким образом, модель имеет следующие параметры: классификатор вокализованных и невокализованных звуков, период основного тона для вокализованных сегментов, коэффициент усиления G и коэффициенты ak цифрового фильтра. Все эти параметры медленно изменяются во времени.
Выражение (16) представляет собой передаточную функцию так называемой полюсной модели без учёта нулей. Известно, что если порядок р модели достаточно велик, то полюсная модель позволяет получить достаточно точное описание почти для всех звуков речи. Главное достоинство этой модели заключается в том, что как параметр G, так и коэффициенты можно оценить непосредственно с использованием очень эффективных с вычислительной точки зрения алгоритмов. Для системы рис. 1 отсчет речевого сигнала s(n) связан с сигналом возбуждения u(n) простым разностным уравнением

(17)
Линейный предсказатель с коэффициентами ?k определяется как система, на выходе которой имеем

(18) ![]()
– предсказанное значение речевого сигнала; n – номер временного отсчета; р – порядок предсказания (число коэффициентов линейного предсказа-ния); k – коэффициенты линейного предсказания – весовые коэффициенты, используемые в линейной комбинации. Системная функция предсказателя р-го порядка представляет собой полином вида
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 |


