Рисунок 18 – Структура гомофорной системы
Первый блок ![]()
преобразует сигналы на входе, представленные в виде свёртки, в аддитивную сумму на выходе, то есть:
![]()
![]()
Второй блок представляет собой обычную линейную систему, удовлетворяющую принципу суперпозиции:
![]()
![]()
Третий блок преобразует сигналы, представленные в виде суммы, в сигналы, представленные в виде свертки:
![]()
![]()
Таким образом, разработка гомоморфной системы сводится к разработке линейной системы. Далее для изложения принципа построения гомоморфного вокодера нас будет интересовать первый из рассмотренных блоков, характеризуемый оператором ![]()
и называемый характеристическим блоком гомоморфной относительно свёртки системы. Этот блок осуществляет вычисление кепстра согласно формуле:
![]()
Где F – прямое, а ![]()
– обратное преобразования Фурье. Это означает, что
если на вход блока ![]()
подаётся некоторая функция времени ![]()
, то на его
выходе формируется сигнал:
![]()
называемый кепстром функции ![]()
. Применение кепстра позволяет свёртку двух функций переписать в виде суммы их кепстров. Действительно, пусть в (11) ![]()
. Тогда
,
где ![]()
- спектры функций ![]()
, Учитывая, что
,
из (11) для кепстра свёртки двух функций имеем
![]()
где ![]()
, - кепстр функции ![]()
, i = 1,2. Структуру характеристического блока ![]()
, можно представить в виде рис. 19:

Рисунок 19 – Структура характеристического блока![]()
![]()
При цифровой обработке сигналов вместо непрерывного времени t используют номер отсчёта n. Тогда в описанных выше рассуждениях необходимо пользоваться определением дискретной свёртки, а вместо преобразования Фурье использовать Z-преобразование.
Кепстр применительно к речевому сигналу обладает рядом свойств, в частности:
кепстр является затухающей последовательностью, ограниченной сверху. кепстр последовательностей, имеющих Z-преобразование, в основном сосредоточен вблизи нуля; последовательность, состоящая из равноотстоящих импульсов, имеет кепстр того же вида; для вычисления комплексного кепстра последовательности с минимальной фазой можно обойтись действительным определением логарифма, поскольку кепстр определяется лишь логарифмом модуля преобразования Фурье. Минимально фазовыми называют сигналы, z-преобразование которых не содержит нулей и полюсов вне единичной окружности. Для минимально фазовых сигналов кепстр можно вычислить рекуррентно по входному сигналу. Рекуррентная формула имеет вид:
В случае вокализованных звуков возбуждающий сигнал имеет вид последовательности импульсов, а в случае глухих звуков – может быть смоделирован в виде шума. Обычно предполагают, что передаточная функция линейной системы, имитирующей голосовой тракт, описывается рациональной функцией z. В результате, согласно перечисленным выше свойствам кепстра, комплексный кепстр речевого сигнала сосредоточен вблизи нуля.
В случае звонкого звука комплексный кепстр возбуждающего сигнала состоит из импульсов, повторяющихся с периодом основного тона. То есть в случае звонкой речи комплексные кепстры возбуждающего сигнала и импульсного отклика голосового тракта занимают неперекрывающиеся временные сигналы и могут быть извлечены из общего кепстра с помощью линейной системы L.
Механизм восстановления речевого сигнала с помощью кепстров может быть пояснен следующим образом: поскольку спектр звонкого звука формируется умножением огибающей, характеризующей состояние голосового тракта, на функцию, описывающую тонкую структуру спектра возбуждающего сигнала, то логарифм спектра равен сумме логарифмов огибающей спектра и спектра возбуждающего сигнала. Логарифм спектра возбуждающего сигнала изменяется с ростом частоты гораздо быстрее логарифма огибающей спектра. Кроме того, он периодичен. В результате обратное преобразование Фурье от логарифма огибающей спектра сконцентрировано по оси времени вблизи нуля, в то время как обратное преобразование от логарифма спектра возбуждающего сигнала является линейчатым, отражающим его периодичность в частотной области.
Для выделения логарифма огибающей спектра из полного спектра логарифма его «взвешивают» окном, открытым только в начальном участке кепстра (вблизи нуля). Эту процедуру называют «сглаживанием кепстра». В системе анализа-синтеза, основанной на гомоморфной фильтрации, начальные значения кепстра служат параметрами, описывающими состояние голосового тракта или огибающую спектра речевого процесса. Значения кепстра при больших значениях времени используются для оценки параметров возбуждающего сигнала.
Таким образом, основная идея гомоморфной обработки заключается в разделении или обратной свертке сегмента речевого сигнала с компонентами, представляющими собой импульсную характеристику и источник возбуждения.
Это достигается путем линейной фильтрации обратного преобразования Фурье логарифма спектра сигнала (кепстра). Гомоморфные вокодеры, как и любые другие вокодеры, в которых осуществляется разделение параметров речи на сигнал возбуждения и параметры речевого тракта, позволяют достигнуть малой скорости передачи и дополнительной гибкости при обработке речи ценой усложнения алгоритмов преобразований.
Описанные свойства кепстра речевого сигнала позволяют:
отделить параметры сигнала друг от друга (информация о сигнале возбуждения расположена в области больших времён, а информация о речевом тракте – в области малых времён кепстра); оценить формантные частоты, период основного тона; классифицировать сигнал как вокализованный или невокализованный; использовать кепстр для описания сигнала речи в гомоморфных вокодерах.Модель речеобразования обязательно состоит из линейной системы с медленно изменяющимися во времени параметрами и сигнала возбуждения в виде последовательности импульсов или белого шума. Поэтому короткий сегмент вокализованного речевого сигнала целесообразно рассматривать как результат воздействия сигнала возбуждения в виде последовательности импульсов на линейную систему с постоянными параметрами. Аналогично, короткий
сегмент невокализованного сигнала можно представить как результат возбуждения линейной системы с постоянными параметрами случайным шумом. Короткий сегмент оцифрованной вокализованной речи можно представить в виде
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 |


