Большое значение для синтеза речи имеют формантные переходы, и в первую очередь скорость переходов, время перехода не так важно для гласных, а для согласных важны оба фактора. Для взрывных звуков сам взрыв и аспирация менее важны, чем переход. Немаловажное значение имеют и такие характеристики параметров формант, как корреляция между частотами формант, а также между их амплитудами и временными изменениями.

  Уровни формант, особенно высших, коррелированы в довольно значительной степени. Так, в среднем коэффициенты корреляции уровней третьей и четвертой формант составляют 0,96, а первой и второй 0,77. Это означает, что практически одновременная передача уровней двух верхних формант необязательна.

  Из всех опубликованных данных о ширине полосы, занимаемой формантами известно, что ширина полосы в среднем для первой форманты гласных на уровне -3 дБ составляет 50 Гц, для второй 72 и для третьей 125 Гц. Менее определены данные о ширине полосы формант для согласных звуков, особенно глухих. Их можно определить из переходных характеристик речевого тракта, а также по моментам спектра.

  Согласно ряду исследований наблюдается неточность оценки большинства согласных звуков по форматным частотам, определяемым как частоты максимумов спектра. Из-за неравномерности спектральной огибающей для этих звуков и быстрого их изменения во времени частота максимума спектра не всегда характеризует местоположение формантной частоты в частотном диапазоне. А в ряде случаев при наличии нескольких максимумов определение формантной частоты вообще является произвольным. Вследствие этого используется метод оценки спектров согласных звуков по их моментам различных порядков (M0 , M1 и M2 ). В то же время для некоторых согласных (в частности, сонорных) было целесообразно сохранить и оценку по формантным частотам как частотам максимумов спектра.

НЕ нашли? Не то? Что вы ищете?

  Перечисленные моменты могли бы использоваться и для гласных звуковпричем в этом случае их следовало бы определять для каждой формантной области. Соответственно интенсивность форманты заменяется моментом нулевого порядка, вместо формантной частоты следует брать центроид форманты (практически это и будет взвешенная частота форманты), а вместо ширины форманты — дисперсию спектра в этой области. В ряде практических схем выделения параметров формант гласных звуков применяется этот способ, но в общем случае использование только моментов спектра в формантных областях неизбежно ограничивало бы возможности. Моменты M0 , M1 и M2 глухих турбулентных звуков могут рассматриваться как параметры одной из их формант. Мощность этих звуков сосредоточена главным образом в области частот выше 1200 Гц. Звонкие согласные звуки характеризуются комплексом параметров, т. е. как моментами, так и формантами.

  Основные трудности при выделении формантных параметров объясняются двумя причинами. Во-первых, частотные диапазоны формантных максимумов перекрываются. Во-вторых, формантные частоты иногда так сильно сближаются, что соседние форманты практически сливаются в один формантный всплеск, и поэтому их невозможно разделить. Рассмотрим принципы формантного анализа речи, т. е. выделение временных огибающих её формантных параметров (включая и моменты спектра) и принципы синтеза речи по этим параметрам, т. е. восстановление исходного речевого сигнала. Существуют две основные группы методов этого анализа. По первым методам речевой сигнал после его разделения на формантные области поступает в анализатор, непосредственно измеряющий формантную частоту и уровень форманты в каждой формантной области. По вторым методам речевой сигнал поступает на комплект параллельно или последовательно включенных узкополосных фильтров, анализирующих спектр речи по образу его анализа в слуховой улитке уха человека. В этом случае определяется местоположение наибольших максимумов спектра и общий уровень речевого сигнала. Все остальные методы представляют собой видоизменение этих двух.

  Из параметров формант наиболее важными являются формантные частоты, в то время как другие параметры — уровень и ширина полосы — играют в опознаваемости звуков значительно меньшую роль. Поэтому в дальнейшем наибольшее внимание будет уделяться методам точного выделения формантных частот. Но прежде всего надо уточнить понятие формантной частоты. По одним определениям за формантную принимается частота максимума спектра. Но в формантной области могут быть и другие максимумы из-за неточного произнесения звука речи и особенностей речевого тракта. По другим определениям формантой считают среднюю частоту спектра в заданной формантной области, т. е. центроид спектра. По третьим определениям частота форманты соответствует полюсу передаточной функции речевого тракта. Данным определениям соответствуют разные методы измерения формантной частоты. Одним из наиболее простых и самых распространенных методов измерения формантной частоты является метод - метра (ро-метра). Он основан на измерении частоты переходов кривой мгновенного значения звукового давления через нуль, т. е. на том же принципе, на котором основано большинство частотомеров. Сигнал подвергается предельному ограничению, затем дифференцируется, в результате получаются кратковременные импульсы. Эти импульсы затягиваются на 15 мс и выпрямляются, полученная ступенчатая кривая сглаживается. Напряжение на выходе такого устройства для синусоидального сигнала пропорционально его частоте, поэтому при медленном изменении частоты сигнала это напряжение будет следовать за изменением частоты. Труднее обстоит дело при сложном сигнале. В этом случае напряжение на выходе ро-метра зависит не только от частот составляющих, но и от формы спектра.

  Наиболее частые случаи неточности работы систем выделения формантных частот с помощью ро-метров наблюдаются при анализе гармонических спектров с двумя составляющими, относительно удаленными по частоте, но близкими по амплитуде.

Для дискретного спектра в виде двух составляющих ро-метр показывают частоту, близкую к частоте с максимальной амплитудой. Точнее, при равенстве число переходов через нуль определяется средней арифметической частотой. Если , то ро-метр показывает частоту, близкую к высшей, а при — к низшей. Для более сложных спектров показания ро-метра уже более близки к среднеквадратической частоте. Известно, что ошибка измерения частоты тем меньше, чем меньше интервал по частоте между анализируемыми составляющими. На этом основании была предложена схема выделения формантных частот после смещения их спектра в область высоких частот (до 20—100 кГц). Если спектр сместить вверх по частоте, то относительное значение интервалов между составляющими спектра соответственно уменьшается. В этих условиях измерение формантных частот с помощью ро-

метра получается значительно точнее. Этот метод носит название метода ВЧ

ро-метра. Точность определения частот формант данным методом в самом невыгодном случае (две составляющие находятся на краях формантного диапазона) все же выше, чем для НЧ ро-метра в самом лучшем случае.

  Дискриминаторный метод измерения формантных частот имеет много общего с методом ВЧ ро-метра. Используются основные соотношения, получаемые при частотном детектировании сигналов ЧМ. В схему устройства входит амплитудный ограничитель и дискриминатор с Z-образной частотной характеристикой. Напряжение на выходе дискриминатора пропорционально частоте сигнала.

  Теоретический анализ показывает, что оба метода в своей основе идентичны, хотя и оперируют различными величинами. Действительно, сигнал после смещения по частоте вверх и предельного амплитудного ограничения принимает вид сигнала ЧМ. Если дискриминатор имеет идеальную характеристику, то сигнал после него представляет производную фазы сигнала ЧМ. А ро-метр измеряет плотность переходов через нуль, т. е. среднюю частоту сигнала ЧМ, равную средней частоте исходного сигнала.

  Одновременно с методом ро-метра был разработан метод определения средневзвешенной частоты спектра для согласных звуков путем измерения коэффициента корреляции речевого сигнала, спектр которого смещен в область высоких частот. Основой этого способа является следующее обстоятельство.

  Если выбрать временной сдвиг при измерении коэффициента корреляции таким образом, чтобы любая из составляющих спектра, например , удовлетворяла условию , то коэффициент корреляции будет связан линейной функциональной зависимостью со средневзвешенной частотой спектра. Следовательно, измеряя коэффициент корреляции сигнала при сдвиге во времени на , можно определить средневзвешенную частоту спектра.

  Ко второй группе методов измерения формантных частот относится метод фильтрации с помощью комплекта узкополосных фильтров. Можно, например, применить комплект из 36 фильтров. с шириной полосы 100 Гц в диапазоне 150—1000 Гц и с расширением её до 450 Гц (по шкале Кенига) в диапазоне 1000—7000 Гц. Один способ измерения формантных частот (рис. 28а) заключается в последовательном переключении выходов фильтров со скоростью переключения 100 раз в секунду и фиксации местоположения в диапазоне частот, соответствующих спектральным максимумам.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13