The correct method examination noise suppression algorithms shall used Mean Opinion Score (MOS) value for output signal according to ITU-T P.835 (Subjective test methodology for evaluating speech communication systems that include noise suppression algorithm) recommendation. But these tests are very difficult therefore in this work used MOS approximation (Objective MOS) which proposed in work P. Loizou and Y. Hu. The proposed noise estimation algorithm compared with Improved Minima Controlled Recursive Averaging (IMCRA) noise estimation algorithm, proposed in work I. Cohen, because this is better noise estimation algorithm today.
Table 1 shows compare results proposed noise estimation algorithm with IMCRA noise estimation algorithm.
SNR | Objective MOS | |
Proposed noise estimation algorithm | IMCRA noise estimation algorithm | |
Car noise | ||
5 dB | 2.80 | 2.56 |
10 dB | 2.95 | 2.57 |
15 dB | 3.54 | 2.96 |
Street noise | ||
5 dB | 2.68 | 1.99 |
10 dB | 3.20 | 2.85 |
15 dB | 3.55 | 3.10 |
Train noise | ||
5 dB | 2.46 | 2.40 |
10 dB | 3.00 | 2.63 |
15 dB | 3.09 | 2.65 |
Table 1. The compare results proposed noise estimation algorithm with IMCRA noise estimation algorithm.
¾¾¾¾¾¨¾¾¾¾¾
Способ измерения основного тона речевого сигнала
Институт проблем управления им. РАН, Москва
Основной тон является одной из важных характеристик речевого сигнала. Его вариациями передаются как фонетические признаки звуков, так и существенная часть просодической информации, определяющая характер высказывания, индивидуальные характеристики и эмоциональное состояние диктора.
Для измерения основного тона предложено большое число методов и алгоритмов, тем не менее эта проблема всё ещё далека от окончательного разрешения. В настоящее время наибольшее распространение получили автокорреляционные и кепстральные измерители основного тона [1-3]. При этом каждому из упомянутых измерителей свойственны свои преимущества и недостатки. Так, например, автокорреляционные измерители основного тона, сохраняющие работоспособность при низких отношениях сигнал/шум, в большой степени зависимы от частотных искажений сигнала, в то время как кепстральные измерители, устойчивые к частотным искажениям сигнала, плохо работают при низких отношениях сигнал/шум.
В работе предложен способ измерения основного тона, устойчивый к частотным искажениям, шумам и микровариациям речевого сигнала, позволяющий обойти некоторые ограничения, присущие автокорреляционным и кепстральным измерителям основного тона. В его основе использована видоизменённая процедура фильтрации логарифмического спектра [4].
Описание способа.
Рассмотрим предлагаемый способ на примере отрезка вокализованного речевого сигнала
, заданного на интервале
. Первоначально находится кратковременный амплитудный спектр сигнала
, где
– окно шириной
, обеспечивающее разрешение гармоник
и приемлемый уровень боковых лепестков в спектре
. Далее производится логарифмирование
, в результате чего получаем
. Вслед за этим выполняется высокочастотная фильтрация и последующее нелинейное преобразование отфильтрованного спектра
, (1), где
,
- симметричная конечная импульсная характеристика фильтра высоких частот.
Для пояснения преобразования (1) заметим, что речевой сигнал может быть представлен в виде свёртки
, где
– последовательность импульсов голосового источника,
– импульсная характеристика речевого тракта. В свою очередь
, где
– последовательность
– функций, порождающая
,
– функция, описывающая форму импульса голосового источника. Поэтому
можно представить в виде произведения
. После логарифмирования произведение переходит в сумму
, составляющие которой с разной скоростью изменяются с частотой. А именно, составляющая
, представляющая набор последовательных гармоник с равной амплитудой, быстро изменяется с частотой, в то время как компоненты
и
, определяющие частотную характеристику речевого тракта и спектр импульса голосового источника, сравнительно медленно изменяются с частотой.
Таким образом, в результате выполнения высокочастотной фильтрации спектр выравнивается, в нём сохраняется сравнительно быстро изменяющаяся с частотой компонента
, связанная с гармонической структурой голосового источника
, и подавляются медленно изменяющиеся с частотой составляющие
и
, описывающие частотную характеристику речевого тракта и спектр импульса голосового источника. Нелинейное преобразование
сохраняет гармоники сигнала и удаляет из отфильтрованного спектра компоненты в частотных областях между гармониками сигнала, где отношение сигнал/шум обычно мало и вариации спектра велики, чем обеспечивается снижение влияния фонового шума [5].
Полученный после фильтрации и нелинейного преобразования спектр
, являющейся оценкой спектра
, потенцируется, чтобы получить оценку амплитудного спектра
, определяемую выражением
, где
- основание логарифма.
Для приближения к спектру голосового источника
можно аппроксимировать спектр импульса голосового источника
частотной характеристикой фильтра низких частот
, спадающей с наклоном –12 дБ/окт [6], и получить оценку для
в виде
. В результате с наибольшим весом в
будут выражены низкочастотные гармоники голосового источника, которые, как известно, играют наиболее важную роль в процессе восприятия высоты звука [7]. Такое взвешивание одновременно является эффективным средством снижения влияния на измерение основного тона микровариаций голосового источника, обусловленных изменениями его частоты и формы импульсов.
Располагая спектром
, можно по нему найти автокорреляционную функцию
, и с её помощью оценить период
речевого сигнала, определив координату её главного пика. При нахождении
с помощью дискретного преобразования Фурье для уменьшения эффекта наложения, возникающего вследствие преобразования (1), следует выполнить небольшое сглаживание
.
Результаты исследования
Предложенный способ был исследован на фрагментах речевых сигналов, образцы которых были получены с помощью 16–разрядного АЦП при частоте дискретизации 22,05 кГц. Логарифмические спектры, а также косинус-преобразование Фурье находились с помощью 2048– точечного БПФ. Для этого использовались фрагменты сигналов длительностью 46,4 мс, полученные с помощью 1024–точечного окна Хэннинга, обеспечивающего сравнительно низкий уровень боковых лепестков при спектральном анализе. Недостающие отсчёты при вычислении БПФ дополнялись нулями, что удваивало число спектральных отсчётов и было полезно при обработке логарифмического спектра (1). Высокочастотная фильтрация логарифмического спектра выполнялась с помощью вычитания из исходного спектра сглаженного 17–точечным окном Хэннинга. В силу симметрии дискретного спектра при его сглаживании использовалась циклическая свёртка. После нелинейного преобразования и потенцирования отфильтрованного спектра для уменьшения эффекта наложения при вычислении автокорреляционной функции
проводилось дополнительное сглаживание спектра 3-точечным окном Хэннинга. Требуемый спад амплитуд гармоник в спектре
, полученном в результате обработки, обеспечивался умножением
на частотную характеристику
, описывающую низкочастотный фильтр Баттерворта второго порядка с частотой среза 600 Гц.
На рис.1 показаны последовательные этапы спектральной обработки в предложенном способе на примере отрезка речевого сигнала, являющегося фрагментом гласного в слове “шесть”. На нём приведены: амплитудный спектр
, логарифмический спектр
, отфильтрованный спектр
, спектр
после нелинейного преобразования
, спектр
, полученный после потенцирования и частотной коррекции с наклоном –12 дБ/окт, создаваемой
.
Приведённые зависимости демонстрируют выравнивание амплитуд гармоник сигнала с помощью фильтрации спектра. При этом можно видеть, что полученный в результате обработки спектр
, напоминает спектр голосового источника.
Рис.1.
Для того же самого фрагмента сигнала на рис.2 представлены нормированная функция автокорреляции
, полученная на основе предложенного способа по спектру
, и нормированная автокорреляционная функция
сигнала
, найденная по спектру
.
Рис.2.
Из рисунка легко заметить хорошую выраженность в
импульсов голосового источника вследствие подавления в
осцилляций, обусловленных свёрткой голосового источника
с импульсной характеристикой речевого тракта
и отчётливо наблюдаемых в
. Полученные результаты также позволяют заключить, что использование предложенной обработки логарифмического спектра придаёт
вид, напоминающий автокорреляционную функцию голосового источника.
Наконец, на рис.3 приведены
и
для случая, когда речевой сигнал подвергался полосовой фильтрации, сильно ослабляющей амплитуду его спектральных составляющих вне области его первой форманты
. Можно видеть, что фильтрация несущественно влияет на вид
и положение главного пика
также имеет место на периоде
сигнала. Подобного заключения нельзя сделать о
, так как в результате фильтрации сигнала пик
на
, связанный с первой формантой речевого сигнала
, становится больше по амплитуде пика на периоде сигнала
, что приводит к ошибке измерения основного тона
. Этим подтверждается устойчивость предложенного способа к частотным искажениям сигнала.
Рис.3.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 |


