Цифровые методы повышения качества и разборчивости речи в аудиоинформационных корпоративных сетях
,
Институт Информационных Технологий, НАНА
Az1141, , e-mail:*****@***ab. az
Известно, что записанный или передаваемый по проводным или радиоканалам с помощью различных технических средств, звуковой, в частности, речевой сигнал в той или иной степени отличается от исходного (оригинального). Такое отличие, в первую очередь, объясняется присутствием в составе записанного у источника или передаваемого по каналам связи (особенно в аналоговых каналах передачи) речевого сигнала помех и искажений, а также особенностями нашего восприятия звуков.
Если полезный сигнал искажен или замаскирован помехой в значительной степени, тогда дальнейшая его обработка в приложениях становится невозможной или сильно затрудненной, возникает необходимость в проведении с звуковым сигналом специальной обработки – шумоочистки в целях повышения качества и разборчивости.
В зависимости от структуры и характеристических параметров трактов записи/воспроизведения и каналов передачи речевой сигнал может быть подвергнут воздействиям различных типов аддитивных и мультипликативных помех.
В централизованных системах, когда запись производится в непосредственной близости от источника, особенно в открытом пространстве, на сигнал воздействуют аддитивные помехи и искажения трактов технических средств обработки.
При передаче речевых сигналов по каналам связи (при распределенной обработке) аддитивная смесь, проходя по трактам передачи, имеющей частотнозависимую передаточную характеристику, претерпевает дополнительные мультипликативные помехи. Известно, что универсального метода обработки, который одинаково эффективно справлялся бы с нестационарными и стационарными, аддитивными и мультипликативными шумами или существенно повышал бы качество и одновременно разборчивость речевых сигналов не существует.
Обычно, проблема шумоочистки в таких системах сводится к подавлению преобладающей компоненты шумовой смеси. На основе анализа и знаний о характере шумов и искажений можно выбрать оптимальный метод и алгоритм цифровой фильтрации преобладающего типа шумового компонента. Такой подход является малоэффективным ввиду того, что некоторые типы помех, особенно в случаях, когда в составе оригинального (исходного) сигнала присутствует несколько типов помех, при таком подходе, остаются неочищенными или частично очищенными
Поэтому, для устранения указанных недостатков в рассматриваемой работе предложен комбинированный метод цифровой фильтрации. Суть данного метода заключается в том, что для шумоочистки речевых сигналов, в составе которых присутствуют несколько типов помех, используется не один определенный метод шумоочистки, а комбинация методов, при том в определенной последовательности, в зависимости от типов присутствующих помех в составе полного сигнала.
Ниже, в целях упорядочения рассмотрения методов очистки сигнала от шума произведена их краткая классификация. Основным признаком при классификации является характер или тип тех закономерностей, которые служат основной для выделения речевого сигнала из смеси с шумом. В качестве вспомогательного признака использовалась классификация по типу математического или алгоритмического аппарата, который использован для фильтрации.
В классификацию включены только аддитивные помехи. В перечне не указаны методы или алгоритмы, которые используются в тех случаях, когда тракты передачи или звукозаписи зашумлены помехами, спектр распределения которых расположен вне тонального диапазона и для их очистки применяются простые аналоговые или цифровые (аппаратные или программные) полоснозависымые фильтры. Также не включены методы для устранения фазовых искажений и те, которые не носят самостоятельного характера. Следует отметить, что приведенная классификация в некотором смысле условна, так как многие из рассматриваемых методов нельзя однозначно отнести к какому-либо конкретному одному классу, так как одни и те же методы используются для шумоочистки различных типов помех. С учетом данных замечаний можно выделить следующие группы (классы) методов цифровой обработки зашумленных речевых сигналов.
1. Методы адаптивной компенсации помех
Этот класс методов цифровой обработки зашумленных сигналов основан на использовании, кроме собственно зашумленного сигнала, который подлежит очистке, также на использовании одного (одноканальный) или двух (двухканальный) опорных сигналов – сигналов, которые коррелированны с шумовым сигналом и некоррелированны (слабокоррелированы) с полезным сигналом. С помощью опорных сигналов формируется сигнал, который является оценкой помехи. Этот сигнал затем вычитается из смеси сигнала с шумом (зашумленного сигнала) и результатирующий сигнал рассматривается как незашумленный сигнал. Адаптивные компенсаторы помех значительно (10-20 dв) улучшают качество зашумленных сигналов, но требование наличия опорного сигнала существенно сужает их область применения, так как во многих применениях цифровой обработки речевых сигналов тип опорных сигналов (т. е. тип помех) априорно не известен и формирует их на основе косвенных соображений.
Эти методы применяются для фильтрации узкополосных стационарных и регулярных помех, также тональных шумов каналов связи (одноканальные фильтры) и некоторых типов нестационарных помех (двухканальные фильтры).
2. Методы, основанные на использовании отдельных характерныхсвойств речевого сигнала
К методам этого типа относятся группы, которые используют периодичность речевых сигналов для построения адаптивного компенсатора помех. Предполагается, что исходный речевой сигнал S(n) строго периодичен с периодом Т, кратным частоте дискретизации, а случайный аддитивный шум V(n) некоррелирован с S(n). Тогда опорный сигнал для адаптивной компенсации вычисляется как помеха r(n):
r(n) = x(n) – x(n+t) , n = …, -1, 0, +1,…
где x(n) – зашумленный сигнал.
Эти методы используются в основном для очистки случайных шумов таких, как треск, щелчки, удары и т. д. и выигрыш в отношении сигнал/шум составляет 7-10 db.
3. Методы, основанные на использовании спектральных характеристик помех
Наиболее часто применяемым методом, основанным на использовании спектральных характеристик шума, является метод реализующий различные модификации алгоритма вычитания амплитудных спектров.
В качестве обоснования этого метода приводятся следующие соображения.
Если стационарный сигнал s(t) со спектральной плотностью мощности Pss(iw) искажен аддитивным стационарным шумом n(t) со спектральной плотностью Pnn(iw), который предполагается некоррелированным с зашумленным сигналом x(t), то спектральная плотность сигнала x(t)
Pxx(iw) = Pss(iw) + Pnn(iw)
Следовательно, спектральная плотность мощности полезного сигнала s(n) может быть вычислена как:
Pss(iw) = Pxx(iw) – Pnn(iw)
При обработке речи на достаточно коротких участках спектра, Pxx(iw), Pnn(iw) аппроксимируют с помощью усредненных квадратов кратковременных амплитудных спектров наблюдаемого (исходного) сигнала и шума. Полученная таким образом оценка соответствует квадрату амплитудного спектра сигнала.
Обработка зашумленных речевых сигналов этим методом показала, что в тех случаях, когда помехи имеют стационарный характер и их спектр имеет гармоническую структуру, достигается значительное на слух повышение (3-6 db) качества и разборчивости речи. Обработка помех с быстроизменяющимися спектральными характеристиками с помощью этого метода менее эффективна.
4. Методы, основанные на использовании математических моделей речевых сигналов в частотной области
Одним из методов обработки зашумленных речевых сигналов, основанных на использование статистических моделей речевого сигнала, является метод, в котором речевой сигнал моделируется скрытой марковской цепью. Идея реализации такого подхода заключается в том, что первоначально, по записям незашумленного речевого сигнала строятся статистические модели единиц речевого потока. После того, как статистическая модель построена для множества состояний речевого (незашумленного) сигнала, по ней можно рассчитать оптимальный фильтр Винера.
При обработке зашумленного сигнала сначала оценивается текущее состояние марковской модели, в соответствии с которым и выбирается оптимальный фильтр. Этот фильтр используется в следующем шаге фильтрации и для получения очередной оценки, и так далее. Во время обработки зашумленного сигнала выполняют декодирование сегмента паузы процедурой Витерби для выбора оптимальной модели шума. Модель шума, обеспечивающая максимальное правдоподобие наблюдаемой (исходной) последовательности используется для обработки сигнала.
Другим методом этого класса, является метод оценивания среднеквадратической ошибки. Как и метод вычитания спектров, этот алгоритм тоже основан на оценке амплитудного спектра речевого сигнала. Здесь оценка амплитудного спектра сигнала по минимуму среднеквадратичной ошибки (оценку сигнала проводят на квазистационарном интервале) определяется из локальных отношений сигнал/шум.
Применение этих методов приводит к значительному (7-10 db) сокращению уровня шума (белый шум, некоторые типы нестационарных помех.) .Общим недостатком этого класса является необходимость иметь априорную информацию о возможных типах помех. Кроме того, для помех нестационарного характера качество обработки намного ухудшается.
5. Методы, основанные на использовании статистических моделей речевых сигналов во временной области
Задача выделения речевого сигнала из смеси с шумом в случае использования достаточно адекватной модели сводится к оценке каким–либо образом параметров этой модели и последующим синтезом и фильтрацией речевого сигнала этим фильтром построенным на основе или с помощью оценочных параметров.
В одном из методов этого класса фильтрация речевого сигнала, заранее моделируемого авторегрессией, осуществляется методами теории оптимального оценивания, например, с помощью оптимального линейного фильтра Кальмана.
Экспериментальные исследования показали, что эти методы могут улучшить качество речевого сигнала с некоррелированным аддитивным белым шумом на 4-6 db.
6. Методы, основанные на использовании психоакустических закономерностей восприятия речевого слуха человеком
В основе развития этого класса методов лежит утверждение, что анализ речи, основанный на модели слуха человека, будет более успешным, чем анализ, основанный на абстрактных моделях речеобразования или статистических марковских моделях.
Базой одного метода является принцип, по которому слух человека наиболее чувствителен к модуляциям в спектральном огибающем сигнале с частотой 2-3 Гц.
Экспериментальная проверка этой методики показала, что существенного увеличения разборчивости речевого сигнала можно добиться путем увеличения модуляционной глубины речевого сигнала до зашумления.
На базе другого метода лежит принцип частотной маскировки, согласно которому сигнал низкого уровня становится неслышимым (замаскированным) при звучании одновременно с ним более сильного сигнала при условии, если маскирующий и маскируемый сигналы достаточно близки друг другу по частоте.
Некоторые применяемые на практике реализации этого метода, предусматривают фильтрацию мешающих частот полосовыми или инжекторными фильтрами. Эти методы применяются в основном для очистки мощных амплитудных спектральных выбросов, также импульсных помех, таких как треск, щелчки, удары и т. д., и выигрыш составляет, примерно, 10-20 db.
Digital methods of improvement of the quality and speech intelligibility in audio-information corporate network..
R. M. Alguliev, B. S. Agayev


