Введем обозначения, принятые в работе [4]:
- a-posteriori отношение сигнал/шум;
- a-priori отношение сигнал шум;
-
-ый коэффициент ДПФ выходного сигнала;
Используя введенные обозначения, вычислим отношение правдоподобия в каждой полосе кратковременного ДПФ.
(3)
Учитывая, что логарифм является неубывающей функцией, прологарифмируем выражение (3) и получим решающее правило по критерию максимального правдоподобия.
, (4)
В работе [4] было показано, что оценка
по критерию максимального правдоподобия вычисляется как
. Подставляя оценку
в (4) получим решающее правило в виде
(5)
Рассмотрим функцию
, (6)
Это возрастающая функция для
. На этом интервале функцию (6) можно заменить линейной. Так как
лежит в интервале
, решающее правило будет иметь следующий вид
, (7)
Оценка шума, в предлагаемом алгоритме производится с использованием рекурсивного фильтра первого порядка с различными постоянными времени на нарастание и спад.
если 
если
(8). Где
,
- коэфициенты сглаживания.
Оценка шума при наличии речевого сигнала, производиться с высокой постоянной времени
. В связи с тем, что на речевом сигнале оценка шума возрастает, величина
уменьшается. Это приводит к ошибочному сбросу детектора на длинных фразах. Снижение порога
приводит к ошибкам детектора. Для решения описанной проблемы была добавлена схема удержания на основе скрытой марковской модели. В основу модели была положена следующая идея: если на прошлом шаге детектор выдал решение о наличии речевого сигнала, вероятность обнаружения речевого синала на следующем шаге – увеличивается
. (9)
Предположим, что марковский процесс не зависит от времени, и введем следующие обозначения
,
. Из теории вероятностей известно, что
и
.
Используя процедуру, описанную в работе [10], получим решающее правило
(10)
3. Экспериментальные результаты
Для проверки эффективности предложенного алгоритма была реализованна адаптивная система фильтрации зашумленного речевого сигнала с алгоритмом адаптивной фильтрации, описанным в работе [4]. Эффективность алгоритма оценивалась на векторах с различными типами шумов и различным отношением сигнал/шум. Были использованы вектора из базы NOIZEUS (http://www. utdallas. edu/~loizou).
Оценка качества адаптивной системы фильтрации зашумленного речевого сигнала согласно рекомендации ITU-T P.835 [6] является очень трудоемкой и ресурсоемкой задачей, поэтому в ходе экспериментов использовалась методика апроксимации MOS предложенная в работе [5] для адаптивных систем фильтрации зашумленного речевого сигнала, данная методика имеет коэффициент корреляции с MOS равный 0.9. Во избежание путаницы в терминологии определим аппроксимацию MOS, предложенную в работе [5] , как OMOS (Objective Mean Opinion Score).
Экспериментальные результаты сведены в таблице 1. Сравнение проводилось с алгоритмом, предложенным в работе [2], поскольку этот алгоритм оценки шума является наиболее эффективным на сегодняшний день.
Таблица 1 Objective Mean opinion score (OMOS) для адаптивной системы фильтрации
зашумленного речевого сигнала с различными алгоритмами оценки шума
Отношение сигнал/шум, (SNR) | OMOS | |
Предложенный алгоритм | IMCRA | |
Шум автомобиля | ||
5 dB | 2.80 | 2.56 |
10 dB | 2.95 | 2.57 |
15 dB | 3.54 | 2.96 |
Шум улицы | ||
5 dB | 2.68 | 1.99 |
10 dB | 3.20 | 2.85 |
15 dB | 3.55 | 3.10 |
Шум поезда | ||
5 dB | 2.46 | 2.40 |
10 dB | 3.00 | 2.63 |
15 dB | 3.09 | 2.65 |
4. Заключение
В данной статье был предложен новый, эффективный с вычислительной точки зрения, алгоритм оценки шума для адаптивных систем фильтрации зашумленного речевого сигнала, обеспечивающий более высокое качество речи по сравнению с аналогичными алгоритмами.
Литература
[1] I. Cohen, “Speech enhancement for nonstationary noise environments”, Signal Process., vol. 81, no. 11, pp. 2403–2418, Nov. 2001.
[2] I. Cohen, “Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging”, IEEE Trans. Speech and Audio Processing No. 5, September 2003, pp. 406-475.
[3] G. Doblinger, “Computationally efficient speech enhancement by minima tracking in subbands”, in Proc. 4th Eur. Conf. Speech, Communication, and Technology, EUROSPEECH’95, Madrid, Spain, Sept. 18–21, 1995, pp. 1513–1516.
[4] Y. Ephraim, D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator”, IEEE Trans. Acoustic Speech Signal Processing ASSP-32, December 1984, pp. 1109-1121.
[5] Y. Hu, P. Loizou, “Evaluation of objective measures for speech enhancement, Proceedings of INTERSPEECH-2006, September 2006.
[6] ITU-T Recommendation P.835, “Subjective test methodology for evaluating speech communication systems that include noise suppression algorithm”, November 2003.
[7] D. Malah, R. V. Cox, and A. J. Accardi, “Tracking speech-presence uncertainty to improve speech enhancement in nonstationary noise environments”, in Proc. 24th IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP’99), Phoenix, AZ, Mar. 15–19, 1999, pp. 789–792.
[8] R. Martin, “Spectral subtraction based on minimum statistics”, in Proc. 7th Eur. Signal Processing Conf. (EUSIPCO’94), Edinburgh, U. K., Sept. 13–16, 1994, pp. 1182–1185.
[9] S. Rangachari, P. Loizou, Y. Hu, “A Noise estimation algorithm with rapid adaptation for highly non-stationary environments”, in Proc. 29th IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP’2004), pp. 305-308.
[10] J. Sohn, N. Kim, ng, “A Statistical Model-Based Voice Activity Detection”, IEEE Signal Processing Letters, January 1999, pp. 1-3.
¾¾¾¾¾¨¾¾¾¾¾
SUB-BAND NOISE ESTIMATION ALGORITHM FOR SINGLE CHANNEL SPEECH ENHANCEMENT
Kuznetsov A.
Moscow State Technical University by named after Bauman
The noise estimation algorithm is a very important part of single channel speech enhancement systems. There are many algorithms proposed today. Two types of noise estimation algorithms exist: noise estimation by VAD decision and noise estimation without VAD. The noise estimation by VAD decision algorithms has high sensitivity to false VAD decision. The noise estimation without VAD algorithms has minimal resources consumption but has low noise estimation precision.
The proposed sub-band noise estimation algorithm has independent VAD in each sub-band. Assume the signal in each sub-band has Gaussian distribution. The VAD rule obtains by maximal likelihood estimation. The recursive first order low pass filter controlled by VAD is used in each sub-band for noise estimation. This filter has different response time for growth and recession. The growth speed shall be less than recession speed. Also uses different growth response time of noise estimation filter for noise estimation during noisy speech and during noise only. This is very important in the non-stationary noise environment. However the estimation a-posteriori SNR is decreased during noisy speech and error rate of sub-band VAD is increased. For resolving this problem is used hidden Markov chain. The hidden Markov model created with the next assumption. The detecting speech probability on the next frame is increased if on previously frame VAD detected speech.
For examination proposed algorithm developed noise suppressor. This noise suppressor uses Y. Ephraim and D. Malah rule and proposed noise estimation algorithm.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 |


