Табл. 1. Зависимость идентификации от типа речевого сигнала

Сигнала

Вероятность идентификации, %

mp3, 64 кбит/с, 22 кГц

93

mp3, 32 кбит/с, 22 кГц

89

mp3, 16 кбит/с, 11 кГц

81

mp3, 8 кбит/с, 8 кГц

52

При расчетах несколько изменились веса мер различимости, а именно, снизилось доверие коэффициентам линейного предсказания. При скорости потока от 32 кбит/с и выше основные характеристики сигнала практически не изменяются и не влияют на точность идентификации. Даже при большом сжатии речевого сигнала (8 кбит, 8 кГц) сохраняются параметры голоса диктора, необходимые для распознавания.

Вероятность идентификации при наложении белого гауссовского шума. При наложении белого гауссовского шума получились результаты, представленные в табл. 2.

Табл.2 Зависимость правильной идентификации от качества сигнала

Соотношение сигнал/шум, дБ

Вероятность идентификации, %

0

65

12

81

18

88

24

93

Наблюдалась следующая зависимость: чем больше уровень шума, тем хуже работают коэффициенты линейного предсказания и частота основного тона. При соотношении сигнал/шум менее 6 дБ оказалось невозможным выделить основной тон автокорреляционным методом. Также установлено, что при соотношении сигнал/шум более 24 дБ наличие шума на вероятность идентификации не влияет.

Сравнение системы идентификации с другими, разработанными ранее системами. Различными российскими организациями и университетами разработано несколько подобных систем идентификации. Некоторые из них успешно используются на практике. Ниже представлены вероятности распознавания дикторов при следующих ограничениях: сигнал/шум не менее 10 дБ, полоса частот сигнала – не уже 300-3400 Гц, частота дискретизации 8-22,050 кГц, разрядность 8-16 бит.

НЕ нашли? Не то? Что вы ищете?

1.  Система, разработанная на кафедре БИТ ТРТУ, г. Тарту, выдает результат идентификации порядка 95%.

2.  SVI System (СПИРИТ-Телеком) - до 99%.

3.  Комплекс «Трал» компании «Центр речевых технологий» обеспечивает вероятности распознавания для сигнала телефонного качества: 91% при сравнении пары речевых сигналов длительностью не менее 96 секунд, 85% – при сравнении пары речевых сигналов длительностью 16 секунд и 96 секунд.

Система, разработанная в рамках данной работы, обеспечивает вероятность распознавания, соизмеримую с полноценными системами идентификации диктора, представленными выше. При некоторой доработке системы можно добиться достаточной эффективности работы для использования в реальной практике распознавания речевых сигналов.

Литература

1.  , Шафер обработка речевых сигналов. – М.: Радио и Связь, 1981, 494 с.

2.  , еория и применение речевой обработки сигналов. - М.: Мир, 1978. 848 с.

3.  , , Поляк обработка сигналов: учеб. пособ. – М.: Радио и связь, 1990. 256 с.

4.  Карташев теории дискретных сигналов и цифровых фильтров. – М.: Высшая школа, 1982. 108 с.

5.  Брюханов цепи и сигналы: учеб. пособ. / – 2-е изд., перераб. и доп. ‑ Ярославль: ЯрГУ, 2005. 154 с.

6.  , , Иванов многоскоростная фильтрация узкополосных процессов // Докл. первой междунар. конф. и выст. «Цифровая обработка сигналов и ее применения», М. 1998. Т. I, C. 155-160.

7.  , , Поляк обработка сигналов: Справочник. – М.: Радио и связь, 1985. 312 с.

8.  , Шафер обработка сигналов: Пер. с англ. – М.: Связь, 1979. 416 с.

9.  Применение цифровой обработки сигналов / Под ред. Э. Оппенгейма: Пер. с англ. – М.: Мир, 1980. 550 с.

10.  , ифровые фильтры и их применение: Пер. с англ. – М.: Энергоатомиздат, 1983. 360 с.

11.  Хэмминг фильтры / Под ред. . – М.: Мир, 1980. 224 с.

12.  Прокис Дж. Цифровая связь: Пер. с англ. – М.: Радио и связь, 2000. 800 с.

FEATURES OF THE SPEAKER RECOGNITION SYSTEMs STUDY OF THE ALGORITHMS

Levin A., Uldinovich S.

Yaroslavl State University
14 Sovetskaya st., Yaroslavl, Russia 150000. Phone: 7-4852-797775. *****@***ac. ru

Speaker recognition, or voice recognition is the task of recognizing people from their ch systems extract features from speech, model them and use them to recognize the person from his/her voice. There is a difference between speaker recognition (recognizing who is speaking) and speech recognition (recognizing what is being said).

Speaker recognition has a history dating back some four decades, where the output of several analog filters was averaged over time for matching. Speaker recognition uses the acoustic features of speech that have been found to differ between individuals. These acoustic patterns reflect both anatomy (e. g., size and shape of the throat and mouth) and learned behavioral patterns (e. g., voice pitch, speaking style).

Defining the beginning and ending points of the phrase. In the presence of noise in the signal, it is important to recognize automatically the beginning and end of phrases. To solve this problem the energy of the signal and the zero-crossing number is used effectively. In areas where the signal energy does not exceed the energy of noise the number of crossing zero would lead to more accurately determination.

Calculation of the basic tone. Frequency of the basic tone is important characteristic of voice, carrying information about intonation, speech melody. There are several methods for determining the basic tone: spectral, cepstral, autocorrelational or based on linear prediction. Using spectral analysis and the method of linear prediction coefficients may require much computing time. Autocorrelational method is considered to be optimal

Energy calculation. Easy realizable, but quite effective step ina the speech recognition system. Most expect identification systems for the entire station is not energy but an intensity function which has less randomly bursts and noise. Optimal intensity measurement is made using a 10-20 ms rectangular window.

Linear prediction analysis. The coefficients of linear prediction determine the denominator of th filter function, which describes speakers voice tract. A form of the function of linear prediction coefficients carries a lot of helpful information for the analysis and speech identification. There are many ready algorithms to quickly calculate the function of coefficients.

Formant analysis. One of the most complicated task is the determination of the formant frequencies. The main difficulties are the two factors: frequency bands may overlap, and the frequency sometimes so strongly converging so it becomes impossible to separate them. Many solutions to the problem were developed, but these difficulties often led to disruptions. The more successful method is analysis via synthesis. The system generates speakers-like spectrum, providing a minimum mean square deviation of the actual speech spectrum. Options used in generating the spectrum are accepted as formant frequencies and widths.

Comparison of parameters with a bench-mark signal. Speaker is not capable to repeat exactly the same phrase twice, so the time-based functions require nonlinear transformation of the time scale for the more exact match. The problem is solved by the dynamic programming algorithm.

The system, developed as part of the work commensurate with the full speakers recognition system. Refining the system may be sufficient to achieve the effectiveness of the work for use in actual practice.

¾¾¾¾¾¨¾¾¾¾¾

Алгоритм распознавания команд с ограниченным словарем

,

Ярославский государственный университет им.

150000, Россия, Ярославль, ул. Советская, 14. Тел. (4852) 79-77-75. *****@***ac. ru

Система распознавания речевой информации является частным случаем системы автоматического распознавания образов [1-5], которая, как правило, включает в себя три основных этапа: получение исходного параметрического описания сигнала; нахождение эффективной системы признаков; построение решающего правила.

Если второй и третий этапы более или менее легко поддаются алгоритмизации, то первый этап формализовать довольно трудно. Поэтому исходное описание, как правило, задается лишь на основании опыта и интуиции человека, создающего алгоритм. Это особенно ярко проявляется в тех задачах, где заранее трудно указать те характеристики сигнала, которые могут быть ответственны за те или иные свойства и проявления данного объекта. Исследование речевого сигнала с точки зрения поставленных задач показывает, что информативностью может отличаться большое количество различных характеристик сигнала. Обычно эти характеристики составляют большой массив данных, эффективность которых, однако, не может быть заранее оценена, пока не будет выяснено, как велика избыточность этого массива, и каково количество содержащейся в нем излишней информации.

Помимо таких соображений пространство исходного описания, имеющее высокую размерность, существенно осложняет также и формирование решающего правила и создает серьезные трудности вычислительного характера. Отсюда возникает дополнительная задача сокращения исходного числа параметров изучаемого объекта до такого числа, которое обеспечит получение необходимого результата. Поэтому выбор параметров речевого сигнала, способных наилучшим образом описать его смысловое содержание, является, пожалуй, самым важным этапом при построении автоматических систем распознавания речи.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6