Распознавание речевых команд управления с применением фонемного подхода
Российский университет дружбы народов
Описаны методы, используемые программой распознавания команд и произведен анализ результатов ее работы.
Ключевые слова – распознавание, форманта, эталон, вейвлет-преобразование, фонема.
2. Введение
Распознавание речи - процесс преобразования речевого сигнала к последовательности слов, посредством компьютерной программы. Производительность системы распознавания речи обычно определяется с точки зрения точности и скорости. Точность измерена с частотой появления ошибок при распознавании слова, тогда как скорость измерена с коэффициентом реального времени.
По мере развития информационных технологий становится все более очевидным, что использование человеческой речи при работе с компьютерными системами позволит существенно расширить их возможности. Станет возможным речевой ввод и вывод информации. Однако, существующие технологии распознавания речи не имеют пока достаточных возможностей для их широкого использования.
Современные универсальные системы распознавания речи используют разбиение слова на форманты. форманта – это определённая отчетливо выделяющейся в звуковом спектре область усиленных частот, которая определяется по усредненной частотной величине, для разных звуков речи характерны определенные частотные диапазоны формант.
3. Решение задачи распознания
Для распознавания речевых команд был применен фонемный (формантный) подход. Были созданы две информационные базы: первая содержит эталонные фонемы, с которыми сверяются форманты сигнала, а вторая – команды, представляющие собой различные наборы фонем. При этом для каждой голосовой команды учитывается несколько вариантов ее произношения (например, налево = [n a l e v o] || [n a l e v a]).
Решение задачи осуществляется по следующей схеме: сначала подается голосовая команда, которая переводится в цифровую форму, затем она подвергается вейвлет-преобразованию, далее из полученной строки берется начало и сверяется с соответствующим списком эталонных фонем. При совпадении эта часть сигнала отбрасывается и рассматривается следующая, при несовпадении мы ее увеличиваем и повторяем операцию сравнения. Затем вычисляется степень близости фонем распознаваемого слова и эталонной команды, характеризующая степень доверительности результатам распознавания. Вейвлет-преобразование здесь выбрано потому, что оно обеспечивает двумерное представление исследуемого сигнала в частотной области в плоскости частота-положение. Аналогом частоты при этом является масштаб аргумента базисной функции (чаще всего – времени), а положение характеризуется ее сдвигом. Это позволяет разделять крупные и мелкие особенности сигналов, одновременно локализуя их на временной шкале. Преобразование Фурье плохо работает при изменении параметров процесса со временем, поскольку дает усредненные коэффициенты для всего исследуемого образца. Исходя из этих соображений, предпочтение было отдано вейвлет-преобразованию.
4. Экспериментальная часть
Для распознания простых команд, необходимых для управления движением робота-тележки, была написана специальная программа. В систему команд робота входят команды: «право», «лево», «прямо», «реверс», «стоять», «тише» и «рэд».
Экспериментально показано, что программа достаточно хорошо справляется с распознаванием ограниченного числа команд при произнесении их различными дикторами.
Ниже в таблице показаны результаты распознавания различных речевых команд.
Команды Способ | Тихо | Громко | Быстро | Медленно |
Прямо | 42%(240) | 91%(640) | 81%(360) | 88%(422) |
Реверс | 70%(80) | 93%(590) | 92%(320) | 97%(670) |
Стоять | 68%(185) | 95%(140) | 97%(510) | 92%(451) |
Направо | 52%(280) | 82%(551) | 79%(313) | 77%(385) |
Налево | 56%(370) | 96%(466) | 93%(280) | 92%(240) |
Тише | 77%(120) | 98%(340) | 96%(275) | 97%(270) |
Быстрее | 67%(95) | 93%(477) | 90%(320) | 95%(316) |
Здесь отображены процент распознавания и средняя ошибка соответствующих команд, введенных тихим и громким голосом, в медленном и быстром темпе. Команды произнесенные в быстром, медленном и в обычном темпе имеют практически одинаковый процент распознавания, что обусловлено применением фонемного подхода и Скрытых Марковских Модели. Однако, в данной программе желательно избегать подачи команд шепотом.
5. Заключение
В докладе описан принцип работы программы и представлены результаты ее работы. Было показано, что в случае подачи команд четким голосом достигается достаточно высокий процент распознавания. Задачей дальнейших исследований является введение нейронной сети для увеличения имеющегося процента распознавания громкого и среднего голоса и повышения чувствительности системы для лучшего распознавания команд, подающихся тихим голосом.
Литература
1. , Распознавание речевых команд управления на основе вейвлет-преобразования // Изд-во РНИИКП. – 2010.
2. Rabiner L. R., Schafer R. W. — Digital Processing of Speech Signals, 1978.
3. Сжатие речевых сигналов с использованием ортогональных и биортогональных вейвлет-функций, сборник трудов магистров, ДонНТУ, 2005.
THE VOICE CONTROL COMMAND RECOGNITION
USING THE PHONEME APPROACH.
Mokrov E. V.
Peoples’ Friendship University of Russia
In this paper, we describe methods, used in the recognition program, and we analyse some experimental results, given in the program.
Key words – recognition, formant, etalon, wavelet-transformation, phoneme.


