, ,
Рязанский государственный радиотехнический университет
Дикторонезависимая система
автоматического поиска ключевых слов
в потоке слитной речи
Разработана дикторонезависимая система автоматического поиска и распознавания ключевых слов в потоке слитной речи. Показано уменьшение размерности вектора признаков и, вследствие, сложности ИНС распознавания, что уменьшает время обучения и дообучения системы.
Успехи в разработке методов распознавания речи и создании коммерческих систем очевидны. Анализ официальных данных производителей о характеристиках систем распознавания свидетельствует о их очень узком практическом применении, в силу того что исходная надежность распознавания до адаптации составляет менее 70%. Поэтому актуальной задачей является разработка дикторонезависимой системы автоматического поиска и распознавания ключевых слов в потоке слитной речи.
В предложенной дикторонезависимой системе целью придания устойчивости к мешающим факторам использованы искусственные нейронные сети (ИНС). Цифровой сигнал записывался в элементы памяти кадров с учетом перекрытия. Каждый кадр подвергался вейвлет-пакетному разложению (ВПР), результаты которого обрабатывались для формирования вектора признаков речевых сигналов (РС). Элементы памяти кадров, узлы ВПР и узлы расчета первичных признаков входили в блок получения первичных признаков PC, которые сохранялись в элементах памяти. Сохраненные первичные признаки речевого сигнала подаются на вход ИНС обнаружителя. Выходной вектор ИНС поступает в решающее устройство, где окончательно производится обнаружение ключевого слова. ИНС и решающее устройство входят в блок принятия решения.
Построена модель системы автоматического поиска ключевых слов и исследован характер зависимости надежности обнаружения ключевого слова от длины кадра, а также коэффициента перекрытия кадров. Исходя из максимальной надежности идентификации диктора, длина кадра была выбрана равной 128 отсчетам, что соответствует 16 мс, перекрытие кадров - в диапазоне от 5% до 10%, а вейвлетный фильтр - Добеши-3 с глубиной ВПР d = 7. Задача оптимизации параметров активационных функций отдельных нейронов ИНС, была решена с использованием комбинированного алгоритма обучения, включающего в себя генетический алгоритм и модифицированный алгоритм обратного распространения ошибки.
Основное отличие данного метода от известного, заключается в выборе пар векторов обучающей выборки (ОВ) по максимальной ошибке. Данный подход позволяет корректировать веса синаптических связей нейронной сети не на основе случайно выбранных векторов ОВ, что требует больше итераций алгоритма, а осуществлять обучение точечно, используя образцы на которых сеть допускает максимальную ошибку.
В результате экспериментального исследования полученных зависимостей определены параметры расчета векторов первичных признаков. Алгоритмы ВПР и распознавания реализованы на базе гетерогенного многослойного персептрона с одним скрытым слоем.
Уровень успешного распознавания набора из 20 ключевых слов при воздействии мешающих факторов, в качестве которых рассматривались импульсные, широкополосные и узкополосные шумы, не опускался ниже 90 процентов.
Показано уменьшение размерности вектора признаков и, вследствие, сложности ИНС распознавания, что уменьшает время обучения и дообучения системы.


