, ,

Рязанский государственный радиотехнический университет

Дикторонезависимая система

автоматического поиска ключевых слов

в потоке слитной речи

Разработана дикторонезависимая система автоматического поиска и распознавания ключевых слов в потоке слитной речи. Показано уменьшение размерности вектора признаков и, вследствие, сложности ИНС распознавания, что уменьшает время обучения и дообучения системы.

Успехи в разработке методов распознавания речи и создании коммерческих систем очевидны. Анализ официальных данных производителей о характеристиках систем распознавания свидетельствует о их очень узком практическом применении, в силу того что исходная надежность распознавания до адаптации составляет менее 70%. Поэтому актуальной задачей является разработка дикторонезависимой системы автоматического поиска и распознавания ключевых слов в потоке слитной речи.

В предложенной дикторонезависимой системе целью придания устойчивости к мешающим факторам использованы искусственные нейронные сети (ИНС). Цифровой сигнал записывался в элементы памяти кадров с учетом перекрытия. Каждый кадр подвергался вейвлет-пакетному разложению (ВПР), результаты которого обрабатывались для формирования вектора признаков речевых сигналов (РС). Элементы памяти кадров, узлы ВПР и узлы расчета первичных признаков входили в блок получения первичных признаков PC, которые сохранялись в элементах памяти. Сохраненные первичные признаки речевого сигнала подаются на вход ИНС обнаружителя. Выходной вектор ИНС поступает в решающее устройство, где окончательно производится обнаружение ключевого слова. ИНС и решающее устройство входят в блок принятия решения.

НЕ нашли? Не то? Что вы ищете?

Построена модель системы автоматического поиска ключевых слов и исследован характер зависимости надежности обнаружения ключевого слова от длины кадра, а также коэффициента перекрытия кадров. Исходя из максимальной надежности идентификации диктора, длина кадра была выбрана равной 128 отсчетам, что соответствует 16 мс, перекрытие кадров - в диапазоне от 5% до 10%, а вейвлетный фильтр - Добеши-3 с глубиной ВПР d = 7. Задача оптимизации параметров активационных функций отдельных нейронов ИНС, была решена с использованием комбинированного алгоритма обучения, включающего в себя генетический алгоритм и модифицированный алгоритм обратного распространения ошибки.

Основное отличие данного метода от известного, заключается в выборе пар векторов обучающей выборки (ОВ) по максимальной ошибке. Данный подход позволяет корректировать веса синаптических связей нейронной сети не на основе случайно выбранных векторов ОВ, что требует больше итераций алгоритма, а осуществлять обучение точечно, используя образцы на которых сеть допускает максимальную ошибку.

В результате экспериментального исследования полученных зависимостей определены параметры расчета векторов первичных призна­ков. Алгоритмы ВПР и распознавания реализованы на базе гетерогенного многослойного персептрона с одним скрытым слоем.

Уровень успешного распознавания набора из 20 ключевых слов при воздействии мешающих факторов, в качестве которых рассматривались импульсные, широкополосные и узкополосные шумы, не опускался ниже 90 процентов.

Показано уменьшение размерности вектора признаков и, вследствие, сложности ИНС распознавания, что уменьшает время обучения и дообучения системы.