2, 2, 2
2Ульяновский государственный технический университет, 432027, Россия, 2, тел: +7 (8422) 43-92-61, *****@***ru
В статье рассматривается зависимость качества распознавания речевых команд от метрики, применяемой при вычислении расстояния между строками автокорреляционных портретов при использовании метода, основанного на динамическом программировании.
Введение
Задача распознавания речевых команд (РК) возникает, например, при разработке речевых информационно-управляющих систем (РИУС), используемых в авиации. Такая РИУС располагается в кабине самолета и должна адекватно воспринимать и реагировать на РК, произносимые пилотом в условиях интенсивных шумов во время полета. Каждая РК представляет собой последовательность 1-3 слов из некоторого фиксированного словаря.
Для распознавания используют методы, основанные на соотнесении произносимой РК с эталонами, хранящимися в базе данных и произнесенными тем же самым пилотом во время подготовки к полету.
В [1] распознавание РК осуществляется по автокорреляционным портретам (АКП), которые получаются следующим способом. Пусть
– цифровые отсчеты РК. Ее АКП является изображение
, каждый элемент которого есть
![]()
где
– выборочная нормированная корреляционная функция последователь-ности
т. е. выборочный коэффициент корреляции между
и
:
| (1) |
где
| (2) |
| (3) |
выборочные средние и
| (4) |
| (5) |
выборочные дисперсии.
|
|
|
а) | б) | в) |
Рис. 1. АКП слов «скорость» (а, б) и «сброс» (в).
На рисунке 1 приведены примеры АКП. На а) и б) представлены АКП команды «скорость», а на в) – «сброс». Заметно, что АКП одной РК похожи, а АКП разных РК отличаются друг от друга.
Метрики в пространстве АКП
Общий подход к распознаванию РК заключается в поиске расстояния между АКП данной РК и АКП каждого из эталонов и выборе того эталона, до которого это расстояние минимально в некоторой метрике. Если же это минимальное расстояние слишком велико, то команда считается не распознанной. Качество распознавания в значительной мере зависит от используемой метрики.
Для совмещения портретов РК, построен-ных с помощью автокорреляционного преобразования, разработан алгоритм совмещения, основанный на методе динамического программирования [2].
Основные особенности при распознавании РК по их АКП заключаются в следующем:
Количество строк в различных АКП может быть разным. Это связано с различием темпа произнесения, различным количеством квазипериодов в фонемах и т. д. Поэтому некоторые строки одного АКП могут соответствовать одной и той же строке другого АКП и, наоборот, могут найтись такие строки, которые не будут соответствовать ни одной строке другого портрета. Каждая строка одного АКП не может соответствовать строке другого, отстоящей от предыдущей строки с найденным соответствием, более чем наДинамическое программирование используется для оптимизации много-шаговых процессов. В данном случае, многошаговый процесс – распределение строк одного портрета на другом. Отметим, что в нашем случае сама оптимальная раскладка нам и не требуется, нам нужно только знать минимальное суммарное расстояние по совокупности строк. Поэтому выполняется только один этап процедуры динамического программирования – от начала или от конца АКП. Условно оптимальные управления запоминать также не требуется, нужны только условно оптимальные проигрыши – накопленные суммы расстояний между строками.
В нашем эксперименте в качестве расстояния между строками АКП были рассмотрены следующие метрики.
«Сумма квадратов разностей». В этом критерии расстояние между каждой парой строк определяется как
| (6) |
где
– значение
-го отсчета в
-й строке первого АКП;
– значение
-го отсчета в
-й строке второго АКП;
– количество отсчетов в строке АКП;
– расстояние от
-й строки первого АКП до
-й строки второго.
| (7) |
| (8) |
| (9) |
где
- коэффициент корреляции между строками.
Таким образом степень различия двух АКП
и
команд
и
определяется как
| (10) |
где
– расстояние между
-й строкой
и соответствующей ей
-й строкой
.
В качестве
выступает одна из метрик, рассмотренных выше. В (10) рассматривает-ся именно
так как, в соответствии с методом динамического программирова-ния, каждой
-й строке
ищется соответствующая, ближайшая к ней,
-я строка на
, как показано на рисунке 2.

![]()
Рис. 2. Соответствие строк при совмещении АКП команды «скорость»
Рассмотренные выше варианты опреде-ления расстояния между строками АКП при применении метода, основанного на динамическом программировании, были протестированны на реальных данных. В качестве исходных РК для проведения эксперимента был использован список, состоящий из 123 слов авиационной тематики. Всего было распознано 738 РК, по библиотеке, состоящей из 246 команд. То есть в библиотеке, каждая РК имеет два эталона, для увеличения вероятности правильного распознавания.
При проведении эксперимента производи-лось распознавание зашумленных РК по незашумленным эталонам. Для зашумле-ния распознаваемых РК была использована запись шумов в кабине работающего самолета, добавляемая аддитивно к распознаваемой РК. В среднем отношение сигнал/шум составило 0,5.
В таблице приведены средние значения результатов распознавания РК.
Таблица. Результаты эксперимента.
Процент правильно распознанных команд | Процент неправильно распознанных команд | |
Сумма квадратов разностей | 77,03% | 20,70% |
Модуль разности | 79,44% | 16,25% |
Гильбертова метрика | 70,06% | 26,39% |
Корреля-ционный критерий | 37,35% | 60,05% |
Процент неправильно распознанных команд не является обратной величиной к проценту правильно распознанных команд, так как есть еще не распознанные команды.
Так как по результатам эксперимента при распознавании РК по их АКП лучшие характеристики показал «модуль разнос-ти», то его предлагается использовать при разработке современных РИУС.
Список литературы
Основы теории обработки изображений // Учебное пособие. – Ульяновск: УлГТУ, 2003. – с. 113–116. , Распознавание речевых сигналов на фоне шумов // «Распознавание образов и анализ изображений: новые информационные технологии». Труды седьмой международной конференции РОАИ-7, С-Пб, 2004. – с. 752–755.

,


.