


Рис. 7. Образы слова «сообщение» для двух разных дикторов



Рис. 8. Образы слова «настройки» для двух разных дикторов
Оценка меры близости между входным РС и эталоном производится с помощью метода нелинейного временного выравнивания (динамического программирования). Это один из наиболее мощных и широко известных математических методов современной теории управления, был предложен в конце 50-х годов американским математиком Р. Беллманом для решения оптимизационных задач. Метод позволяет сравнивать разные по длительности образцы. Применимо к речевым сигналам это означает, что сравнение с эталонами возможно практически независимо от темпа речи.
Пусть сравнивается два образца сигналов, представленных в виде массива векторов (для РС это наборы ЛСК):
и
. (16)
Различие между векторами двух образов определяется последовательностью состояний
и обозначается:
, (17)
где
и
– начальное и конечные состояния,
функция временного выравнивания, которая проецирует временную область одного образа на временную область другого образа.
Метод ДП заключается в том, что ищется такая функция
, при которой путь из состояния
в состояние
, является оптимальным, т. е. будет получено минимальное накопленное расстояние между двумя образами.
При построении оптимального пути, на каждом шаге алгоритма используется основная формула ДП:
, где
. (18)
В качестве расстояния между векторами используется взвешенная евклидова метрика:
, (19)
где N_SEC – размерность векторов признаков.
На выходе процедуры сравнения получается некоторое число (мера близости), представляющее собой величину, обратную степени близости между сигналами.
Процедура поиска по словарю заключается в последовательном сравнении входного сигнала с каждым из эталонов речевых команд. В табл. 1 показан результат поиска команды «сообщение» в словаре из четырех командных слов. В результате входной сигнал правильно распознан системой. На рис. 9 отображаются траектории кратчайших переходов по кадрам от эталонных сигналов к распознаваемому. Данные по оси ординат нормированы по длительности эталонных сигналов. По оси абсцисс идут номера кадров входного сигнала. Участки с крутыми переходами между точками отображают автоматическое временное масштабирование сигналов. Это происходит, например, если при произнесении диктором растягивается гласный звук.
Таблица 1
Эталон командного слова | Мера близости |
Сообщение | 1,85 |
Журнал | 5,13 |
Диспетчер | 6,82 |
Календарь | 4,33 |
Идеальный случай, когда распознаваемый сигнал совпадает с эталонным, представляет собой диагональную ступенчатую траекторию из левого нижнего угла в верхний правый. На рис. 9 для эталонов «журнал» и «календарь» наблюдается существенное отклонение от диагонали, что может являться дополнительным критерием для принятия решения при распознавании слов.


Рис. 9. Оптимальные траектории при сравнении с эталонами
До того как будет распознано целое командное слово, на базе предложенной модели возможно распознавание более мелких речевых единиц. Это позволит сократить область поиска в словаре и повысить точность алгоритма. На рис. 11 представлен результат распознавания целого слова «режимы» на словаре, состоящем из набора слогов. В качестве одного из элементов словаря используется «эталон тишины» (обозначен как «_»), что позволяет без применения дополнительных алгоритмов выделять паузы в речевых сигналах.


Рис. 10. Временная диаграмма слова «ре-жи-мы»


Рис. 11. Результат поиска слогов: «__ререре__жижижижи_мымыомымы____»
Входной сигнал разбивается на кадры по средней длине эталонов. На графике показаны диаграммы меры близости до каждого из эталонов для всех кадров речевого сигнала. В результате получаем последовательность распознанных слогов. Путем свертки и дальнейшей семантической обработки возможно получение целого слова. Данная методика может использоваться для построения СРР на словарях больших объемов.
Предложено решение задача поиска слов в непрерывном речевом потоке. В качестве элементов словаря используются целые слова. На вход системы подается продолжительный участок речевого сигнала. В данном примере, фраза: «Черная тойота номер три два один в сторону Питера» (рис. 12).
Поиск идет без предварительной сегментации фразы на отдельные слова. На рис. 12 и 13 наблюдаются локальные минимумы в области искомых эталонных единиц. На рис. 15 ярко выраженного минимума нет, так как искомое слово («зеленая») не было произнесено в предложении. Соотношение значения средней меры близости по всем кадрам РС и значения меры близости на локальном минимуме является критерием, позволяющим автоматически определять, присутствует ли вообще искомое слово в анализируемой фразе.


Рис. 12. Временная диаграмма целой фразы


Рис. 13. Поиск слова «черная» (соотношение меры близости = 0,5)


Рис. 14. Поиск слова «номер» (соотношение меры близости = 0,5)


Рис. 15. Поиск слова «зеленая» (соотношение меры близости = 0,8)
Критерий для оценки достоверности распознавания слов
При распознавании речевых команд на базе словаря из набора целых слов, получается таблица со значениями меры близости до элементов словаря. Эталон с минимальным значением является искомым – распознанным. Даже если на вход системы будет подано слово, не входящее в словарь, в любом случае будет получен результат – один из эталонов. Что приведет к ошибке распознавания.
Предложено решение задачи автоматического отсеивания ложных срабатываний системы. Таблица результатов распознавания нормируется (табл. 2). Далее подсчитывается разница в значении меры близости между первым и вторым эталоном. В данном примере это 0,73. Если эта разница не превышает пороговое значение 0,5, то слово будет считаться нераспознанным и системой будет выдан запрос на повторный ввод команды. Предложенный критерий позволяет оценивать достоверность распознавания текущего слова.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 |


