управление и обработка информации. Автореферат диссертации на соискание ученой степени кандидата технических наук

На правах рукописи

Гладышев

Константин Константинович

ИНФОРМАТИВНЫЕ ПРИЗНАКИ НА ОСНОВЕ ЛИНЕЙНЫХ СПЕКТРАЛЬНЫХ КОРНЕЙ
В СИСТЕМАХ РАСПОЗНАВАНИЯ
РЕЧЕВЫХ КОМАНД

       

Специальность 05.13.01 – Системный анализ,
управление и обработка информации

Автореферат
диссертации на соискание ученой степени
кандидата технических наук

Санкт-Петербург
2010

Работа выполнена на кафедре цифровой вычислительной техники и информатики в Санкт-Петербургском государственном университете телекоммуникаций им. проф. -Бруевича



Научный

руководитель

доктор технических наук, профессор


Официальные оппоненты

доктор технических наук, профессор, заслуженный деятель науки РФ

кандидат физико-математических наук, доцент


Ведущее

предприятие

Санкт-Петербург



Защита состоится «  »  2010 года в  часов на заседании диссертационного совета Д 219.004.02 при Санкт-Петербургском государственном университете телекоммуникаций им. проф. -Бруевича г. Санкт-Петербург, наб. р. Мойки, д. 61.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственном университета телекоммуникаций им. проф. -Бруевича по адресу: г. Санкт-Петербург, наб. р. Мойки, д. 65.



Автореферат разослан «  »  2010 г.



Ученый секретарь

диссертационного совета

кандидат технических наук, доцент 

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящее время по мере роста объемов информации компьютерная техника все больше и больше проникает в человеческую жизнь. Происходит совершенствование интерфейса человек-компьютер. Изобретаются новые способы отображения информации, модернизируются устройства ввода, продолжаются поиски такого интерфейса, который устроил бы всех. На эту роль сейчас претендует интерфейс речевой. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.

НЕ нашли? Не то? Что вы ищете?

Работы в этом направлении велись еще в то время, когда о графическом интерфейсе никто даже и не помышлял. За сравнительно короткий период был выработан исчерпывающий теоретический базис, и практические достижения обуславливались только производительностью компьютерной техники. В 60-70х годах были созданы устройства, способные распознавать десяток речевых команд.

Существенный вклад в развитие систем распознавания речи (СРР) внесли советские и российские ученые -Донской, , зарубежные ученые , , Б. Гоулд, Г. Фант и др. Множество современных идей при создании систем распознавания речи взято из области цифровой обработки сигналов. Большой вклад в теоретическом и практическом планах внесли , , Л. Рабинер, Р. Шафер, Д. Макхоул и др.

Современные разработки, как правило, основываются на бионической модели восприятия речи человеком. Такие системы являются иерархическими, детерминированными, с обучением и состоят из нескольких взаимосвязанных уровней. Выделяются акустическая (получение первичных признаков речевых сигналов) и лингвистическая (работа со словарями) составляющие.

Системы распознавания слитной речи строятся на базе вероятностных моделей грамматики языка. На словарях объемом до 5000 слов достоверность распознавания целых фраз составляет более 95%, что считается достаточным для обеспечения успешного речевого ввода текста на ПК.

Для задачи голосового управления различными устройствами необходимо распознавание отдельных речевых команд. Как правило, такой способ управления требует высокой надежности (99% точности распознавания). Зачастую команды произносятся в условиях повышенной зашумленности, например на производстве. Современные разработки в лабораторных условиях достигают 95% точности на словарях до 100 команд и требуют обучающие выборки больших объемов (10 и более вариантов произнесения каждого слова разными дикторами).

Таким образом, проблема построения эффективных алгоритмов распознавания речевых команд является актуальной.

Целью диссертационной работы является исследование линейных спектральных корней в качестве первичных признаков речевых сигналов, исследование методов работы со словарями эталонов в задаче распознавания речевых команд.

Для достижения поставленной цели необходимо в ходе выполнения теоретических и экспериментальных исследований решить следующие задачи:

провести обзор моделей систем распознавания речи, проанализировать структуру их модулей, выявить основные недостатки; произвести обоснованный выбор метода формирования первичных признаков речевых сигналов; выбрать принцип построения и работы со словарями эталонов; уточнить математическую модель системы распознавания речевых команд; разработать программный комплекс для проведения исследований и тестирования модели распознавания; осуществить проверку предложенных алгоритмов распознавания речевых команд на тестовых выборках, произвести сравнение с существующими СРР.

Научная новизна заключается в результатах расчетно-экспериментальных исследований сигналов речевого командного управления, исследованиях первичных информативных признаков речевых сигналов, принципов построения словарей эталонов и алгоритмов распознавания речевых команд.

Методы исследования. Решение указанных задач осуществлено на основе общих методов системного анализа, теории цифровой обработки сигналов, программирования, методов математической статистики и теории вероятностей.

В качестве инструмента для исследований автором разработан программный комплекс, позволяющий анализировать речевые сигналы, работать с базами данных словарей, производить различные математические расчеты и получать табличное и графическое представление результатов.

Основные положения, выносимые на защиту:

Результаты исследования первичных информативных признаков речевых сигналов, сформированных на основе семейства линейных спектральных корней. Алгоритмы расчета линейных спектральных корней для речевых сигналов и принцип работы со словарем эталонов при распознавании речевых команд. Обобщенная модель распознавания речевых команд с оценкой качества словаря эталонов и достоверности принятия решений. Результаты разработки и практической реализации программного комплекса для анализа и распознавания речевых сигналов.

Практическая ценность. Результаты работы могут быть использованы при построении командных систем голосового управления различными процессами и устройствами.

Результаты внедрения. Результаты научных исследований и практические разработки используются в , г. Санкт-Петербург. Теоретические результаты внедрены в учебный процесс СПбГУТ им. проф. -Бруевича.

Апробация работы. Основные положения, выводы и практические результаты диссертационной работы обсуждались:

    Научная конференция «Вычислительные и информационные технологии в науке, технике и образовании» / ПГУ, Павлодар (Казахстан), 2006. Научная сессия «IX Невские чтения» /  НИЯК, СПб, 2007. IV Всероссийская межвузовская конференция молодых ученых / ИТМО, СПб, 2009.

По теме диссертационной работы опубликовано 8 печатных работ (в том числе одно свидетельство об официальной регистрации программы для ЭВМ), из них 3 работы опубликованы в рецензируемых научных изданиях, входящих в перечень изданий, рекомендуемых ВАК.

Объем и структура диссертации. Диссертационная работа включает введение, четыре главы, заключение, список литературы и приложения. Вся работа изложена на 191 страницах текста, включающих в себя 18 страниц  приложений, 70 рисунков, 10 таблиц. Количество библиографических ссылок – 81.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность проблемы построения эффективных алгоритмов распознавания речевых команд в задаче голосового управления различными процессами и устройствами. Сформулирована цель работы, поставлены задачи исследования.

Глава 1 посвящена анализу проблемы автоматического распознавания речевых сигналов. Подробно рассмотрены состояние и тенденции развития этого направления в России и других странах. Произведен анализ и классификация существующих систем распознавания речи (рис. 1).

Рис. 1. Классификация моделей СРР по различным признакам

       

Современные системы распознавания речи (СРР), как правило, имеют иерархическую модульную структуру. На первом уровне выполняется предварительная обработка – выделение акустических признаков, характеризующих речевые сигналы. Одним из наиболее часто используемых методов является линейное предсказание (ЛП). Полученные на основе ЛП признаки обладают рядом полезных свойств – они просто рассчитываются, дают компактное представление РС, наименее чувствительны к действиям помех.

Следующий уровень СРР является лингвистическим. В него входит процедура поиска по словарям эталонов. В задачах распознавания слитной речи строятся вероятностные грамматики языка, благодаря чему достигается высокая степень распознавания целых фраз.

При распознавании отдельных речевых команд слово произносится диктором без окружающего контекста. Обучение таких систем является трудоемким процессом. Для повышения надежности обычно используются большие обучающие выборки (10 и более вариантов произнесения одного слова разными дикторами). Каждое слово моделируется скрытой Марковской моделью или нейронной сетью.

При построении систем, ориентированных на одного диктора, возможно использование более простого метода поиска по словарям – нелинейного временного выравнивания (динамического программирования). В таком случае в процессе обучения каждый эталон записывается только один раз.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4