Создание мультимодального интерфейса с голосовым управлением, синтезом речи и распознаванием визуальных команд на основе персонального компьютера

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

И. А. ПОПОВ, В. И. ЧУЧКИН

Московский инженерно-физический институт (государственный университет)

СОЗДАНИЕ МУЛЬТИМОДАЛЬНОГО ИНТЕРФЕЙСА
С ГОЛОСОВЫМ УПРАВЛЕНИЕМ, СИНТЕЗОМ РЕЧИ
И РАСПОЗНАВАНИЕМ ВИЗУАЛЬНЫХ КОМАНД
НА ОСНОВЕ ПЕРСОНАЛЬНОГО КОМПЬЮТЕРА

Большинство современных человеко-машинных интерфейсов предоставляют достаточные возможности для взаимодействия человека с машиной, тем не менее существует широкий круг задач, для которых требуется разработка альтенативных или существенное улучшение существующих. Путем усовершенствования интерфейсов является внедрение мультимодальности – использование звукового, визуального и тактильного способа передачи информации. В разработке подобного вида интерфейсов в настоящее время наилучшие результаты получены в областях авиационной, автомобильной, широкого спектра военной техники [1].

В широко распространенных и массовых компьютерах и компьютеризированных устройствах, таких как персональные компьютеры, КПК, мобильные телефоны, информационные терминалы, банкоматы подобные технологии только разрабатываются и пока не имеют достаточного количества испытанных и внедренных образцов. В то же время существует большая группа пользователей таких устройств – люди с физическими недостатками (глухонемые, слепые, парализованные, с ограниченной подвижностью и т. п.), которые не в состоянии или с трудом могут использовать традиционные интерфейсы работы с ними.

Прогресс информационных технологий в последнее время подтолкнул данную область к интенсивному развитию[2]. Многие научные центры и компании проводят в данном направлении исследовательскую деятельность, среди них IBM, AT&T, Microsoft, University of Edinburgh с проектом TALK, Fraunhofer Institute for Computer Graphics, Dresden University of Technology и многие другие. Международные стандартизующие организации такие как IEEE и W3C вырабатывают в настоящее время международные стандарты и спецификации на мультимодальные интерфейсы.

НЕ нашли? Не то? Что вы ищете?

В проводимом исследовании производится исследование и разработка интерфейса, относящегося к классу мультимодальных интерфейсов не содержащих тактильного взаимодействия с устройством, а включающего визуальное и голосовое управление с распознаванием речи, распознавание положения глаз или мимики лица и выдачи информации с помощью синтеза речи и вывода визуальной графической информации. Данный тип интерфейса может быть полезен в информационных терминалах и системах массового обслуживания без тактильного контакта пользователей с интерфейсом системы и в устройствах для людей с ограниченной подвижностью и различными физическими недостатками [3].

Концепция работы системы

Создаваемая система на базе ПК предполагает наличие в его составе монитора для отображения графической информации, камеры, совмещенной с монитором и направленной на пользователя или на его лицо. Для ввода звука используется микрофон, для вывода – динамики. Пользователь этой системы находится непосредственно перед монитором в поле зрения камеры и в области чувствительности микрофона.

Принципы работы

Запущенное на ПК программное обеспечение осуществляет анализ получаемых от камеры изображения и микрофона звука, передает распознанные команды специальному ПО, которое обрабатывает их и управляет синтезом речи и выводом графической информации на монитор. Для выполнения различных функций данной системы используются специализированные пакеты распознавания и синтеза речи, а также распознавания визуальных образов. Все применяемые программные пакеты интегрируются в единую систему с основным функциональным программным обеспечением и модулем стандартного графического пользовательского интерфейса.

Состояние разработки

В настоящее время проводится исследование технических средств и их параметров для построения такого класса интерфейсов. Для распознавания речи рассматривается возможность использования пакета Scansoft Dragon Naturally Speaking, для синтеза речи пакета Scansoft Text-To-Speech Engine. Проводятся исследования по выбору пакета распознавани образов. Для ввода визуальной информации выбраны несколько моделей сетевых цифровых видеокамер Axis.

Планируется создания прототипа на базе персонального компьютера и ОС Windows.

Список литературы

1. Handbook of Human Computer Interaction, 2d edition, Landauer, Prabhu ( Elsevier Science B. V., 1997)

2. Multimodal interfaces, Oviatt in The Human-Computer Interaction Handbook, Jacko, Sears (Lawrence Erlbaum Associates, 2003).

3. Designing the user interface: strategies for effective human-computer interaction, Shneiderman (Addison-Wesley, 1998).

НЕ нашли? Не то? Что вы ищете?

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Создание мультимодального интерфейса с голосовым управлением, синтезом речи и распознаванием визуальных команд на основе персонального компьютера

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы