И. А. ПОПОВ, В. И. ЧУЧКИН
Московский инженерно-физический институт (государственный университет)
СОЗДАНИЕ МУЛЬТИМОДАЛЬНОГО ИНТЕРФЕЙСА
С ГОЛОСОВЫМ УПРАВЛЕНИЕМ, СИНТЕЗОМ РЕЧИ
И РАСПОЗНАВАНИЕМ ВИЗУАЛЬНЫХ КОМАНД
НА ОСНОВЕ ПЕРСОНАЛЬНОГО КОМПЬЮТЕРА
Большинство современных человеко-машинных интерфейсов предоставляют достаточные возможности для взаимодействия человека с машиной, тем не менее существует широкий круг задач, для которых требуется разработка альтенативных или существенное улучшение существующих. Путем усовершенствования интерфейсов является внедрение мультимодальности – использование звукового, визуального и тактильного способа передачи информации. В разработке подобного вида интерфейсов в настоящее время наилучшие результаты получены в областях авиационной, автомобильной, широкого спектра военной техники [1].
В широко распространенных и массовых компьютерах и компьютеризированных устройствах, таких как персональные компьютеры, КПК, мобильные телефоны, информационные терминалы, банкоматы подобные технологии только разрабатываются и пока не имеют достаточного количества испытанных и внедренных образцов. В то же время существует большая группа пользователей таких устройств – люди с физическими недостатками (глухонемые, слепые, парализованные, с ограниченной подвижностью и т. п.), которые не в состоянии или с трудом могут использовать традиционные интерфейсы работы с ними.
Прогресс информационных технологий в последнее время подтолкнул данную область к интенсивному развитию[2]. Многие научные центры и компании проводят в данном направлении исследовательскую деятельность, среди них IBM, AT&T, Microsoft, University of Edinburgh с проектом TALK, Fraunhofer Institute for Computer Graphics, Dresden University of Technology и многие другие. Международные стандартизующие организации такие как IEEE и W3C вырабатывают в настоящее время международные стандарты и спецификации на мультимодальные интерфейсы.
В проводимом исследовании производится исследование и разработка интерфейса, относящегося к классу мультимодальных интерфейсов не содержащих тактильного взаимодействия с устройством, а включающего визуальное и голосовое управление с распознаванием речи, распознавание положения глаз или мимики лица и выдачи информации с помощью синтеза речи и вывода визуальной графической информации. Данный тип интерфейса может быть полезен в информационных терминалах и системах массового обслуживания без тактильного контакта пользователей с интерфейсом системы и в устройствах для людей с ограниченной подвижностью и различными физическими недостатками [3].
Концепция работы системы
Создаваемая система на базе ПК предполагает наличие в его составе монитора для отображения графической информации, камеры, совмещенной с монитором и направленной на пользователя или на его лицо. Для ввода звука используется микрофон, для вывода – динамики. Пользователь этой системы находится непосредственно перед монитором в поле зрения камеры и в области чувствительности микрофона.
Принципы работы
Запущенное на ПК программное обеспечение осуществляет анализ получаемых от камеры изображения и микрофона звука, передает распознанные команды специальному ПО, которое обрабатывает их и управляет синтезом речи и выводом графической информации на монитор. Для выполнения различных функций данной системы используются специализированные пакеты распознавания и синтеза речи, а также распознавания визуальных образов. Все применяемые программные пакеты интегрируются в единую систему с основным функциональным программным обеспечением и модулем стандартного графического пользовательского интерфейса.
Состояние разработки
В настоящее время проводится исследование технических средств и их параметров для построения такого класса интерфейсов. Для распознавания речи рассматривается возможность использования пакета Scansoft Dragon Naturally Speaking, для синтеза речи пакета Scansoft Text-To-Speech Engine. Проводятся исследования по выбору пакета распознавани образов. Для ввода визуальной информации выбраны несколько моделей сетевых цифровых видеокамер Axis.
Планируется создания прототипа на базе персонального компьютера и ОС Windows.
Список литературы
1. Handbook of Human Computer Interaction, 2d edition, Landauer, Prabhu ( Elsevier Science B. V., 1997)
2. Multimodal interfaces, Oviatt in The Human-Computer Interaction Handbook, Jacko, Sears (Lawrence Erlbaum Associates, 2003).
3. Designing the user interface: strategies for effective human-computer interaction, Shneiderman (Addison-Wesley, 1998).


