Партнерка на США и Канаду по недвижимости, выплаты в крипто

  • 30% recurring commission
  • Выплаты в USDT
  • Вывод каждую неделю
  • Комиссия до 5 лет за каждого referral

УДК 519.7

Многомодальное распознавания речи с использованием речи и губ

, , .

Институт информационных и вычислительных технологии МОН РК, г. Алматы, Казахстан.

*****@***kz, *****@***ru, *****@***ru

       

Abstract. In multimodal systems, information from a variety of video, audio, tactile communication channels is continuously monitored and processed, creating a real or virtual environment, allowing the user to satisfy the desires and quickly adapt to the current task other applied aspects. Adaptive multimodal systems will create new multifunctional and provide the required flexibility and the use of personal mobile systems. Created our system examines bimodal (speech and lip) recognition method. On the first channel receives the voice signal from the microphone, while the second channel signal is received from the video camera (Kinect), here we get information lip movement. Multimodal system receiving information from the two channels together treating them, permits better speech recognition than one channel microphone (speech).

Введение. В многомодальных системах информация от различных видео, аудио, тактильных коммуникативных каналов непрерывно отслеживается и обрабатывается, создавая реальное или виртуальное окружение, позволяющее удовлетворить желания пользователя и оперативно адаптироваться к текущей задачей другим прикладным аспектам. Адаптивные многомодальные системы позволят создавать новые многофункциональные устройства и обеспечат требуемую гибкость использования персональных и мобильных систем.

Люди используют ряд выходных модальностей (или каналов) для коммуникации друг другом, а также с компьютерами. Компьютерные входные модальности на данный момент ограничены достижениями технологий распознавания. Компьютерная система предоставляет вывод информации пользователю, выбирая одну или несколько сред вывода, которые человеческая система ввода (или каналы) интерпретирует, основываясь на способностях познания. Здесь «ввод» рассматривается как поток информации от человека к компьютеру, а «вывод» от компьютера к человеку. Если мультимедийные системы вывода информации известны и применяются уже давно (они используют одновременный вывод звука, видео, анимации, синтез речи и т. д.), то многомодальные системы ввода информации находится еще только в начале своего развития [1, 2].

Созданная наша система рассматривает двухмодальный (речь и губы) метод распознавания. По первому каналу поступает речевой сигнал от микрофона, а из второго канала поступает сигнал от видео камеры (kinect), здесь мы получаем информацию движение губы. Многомодальная система получая информацию от двух каналов совместно обрабатывая их, позволяет более качественно распознавать речь, чем только по одному каналу от микрофона (речь) [3, 4].

Список литературы

1. Alemdar H. and Ersoy C.  A Survey on Wireless Sensor Technologies for puter Networks, 2010.

2. Koch S. and HДagglund M.  Health informatics and the delivery of care to older people. Maturitas, May 2009.

3. Huiyu  Z.,  Hu  H.  Human  motion  tracking  for  rehabilitation--A  survey.  In  Biomedical  Signal Processing and Control, Volume 3, Issue 1, January 2008. pages 1-18.

4. Vacher,  M,  Istrate,  D.,  Besacier,  L.,  Castelli,  E.,  Serignat,  J.,  Smart  audio  sensor  for telemedicine. In: Proc. Smart Object Conference 2003. pp.15-17.