Сравнительно недавно появилась первая в России система доступа к электронной почте (сообщения читаются синтезированным голосом). Поставщиком выступил контент-провайдер Информ-Мобил, сам проект осуществлен при сотрудничестве провайдера электронной почты и ведущих операторов мобильной связи на территории России.

Получают распространение голосовые порталы и системы голосовых справок (ТМС, приблизительный объем – 200 – 500 тыс. долларов). Успешные инсталляции прошли в Мегафон-Москва, Сбербанке и СМАРТСе.

Ориентировочный объем продаж продуктов с синтезом речи за последний год составляет 1.2 млн. долл. Сумма очень приблизительна и, скорее всего, ниже реальной, т. к. не все игроки рынка речевых технологий афишируют факты поставки своих продуктов.

Распознавание речи

По данным исследования американской аналитической фирмы Frost & Sullivan, рынок технологий речевого распознавания к 2009 году вырастет до $1,24 млрд. Эта цифра не учитывает серьезные инвестиции, осуществляемые в развитие данной технологии не на уровне коммерческих компаний, а на уровне научных лабораторий и военных организаций.

Данное направление является приоритетным для большинства компаний, работающих в области речевых технологий. Объяснение лежит в востребованности данной технологии в большом числе областей: от голосового управления меню в телефонии до создания автоматических средств ведения документации.

Российские компании тоже осознают важность данной технологии. Как и в случае с синтезом речи, в последние годы начали появляться первые коммерческие предложения. Большинство из них основано на технологии командного распознавания. Оценить объем рынка не представляется возможным из-за недостатка информации.

НЕ нашли? Не то? Что вы ищете?

Идентификация человека по голосу

Наиболее специфическое с точки зрения областей применения направление в Речевых Технологиях. Сфера применения технологии – биометрические системы доступа (в здание, к информационным ресурсам). Кроме того, системы верификации востребованы в области криминалистики, особенно возросла потребность в подобных системах в последние годы.

По данным International Biometric group, общий объем рынка биометрических средств на 2004 год составил 1,5 млрд. долларов. Биометрические системы, основанные на распознавании голоса, составляют около 3% от всех биометрических систем, т. е. около 45 млн. долларов. В России рынок биометрических средств делает первые шаги.

Общее по российскому рынку

       Разные компании дают различные оценки объема рынка речевых технологий и в России, и в мире, или же даже не рискуют давать никаких оценок. Достаточно взглянуть на таблицу 3, чтобы убедиться в этом.

Табл.3. Оценки объема рынка речевых технологий21.

Компания

Объем рынка, долл.

2000 г.

2006 г.

Datamonitor (www. ) о мировом рынке

650 млн.

5,6 млрд.

Datamonitor (www. ) о российском рынке

-

100-200 млн.

Radicati Group (www. ) о рынке голосовых порталов

194 млн.

> 5 млрд.

Cognitive Technologies о объеме рынка в России

-

2 000 млн.

The Kelsey Group (www. )

505 млн.

2 млрд.

Рынок существует и постоянно растет, на нем появляются все новые и новые игроки. Сегодня конкуренция на рынке не велика, но существует и постоянно растет с увеличение объема рынка и количества игроков на нем.

Порядок коммерциализации результатов разработки

Текущее состояние

       На сегодняшний день полностью определена структура статистической модели. Продуманы варианты ее применения в различных приложениях и определены продукты, которые будут выпущены первыми на базе упрощенной статистической модели. Ведутся работы по реализации упрощенной статистической модели.

       В упрощенной статистической модели предполагается наличие звуковых баз (аллофонных или субаллофонных) для шести типовых дикторов, различающихся по полу и возрасту. К настоящему моменту подготовлены две звуковых базы для наиболее частотных мужского и женского голосов. Однако, интонационные типы, параметры длительностей и энергий полностью определены только для одного ТД.

Последовательность и сроки проведения работ

       На самом деле никто не озадачивался составлением подробных планов и сроков, т. к. проект не имеет источников финансирования, позволяющих привлекать специалистов и разработчиков, необходимых для его реализации. Но если представить, что вдруг проект станет единственной задачей, то сроки будут примерно следующие:

Завершение и подача заявки на получение патента – до 15.03.06; Завершение программной части упрощенной модели – до 07.06; Запись и разметка звуковых баз для упрощенной модели – 04.07 (примерно по три месяца на базу); Подготовка дополнительных параметров ТД – до 05.07; Выпуск продукта «упрощенная статистическая модель русского языка» - 07.07.

Затраты на оплату труда команды, работающей над выпуском «упрощенной статистической модели русского языка», и запись звуковых баз составят порядка 63 тысяч евро. Учитывая то, что на данный момент в создание статистической модели вложено около 16 тысяч евро, общая стоимость разработки составит 79 тысяч. Это затраты без учета налогов, амортизации оборудования, помещений и т. д. С их учетом сумма возрастает до 150 тысяч евро.

Если мы рассчитываем продать статистическую модель пяти основным фирмам, продвигающим русский синтез на русский рынок, цена продукта, с учетом 25% прибыли должна составить 38 тысяч евро.

Однако упрощенная статистическая модель не является окончательной целью проекта – она лишь средство для быстрого получения результатов и привлечения финансирования для реализации проекта в полном объеме.

Доработка упрощенной статистической модели до ее полной версии довольно длительный и затратный процесс. Однако можно выделить ряд этапов, и примерно оценить их сроки и людские ресурсы.

дополнение упрощенной модели средствами работы с большой звуковой базой – до 01.08 г. – 1 чел. (отсчет ведется от момента окончания упрощенной модели); выделение типовых дикторов22, составление словарей и текстов для записи – до 01.09 г. – 5 чел.; запись голосов типовых дикторов – 01.13 г. – 2 – 5 чел.; подготовка речевых баз типовых дикторов – 01.14 г. 23 – (10*<количество ТД>/5 + 2 )24 чел.; выпуск продукта «статистическая модель русского языка» - 07.14 г. – 3 чел.

Срок реализации полной версии статистической модели составит 7 лет. Прикидку затрат можно найти в п. «Предстоящие затраты по проекту».

Организация работ

       Кроме руководителя проекта, про которого рассказано в пункте «Информация о заявителе», в проекте постоянное участие принимают еще два человека, под кодовыми именами Фонетист и Лингвист. Остальная часть команды есть, увы, величина переменная. Сложно ожидать иного, т. к. далеко не у всех есть интерес к данной теме, а работать за «спасибо», да еще и без интереса способны очень не многие.

Кто что делает?

       Руководитель проекта (РП) – организует всех постоянных участников команды, однако руководством его участие в проекте не заканчивается. РП осуществляет подготовку и публикацию материалов о проекте, РП работает с патентным поверенным над подготовкой заявки на получение патента и является автором и разработчиком процедур, реализующих основные алгоритмы обработки звукового сигнала. РП также является подателем заявки на Конкурс Русских Инноваций.

Фонетист – занимается записью голосов дикторов, разметкой и подготовкой звуковой базы. В будущем главной задачей фонетиста будет организация записи, распределение заданий по разметке базы (предположительно, выполняемой студентами и аспирантами кафедры фонетики СПбГУ), а также объединение результатов работы отдельных исполнителей в общий результат.

Лингвист – подбирает и определяет ТД25, подготавливает записываемые тексты, составляет словари и таблицы частотностей. Еще одной задачей, решаемой лингвистом, является выделение и описание интонационных контуров.

Фонетист

ФИО

Основное место работы

Санкт-петербургский государственный университет, филологический факультет

Должность

аспирант

Точный почтовый адрес

199000, Университетская наб., д. 11

Номер рабочего телефона

       +7(812)327-3233

Адрес электронной почты

Valentin. *****@***ru

Перечень важнейших работ

1. , «Восприятие финнами кардинальных гласных русского языка. Перцептивный эксперимент» // Тезисы VI-ой межвузовской научной конференции студентов-филологов, Санкт-Петербург, 2003, с. 183

2. , «Явление деклинации (на материале русского языка)» // Тезисы VII-ой межвузовской научной конференции студентов-филологов, Санкт-Петербург, 2004, с. 172-173

3. , и , «Сравнительный анализ формантных характеристик гласных в спонтанной и читаемой речи» // Сб. статей Ученые записки молодых филологов, Санкт-Петербург, 2004, с. 195-204

4. , «Проблема межъязыкового восприятия (на материале восприятия финнами русских гласных в составе слова)» // Сб. статей Фонетический лицей, Санкт-Петербург, 2004, с. 93-111

5. , «Алгоритм автоматической сегментации речевого сигнала на звуки и предварительная классификация выделенных сегментов» // Сб. статей Интегральное моделирование звуковой формы естественных языков, Санкт-Петербург, 2005

6. , «Вычисление параметров деклинации» // Сб. статей Интегральное моделирование звуковой формы естественных языков, Санкт-Петербург, 2005

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6