Статистическая модель, на основе заложенных в нее данных и алгоритмов, формирует просодику и звуковой поток. Звуковой поток и просодика передаются модулю управления и либо сохраняются в файл, либо воспроизводятся.

Оценка качества речевых сигналов

       В системе оценки качества речевого потока статистическая модель используется в качестве источника тестового сигнала. Модуль оценки качества выдает Статистической модели команду на генерацию звукового потока, с параметрами характерными для описываемого моделью населения (рис. 6). Тестовым сигналом необязательно должен быть звуковой поток, характеризующий все население. Может возникнуть необходимость проверить качество обработки отдельного звука или фразы. Статистическая модель предоставляет возможность это реализовать.

Рис.6. Статистическая модель

в системе оценки качества речевых сигналов

Звуковой поток, сформированный моделью, сохраняется в файл. Файл подается на вокодер (или какую-либо другую обработка) и на модуль оценки качества. Звуковой сигнал, прошедший процедуру обработки, также подается на модуль оценки качества. Модуль оценки качества производит сравнение сигналов и выдает оценку.

Исследование свойств речевых сигналов

       Для решения целого ряда задач, таких как, например, сжатие и распознавание речи, очень нужно с высокой достоверностью отделять фрагменты речевой активности от шума и пауз. Известные алгоритмы VAD имеют как достоинства, так и недостатки (одним из которых является высокий процент ошибки), поэтому остается актуальной задача разработки алгоритма выделения фрагментов речевой активности в звуковом потоке.

НЕ нашли? Не то? Что вы ищете?

Рис.7. Статистическая модель в исследовании свойств

речевых сигналов

Как и при оценке качества речевых сигналов, Статистическая модель используется, в качестве источника исходных данных.

       Модуль управления обучением (рис.7.) выдает статистической модели команды на генерацию всех возможных звуков всех возможных ТД. Синтезированные звуки сохраняются в звуковые файлы, по которым модуль обучения собирает статистику и выделяет особенности, характерные для звуков речи.

       На данный момент в качестве признаков используются энергии на полосах. Анализируются соотношения энергий, и делается попытка определить характерные полосы и соотношения.

       При обучении систем распознавания речи  схема применения статистической модели будет соответствовать представленной на рисунке 7. Отличаться будут лишь результаты обучения. Роль Статистической модели – источника данных для обучения сохранится.

Права на интеллектуальную собственность

       Пожалуй, это наше самое слабое место. На данный момент мы работаем с патентным поверенным и еще только готовим заявку на получение патента РФ на полезную модель. Скорее всего, заявка будет подана в середине марта. На сегодняшний день (15.02.06) подготовлена полная первая версия заявки (формула, рисунки и описание) идет согласование, вычитывание и исправление текстов перед отправкой в ФИПС.

       Проведенный патентный поиск показал отсутствие прямых аналогов у предлагаемой модели, что позволяет надеяться на успешное получение патента. Патент будет оформляться на полезную модель, что быстрее, проще и несколько дешевле.

Новые алгоритмы (способы) изменения звукового сигнала (длительности и ЧОТ) также планируется запатентовать, однако мероприятия начнутся лишь в октябре-ноябре 2006 года.

Конкурентные преимущества

В какой-то мере можно рассматривать в качестве конкурентов RuSpeech15, созданный Cognitive Technologies, и базу INTAS16, в создании которой принимала участие кафедра фонетики СПбГУ17. Как бы это странно не звучало, но и RuSpeech, и INTAS не продаются по неизвестным причинам. Однако для научных исследований можно получить значительные фрагменты любой из них бесплатно.

Также есть речевая база у компании Стэл18. База интересная, но для наших целей недостаточно представительная. Стоимость базы от Стелл на сегодня составляет около 10000$.

В качестве конкурентных преимуществ можно назвать следующее:

    языковая универсальность модели, заключающаяся в том, что модель может быть наполнены любыми речевыми данными, и язык, используемый моделью, определяется только данными; широкая область применения – статистическая модель может использоваться в самых разных отраслях науки и техники, имеющих хоть какое-то отношение к обработке речевых сигналов; возможность быстрой разработки упрощенной модели и быстрого выпуска продуктов на ее основе.

Патенты, которые планируется получить на статистическую модель, к тому времени, когда дело дойдет до продаж, будут получены и обеспечат дополнительное конкурентное преимущество.

Кроме того, благодаря участию в различных конкурсах, включая Конкурс Русских Инноваций, проект получит некоторую известность, что также можно рассматривать в качестве конкурентного преимущества.

Рынок сбыта

Рынок решений, основанных на речевых технологиях, включает в себя несколько направлений: распознавание и синтез речи, идентификацию человека по голосу и т. д. Как мы уже отмечали, статистическая модель может быть использована в любом из этих сегментов. В данном документе основное внимание уделяется рынку синтеза речи, как одному из наиболее перспективных19.

Западный рынок систем синтеза речи

Речевые технологии получили бурное развитие около 10-15 лет назад, когда на них пристальное внимание обратили такие корпорации-монстры, как IBM и Microsoft. В речевые разработки много и охотно инвестировали. Но быстрых результатов достичь не удалось, поэтому интерес к речевым разработкам несколько снизился.

Сегодня можно констатировать, что интерес к речевым технологиям возрождается. Стали проводиться ежегодные выставки и деловые конференции, они получают широкое освещение в прессе. Узкоспециализированные разработки, такие как системы голосового управления автомобилями, также получают широчайшую информационную поддержку, о них говорят, они входят в сознание потребителя. Предпринимаются и другие шаги, направленные на подъем интереса широкой публики к речевым технологиям, то есть на формирование спроса (можно даже сказать, навязывание новых потребностей) в соответствии с готовым предложением. Скажем, в Лондоне ежегодно  в начале апреля проводится конференция Voice World, где практически все ведущие производители, работающие на рынке речевых технологий, обсуждают основные перспективы речевых разработок и способы их коммерческого продвижения.

Примерный объем сегментов рынка систем синтеза речи представлен на рисунке 8. Общий объем рынка на 2005 год оценивается примерно в 170 млн. долл.

Рис.8. Объемы сегментов ранка синтеза речи

Анализ рынка, проведенный Voice Information Associates20, показал, что наиболее привлекательные с точки зрения объема сегменты – это сегмент реабилитационных технологий (ПО и устройства для инвалидов по зрению) и сегмент телекоммуникаций (телефонные компании, операторы сотовой связи, интернет-провайдеры), а также сегмент портативных устройств (автотелематика, говорящие переводчики). Наиболее востребованные направления в области телекоммуникаций – системы самообслуживания и автоинформирования.

Конечные пользователи систем TTS делятся на три группы: предприятия (56%), частные лица (40%) и образовательный сектор (4%). При этом предприятиями синтез используется в следующих продуктах (табл.1):

Табл.1. Потребление TTS-продуктов предприятиями

Продукт

Доля на рынке

системы самообслуживания

41%

доступ к электронной почте

23%

ПО для инвалидов по зрению

17%

устройства для инвалидов по зрению

15%

прочее

4%


Частные лица покупают систему синтеза речи в составе следующих продуктов (табл.2):

Табл.2. Потребление TTS-продуктов индивидуальными потребителями

Продукт

Доля на рынке

портативные устройства

56%

ПО для инвалидов по зрению

19%

устройства для инвалидов по зрению

17%

игры

6%

прочее

2%


В настоящее время наибольшим спросом на мировом рынке пользуются продукты, предоставляющие возможность удаленного доступа к информации. Покупателями систем синтеза речи в данном случае выступают предприятия телекоммуникационного, финансового и государственного секторов экономики.

Второе место по объему рынка TTS занимают продукты, встраиваемые в различные устройства, причем львиная доля приходится на системы навигации для автомобилей, где конечными потребителями выступают частные лица.

На западе большое внимание уделяется социальным программам, различным реабилитационным технологиям, поэтому третье место занимает сектор речевых технологий, предназначенных для людей с нарушениями по речи и зрению. Покупателями синтеза для инвалидов по зрению являются как предприятия, так и частные лица.

Российский рынок систем синтеза речи

В последние 2-3 года на Российском рынке стали появляться первые коммерческие решения с использованием технологии синтеза речи. Больших успехов удалось добиться на рынке систем автооповещения (ЦРТ, объем – 200 тыс. долл.). Основные заказчики таких систем – аварийные и спасательные службы. Цель использования подобных систем – повышение оперативности действий сотрудников служб.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6