Номинация:

Проект «Белой книги»



Тема проекта:

Разработка статистической модели русского языка

Руководитель проекта:

,

ведущий инженер-программист,

кандидат технических наук.

Номер проекта: 2670

Содержание

Аннотация        3

Информация о заявителе        5

Руководитель проекта        5

Современное состояние исследований и разработок в области реализации проекта. Новизна предлагаемого подхода по сравнению с известными.        6

Сущность предлагаемой разработки        9

Общие положения        9

Общая структура статистической модели        9

Блок №2 – блок выбора дикторов        10

Блок №4 – блок выбора звуков        11

Блок №6 – блок формирования речевого потока        12

Преимущества предлагаемого решения        13

Области применения        14

Права на интеллектуальную собственность        17

Конкурентные преимущества        18

Рынок сбыта        19

Западный рынок систем синтеза речи        19

Российский рынок систем синтеза речи        20

Распознавание речи        21

Идентификация человека по голосу        21

Общее по российскому рынку        21

НЕ нашли? Не то? Что вы ищете?

Порядок коммерциализации результатов разработки        23

Текущее состояние        23

Последовательность и сроки проведения работ        23

Организация работ        25

Кто что делает?        25

Фонетист        25

Лингвист        26

Предполагаемые партнеры        26

Состояние и источники инвестирования в реализацию проекта        28

Что вложено в проект        28

Источники финансирования        28

Предстоящие затраты по проекту        29


Аннотация

       Развитие речевых технологий вызвано потребностями общества в решении ряда практических задач, для чего создаются специальные программные и аппаратные средства, позволяющие увеличить эффективность научных исследований, и получать конечные продукты за меньшие сроки с более высоким качеством.

       К речевым технологиям относятся: разработка систем синтеза и распознавания речи, автоматическая обработка речевого сигнала, идентификация и верификация диктора по голосу, разработка методов сжатия речевого сигнала и т. п. Эффективность решения означенных задач непосредственно связано с использованием фонетических сведений, полученных при изучении свойств естественной речи.

       Недостаточное внимание к фонетической организации речевого потока можно наблюдать на примере широко распространенных систем макро-синтеза, в которых используются достаточно протяженные фрагменты естественных речевых сигналов – от слова до синтагмы (или даже фразы). Макро-синтез используется в объявлениях на железнодорожных вокзалах, в говорящих часах, в игровых программах, различных телефонных справочных службах (например, озвучивается остаток на счете) и т. д. Эти нарушения представляют недопустимые, с точки зрения русской нормы, сочетания согласных на стыках слов, неестественное интонационное оформление и нарушения ритмической организации.

       Для лингвиста речевые технологии – это способ моделирования системы языка и речевой деятельности человека, основа для практического применения знаний о звуковых средствах языка, способ получения новых сведений.

       Любое лингвистическое исследование, решение любой прикладной задачи из области речевых технологий, или как либо связанной с языком, всегда опирается на речевой (или языковой) материал, который представляет собой «совокупность всего говоримого и понимаемого в определенной конкретной обстановке в ту или другую эпоху жизни данной общественной группы»1.

       Никаким исследованием невозможно охватить весь бесконечный по объему, постоянно изменяющийся речевой материал. Любой исследователь ограничивается изучением лишь незначительного его фрагмента. Принципы формирования исследуемого речевого корпуса могут быть различными, однако остается обязательное условие представительности, или корректного отражения закономерности функционирования системы данного языка. В качестве представительности может рассматриваться как представительность по звуковому составу, так и по типам голосов дикторов, начитывающих звуковой материал.

       В последние годы во многих странах мира ведется работа по организации звукового материала в виде компьютерных баз данных. Эта работа проводится в основном в двух направлениях: создание звуковых баз данных для организации и хранения ценных архивных материалов и создание автоматизированных корпусов речевых данных.

       Основная идея статистической модели языка – заключается в создании «слепка» современного состояния русского языка, на основании которого через несколько сотен лет потомки смогут сказать что  и как говорили, какими голосами, с какими интонациями.

       Таким образом, будет снят вопрос об ограниченности по многим параметрам исследуемых речевых корпусов. Статистическая модель будет представительной по типам голосов, по наборам звуков, по интонационному оформлению и словарному запасу. Статистическая модель позволит моделировать речевой поток различных групп населения, различных по возрасту, полу, роду деятельности и социальному положению.

       Естественно, что создание такой модели требует значительных затрат сил времени и денег.

Кроме «послания в будущее» статистическая модель имеет ряд практических приложений. Причем не обязательно ждать 5-10 лет до завершения проекта в полном объеме. В разумные сроки (год или около того) может быть построена  упрощенная модель, способная стать основой для построения систем синтеза, генерирующих речь разными голосами с высокой естественностью и разборчивостью.

Кроме того, упрощенная статистическая модель может быть использована для оценки качества звуковых сигналов без привлечения к тестированию людей, или для обучения систем распознавания речи.

При этом упрощенная модель будет включать в себя все необходимые алгоритмы и основные структуры данных. По мере подготовки данных упрощенная статистическая модель будет расти и становиться полноценной моделью.

На данный момент ведутся переговоры с потенциальными инвесторами о возможностях и условиях создания компании, занимающейся речевыми технологиями, одним из проектов которой будет создание статистической модели. Вероятно, решение данного вопроса решит судьбу проекта, т. к. на энтузиазме возможна лишь реализация алгоритмов и структур, но не наполнение модели рабочими данными.

Также достигнуто соглашение с финской компанией Sevana Oy о том, что она примет участие в разработке двух продуктов на базе упрощенной статистической модели, а позже возьмет на себя их продвижение и реализацию. Первый продукт – это система оценки качества вокодеров, для которой статистическая модель является генератором речевого потока; второй – движок синтеза речи для Microsoft SAPI.

Информация о заявителе

Руководитель проекта

ФИО

Основное место работы

«Беркут»

Должность

ведущий инженер-программист

Точный почтовый адрес2

199048, Санкт-Петербург, наб. Макарова,

Номер рабочего телефона

       +7(812)327-3233

Номер мобильного телефона

       +7(812)930-52-91

Адрес электронной почты

*****@***        или        Michael. *****@***ru

Страничка в интернете

отсутствует.

Ученая степень (звание)

       кандидат технических наук

Перечень важнейших работ3

1. Mikhail N. Gusev, «Physical properties modification of speech signals fragments», «New Approaches to High-Tech: Nondestructive Testing and Computer Simulations in Science and Engineering», Preprints and Program St. Peterburg, Russia, 2003 (p. F5-F7)

2. Mikhail N. Gusev, «Physical properties modification of speech signals fragments», «New Approaches to High-Tech: Seven International Workshop on Nondestructive Testing and Computer Simulations in Science and Engineering», St. Peterburg, Russia, 2003 (p. 300 - 305)

3. «Оценка качества вокодеров и синтезаторов речи», 57 юбилейная научно-техническая конференция профессорско-преподавательского состава научных сотрудников и аспирантов. Санкт-Петербург 2005

4. Vladimir M. Degtyarev, Mikhail N. Gusev, «Preparation of sound base for a text-to-speech synthesis system», «New Approaches to High-Tech: Eighth International Workshop on Nondestructive Testing and Computer Simulations in Science and Engineering», edited by Alexander I. Melker, Proceedings of SPIE Vol. 5831 (SPIE, Bellingham, WA, 2005) p. 207-213

5. Mikhail N. Gusev, Vladimir M. Degtyarev, Valery V. Sitnikov, «About a method of preprocessing of sound base», Proceedings of SPAS Vol.9 Ninth International Workshop on New Approaches to High-Tech: Nondestructive Testing and Computer Simulation in Science and Engineering, edited by Alexander I. Melker, pp. 120-125

6. , , «Оценка качества восстановленной и синтетической речи»,

Труды учебных заведений связи СПбГУТ. СПб, 2005, № 000, стр.64 – 72

7. , , «Практическое применение статистической модели русского языка», 58 научно-техническая конференция профессорско-преподавательского состава научных сотрудников и аспирантов. Санкт-Петербург, 2006, стр. 137, 138

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6