7. , , «Практическое применение статистической модели русского языка», 58 научно-техническая конференция профессорско-преподавательского состава научных сотрудников и аспирантов. Санкт-Петербург, 2006, стр. 137, 138
Лингвист
ФИО
Должность
руководитель проектов
Точный почтовый адрес
191144, Санкт-Петербург, ул. Моисеенко, 22
Номер рабочего телефона
+7(812)327-3233
Ученая степень (звание)
кандидат филологических наук
Перечень важнейших работ
1. , , ., «Автоматический акцентно-интонационный транскриптор произвольного русского текста», Бюллетень фонетического фонда русского языка, № 5, 1994, Bochum — СПб
2. L. V.Bondarko, V. I.Kuznetsov, N. D.Svetozarova, P. A.Skrelin, A. O.Talanov, N. B.Volskaya, I. V.Zharkov, «RUSVOX - the Concatenation Speech Synthesis System for Russian», SPECOM'96, SPb, 1996
3. , «Распознавание словоформы в разных вариантах транскрипционной записи», Труды Международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям. М., 2000.
4. I. V. Zharkov, «Segmentation of continuous speech with stress as a word-forming element», SPECOM’98. СПб, 1998.
5. , , «Практическое применение статистической модели русского языка», 58 научно-техническая конференция профессорско-преподавательского состава научных сотрудников и аспирантов. Санкт-Петербург, 2006, стр. 137, 138
6. Игорь Жарков, Павел Скрелин, Михаил Гусев, «Голос Времени», Москва, Компьютер пресс, 2005, август, №8, стр. 86-92
Предполагаемые партнеры
На данный момент ведутся переговоры с потенциальными инвесторами26 о возможностях и условиях создания компании, занимающейся речевыми технологиями, одним из проектов которой будет создание статистической модели. Вероятно, решение данного вопроса решит судьбу проекта, т. к. на энтузиазме возможна лишь реализация алгоритмов и структур, но не наполнение модели рабочими данными. Кроме того, в любом случае потребуются дополнительные источники финансирования.
Достигнуто соглашение с финской компанией Sevana Oy27 о том, что она примет участие в разработке двух продуктов на базе упрощенной статистической модели, а позже возьмет на себя их продвижение и реализацию. Кроме того, Sevana Oy готова взять на себя продвижение и самой статистической модели.
Состояние и источники инвестирования в реализацию проекта
Что вложено в проект
Кроме труда всех участников команды в проект вложены средства, пошедшие на запись двух звуковых баз для упрощенной статистической модели и оплата услуг патентного поверенного. В сумме эти затраты оцениваются нами в 16 тысяч евро, и большую часть из них, естественно, составляют расходы на запись звуковых баз.
Источники финансирования
Основным источником финансирования являются личные средства основных участников команды и их работа над проектом (если, конечно, это можно считать источником финансирования).
Нужно отметить возможность использования оборудования и помещений, принадлежащих «Беркут» для реализации проекта. Дело в том, что все постоянные участники команды так или иначе являются сотрудниками «Беркута», и руководство компании не препятствует использованию служебных помещений и техники (разумеется не в рабочее время) в личных целях.
Предстоящие затраты по проекту
Как было показано выше, затраты на выпуск упрощенной статистической модели составят 63 тысячи евро, без учета налогов и пр.
Затраты на реализацию проекта в полном объеме оценить весьма затруднительно, т. к. на данный момент неизвестно количество ТД. Можно прикинуть затраты на разметку базы для одного ТД. Если исходить из того, что среднее время записи одного диктора будет 20 часов, а стоимость разметки одной секунды – 1 евро28, то мы получим 72 тысячи евро. Что, собственно, не так много – месячная зарплата фонетиста, занимающегося разметкой базы составит 600 евро.
Затраты на запись образцов голоса одного диктора составят порядка 3 тысяч евро на аренду студии и оплату работы дикторы.
Оплата труда сотрудников, занимающихся выделением ТД, составлением словарей и записываемых текстов за все время работы составит порядка 135 тысяч евро. Это должны быть очень квалифицированные специалисты, которых еще нужно будет уговорить работать за 1500 евро в месяц. Оценить транспортные расходы и расходы на проживание не представляется возможным, пока не будет составлен план поездок. Также не представляется возможным дать оценку средств, необходимых для записи пробных образцов голосов на этапе выделения ТД.
Общие затраты по п. п. 1 и 529 можно оценить в 24 тысячи евро, исходя из зарплаты в 1000 евро.
Общие затраты по проекту можно оценить как:
(24 + 135 + 75 * <количество ТД> + Х) тысяч евро, где
Х - это неучтенные затраты на транспорт и проживание, запись пробных звуковых баз, оплату труда сотрудников, записывающих образцы голоса ТД в студиях, и все то, что было забыто.
1 , «О трояком аспекте языковых явлений и об эксперименте в языкознании», «Языковая система и речевая деятельность», Л, 1974, стр. 24-38.
2 Это домашний почтовый адрес руководителя проекта, который и следует использовать для переписки.
Рабочий адрес следующий: 191144, Санкт-Петербург, ул. Моисеенко, 22
3 Разумеется, перечислены публикации, имеющие отношение к проекту.
4 http://www. ldc. upenn. edu/
5 http://www. elra. info/
6 http://www. elsnet. org/
7 http://www. relator. research. ec. org/
8 www. cognitive. ru
9 www. intel. ru
10 «Фонетические аспекты речевых технологий», Автореферат диссертации в виде научного доклада на соискание ученой степени доктора филологических наук, Санкт-Петербург, 1999г.
11 «Сегментация и транскрипция», СПб, 1999
12 Тут можно много ссылок дать. Вот несколько.
Charpentier F., Moulines E. Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones // Eurospeech. 1989.
Charpentier F., and Stella M. G. Diphone Synthesis Using an Overlap-Add Technique for Speech Waveforms Concatenation // Proceedings of the International Conference on Acoustics, Speech, and Signal Processing. 1986.
Dutoit T. On the Ability of Various Speech Models to Smooth Segment Discontinuities in the Context of Text-to-Speech Synthesis by Concatenation //Proceedings of Eusipco. 1994.
Dutoit T. Аn Introduction to Text-to-Speech Synthesis. Dordrecht-Boston-London. 1997.
13 , «Методы выделения основного тона речевого сигнала и способы его модификации», Материалы XXVI межвузовской научно-методической конференции преподавателей и аспирантов, выпуск 5, СПб., 1997
14 Здесь «качество» используется в смысле идентифицируемости звука слуховым анализатором человека.
15 http://www. cognitive. ru
16 http://www. speech. pu. ru/
17 http://www. phonetics. pu. ru/
18 http://www. stel. ru/
19 Возможны сомнения относительно правильности данного утверждения, поскольку рынок распознавания на порядок больше, однако, не стоит забывать, что на рынке распознавания возможны лишь разовые продажи статистической модели, в то время как на рынке синтезаторов – каждый синтезатор на основе модели – лицензия.
20 http://www. /
21http://art. . ru/govor/infast118.htm
22 Заранее неизвестно количество ТД, которое будет выявлено, поэтому трудозатраты на разметку базы взяты относительно количества выявленных ТД.
23 Процедура разметки базы первого ТД начинается сразу после его записи, т. е. в начале 2009 года.
24 Предполагается что 10 фонетистов потратят на обработку записи одного диктора год, и что все звуковые базы будут подготовлены за 5 лет. Плюс нужны люди, которые будут этот процесс организовывать и координировать. Вот и формула.
25 Пожалуй, при наличии финансирования, этим будет заниматься не только он, но, пока, так.
26 По нескольким причинам не хочу называть потенциального инвестора. Прежде всего потому, что он не готов вкладывать средства непосредственно в статистическую модель.
27 (С разрешения Sevana Oy)
Sevana Oy основана в 2003 году
Занимается разработкой программного обеспечения, аутсорсингом и предоставлением ИТ-услуг
Команда Sevana Oy насчитывает 10 человек: дизайнеры, веб-программисты, исследователи, разработчики (C, C++,Delphi, Java, .NET)
Адрес: Sevana Oy, Pengerkatu 20 B 35, 00500 HELSINKI, FINLAND
Контактное лицо: Janne Isosдvi
GSM (+358) 50 486 7808
email: janne. *****@***fi
28 На самом деле сейчас 1 доллар, но цены то растут.
29 См. выше «Последовательность и сроки проведения работ»
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 |


