Поиск экстралингвистических явлений в спонтанной речи из корпуса аннотированного частично

ПИЛИПЕНКО ВАЛЕРИЙ ВАСИЛЬЕВИЧ

Международный научно-исследовательский центр Информационных технологий и систем НАН Украины
Киев, Украина

valeriy.pylypenko@gmail.com

В статье описана формальная модель поиска экстралингвистических явлений в корпусе речи аннотированном частично. При обучении системы распознавания используются корпуса речи, которые обычно сопровождаются аннотацией сказанного. Аннотация содержит точное описание сказанного в звуковом материале, в том числе указываются все явления неречевого характера. Аннотирование подобного корпуса требует значительных ресурсов, поскольку требуется экспертная оценка всего звукового материала.

В Интернете имеется значительное количество публичного звукового материала, сопровождающегося стенограммами различного уровня качества. Технология Lightly Supervised Acoustic Model Training [1,2] позволяет задействовать такие записи для обучения системы распознавания речи. При этом происходит поиск таких фрагментов звукового материала, где есть точное соответствие между стенограммой и звуком, и создается аннотация без участия экспертов. Однако, поскольку экстралингвистические явления (вдохи, эканье, гм и т. п) отсутствуют в стенограммах, то они не попадают в полученную аннотацию.

Разработана технология поиска экстралингвистических явлений в подобном материале, что позволяет создать более точные аннотации, а это в конечном итоге повышает точность распознавания. Поскольку экстралингвистические явления могут встретиться в любом месте между словами, то используется модель короткой паузы, которая включает в себя не только паузу произвольной, в том числе нулевой длины, но и необходимые экстралингвистические явления. Такую модель короткой паузы можно использовать для описания явлений между словами. Процедура принудительного выравнивания находит точные границы слов во фразах, а экстралингвистические явления оказываются между словами. Таким образом, результат выравнивания содержит необходимые экстралингвистические явления. Проведенные эксперименты показали достаточно высокую эффективность полученного алгоритма.

Литература

1. L. Lamel, J. L. Gauvain, and G. Adda. Lightly Supervised Acoustic Model Training. In ISCA ITRW Workshop on Automatic Speech Recognition: Challenges for the new Millenium, pages 150–154, Paris, 2000.

2. Пилипенко разметки звуковых файлов с использованием неточного текстового сопровождения // Кибернетика и вычислительная техника, 2012, вып. 169, с. 67-77