Краткое эссе исследовательской работы претендента на стипендию имени Пискуновой Виктории, студентки II курса группы фонетики и речевых технологий

Тема моей исследовательской работы – «психоакустическая шкала длительностей». Данная работа посвящена проблеме восприятия человеком длительности звукового, а точнее речевого сигнала. Актуальность темы обусловлена тем, что в настоящее время сведений, касающихся восприятия именно речевых сигналов в психоакустике достаточно мало: очень долгое время исследователи занимались изучением восприятия неречевых сигналов – чистых тонов, шумовых сигналов – и очень многие предположения относительно восприятия звуков речи построены на основе чисто психоакустических сведений.

Известно, что основными акустическими характеристиками (то есть главными параметрами, отвечающими за различение человеческим ухом звуков) являются основная частота, интенсивность и длительность. Однако, если двум первым можно сопоставить какую-нибудь единицу измерения, показывающую соотношение между физическими параметрами звуковых колебаний и их слуховой оценкой (такую как дБ), то длительности звука не соответствует такой единицы. Целью научной работы стала попытка создания подобной единицы.

В данный момент мною завершен первый этап исследования, результаты которого были представлены в курсовой работе. Работа состояла из трех частей. В теоретической части были рассмотрены основные понятия акустики, физические свойства речевого сигнала, такие, как частота, интенсивность, спектр и длительность. Было показано, что данные акустические характеристики играют роль не только в образовании и различении сегментных звуковых единиц (звуков, непосредственно), но и супрасегментных звуковых средств (интонации, словесного ударения, акцентно-ритмической структуры высказывания). Также достаточное внимание было уделено механизмам восприятия звуковых единиц, то есть перцептивным характеристикам речевого сигнала. Также мною был дан обзор уже проведенным исследованиям в области изучения длительности звукового сигнала и попытки создания универсальной единицы.

Надо сказать, что актуальность построения психоакустической шкалы длительностей связана, в первую очередь, с задачами автоматического синтеза речевого сигнала. Очевидно, что при распознавании и синтезе звукового ряда «машине» необходимо не только формально воспроизводить последовательность фонем, но и точно отражать различия в супрасегментных характеристиках. Естественно, что сам синтезатор речи не в состоянии понять такую тонкую разницу, как, например, «ударность-безударность». Следовательно, ее надо задавать с помощью каких-то программ, что невозможно без определения той минимальной различительной единицы.

Как пишет в своей книге «Фонология речевой деятельности», исследования показывают, что “при создании искусственных, синтезированных слов достаточно сделать длительность гласного большей, чем длительности других гласных в слове, чтобы этот гласный воспринимался как ударный”.

Но наряду с реализацией словесного ударения, при синтезе речи необходимо уделять внимание и темпу речи, так как человеческое ухо очень чувствительно даже к незначительному увеличению скорости произносимых фраз. На основании этого человек и может дать эмоциональную оценку высказывания. Однако, как отмечает в статье «Управление общим темпом произнесения при автоматическом синтезе речи», “конкретных данных о функциональном использовании в речи темповых противопоставлений очень мало”. Также непонятно, какими правилами необходимо пользоваться, чтобы темп, выбранный для озвучивания речевого отрезка, воплощался в длительности фонетических единиц, входящих в состав этого отрезка.

Кроме того, остается неясным, как соотносится порог обнаружения темповых различий при попарном сравнении речевых отрезков и категориальная оценка темпа, а также, какое влияние на последнюю оказывают те лингвистические факторы, от которых зависит среднее значение периода следования гласных (или среднеслоговая длительность). Исследование этих вопросов представляет собой особую и сложную задачу. Возможно, что составление психоакустической шкалы длительностей даст возможность решить некоторые проблемы синтеза речи с различными темповыми показателями.

Что касается разработки и выбор единицы измерения длительности, то исследования в этой области проводились в большинстве своем на примере пауз, а не звуков. Одним из примеров исследований в этой области можно назвать разработки . В его статье «Длительность паузы: в поисках единицы измерения» как раз проводится эксперимент по определению “той внутренней временной единицы, которую использует говорящий при порождении пауз нужной ему продолжительности”.

Центральной частью исследовательской работы является аудиторный эксперимент. Его целью является нахождение общего порога, при котором начинается опознание сигналов как разных по длительности, а также нахождение этого минимума, то есть выражающейся в миллисекундах разницы, которая будет распознаваться слушателями. На основании данных эксперимента предполагается создание так называемой психоакустической шкалы длительностей, то есть выявление закономерностей, характерных для восприятия человеком звуковых сигналов различных по временной характеристике. Предполагается, что такая шкала будет составлена по образу уже существующих шкал, которые характеризуют сигналы по частоте или интенсивности.

НЕ нашли? Не то? Что вы ищете?

Эксперимент проходил следующим образом. Было синтезировано 24 различных по длительности гласных [a] и 25 также различных по длительности согласных [š]. Далее из этого материала путем попарного совмещения звуков и добавления между ними паузы были созданы файлы типа ЗВУК – ПАУЗА - ЗВУК. Следует заметить, что оба звука в таком файле различались только по длительности, то есть пары типа [a] – пауза - [š] в эксперименте не встречались. Аудитории предлагалось прослушать файлы и ответить на один вопрос, какой из звуков в паре, по их мнению, длиннее: первый или второй, или же звуки равны. Ответы заносились каждым слушателем в специальную анкету. Следует отметить, что перед началом проведения эксперимента слушателям было сказано, что в парах присутствуют и звуки, равные по длительности. Это было сделано для того, чтобы избежать стремления слушателей искусственно «подогнать» ответы под результат.

В ходе эксперимента предполагалось решить следующие задачи:

1.  Определить, каков порог, с которого начинается распознавание двух звуков как различных по длительности. Например, будут ли слушатели различать пару 40-43 мс, или же только начиная с длительности 67-70;

2.  Нахождение минимальной распознаваемой пары. Будет ли это пара 40-43 мс, или же разница в сигналах должна быть качественно большей, например 12 или даже 30 мс;

В заключительной части работы были сделаны следующие выводы:

Процент правильного распознавания звуков тем больше, чем больше длительность самого сигнала.

При предъявлении сигналов из пары лучше опознавался тот, который имел большую длительность и следовал первым в паре. Тогда как второй более длительный сигнал опознавался правильно с меньшим количеством правильных ответов.

По окончании эксперимента выяснилось, что ни один сигнал не был опознан правильно с вероятностью 100%. Но в связи с тем, что эксперимент проводился впервые, собранные данные можно считать только предварительными.

На основании тех материалов, которые были представлены в данной работе, можно понять общую картину зависимости длительности сигнала. Минимальной различительной единицей для звука [a] можно считать длительность 9-12 мс, порог качественного распознавания происходит при длительности стимула 52 мс. для звука [š] такой единицей можно считать разницу в 12-15 мс, порог определения – 70 мс.

В начале работы была поставлена цель: создание психоакустической шкалы длительностей речевого сигнала. В ходе проведения выяснилось, что для разработки такой шкалы требуется расширить диапазон эксперимента, а именно: существенно увеличить число аудиторов, а также увеличить количество предъявляемых стимулов. В частности, найти тот минимальный порог, при котором опознание происходит со стопроцентным результатом.

В течение следующего года мною планируется проведение более подробных экспериментов в этой области, привлечение большей аудитории для участия в эксперименте с целью получения точных статистических данных. Также предполагается, что в будущем в эксперименте будут участвовать сигналы, у которых будет изменена не одна, а несколько акустических характеристик. Например, интенсивность и длительность, или частота и длительность. Подобные эксперименты позволят расширить уже имеющиеся знания в этой области и получить необходимые данные для составления психоакустической шкалы длительностей и создания универсальной единицы для измерения ее субъективного восприятия.