- превращение фонемного дерева в фонетическую сеть, где узлами выступают уже фонетические корреляты фонем;
- сопоставление этим узлам последовательности спектральных элементов.
По мнению Ягуновой, многие положения модели LAFS могут быть успешно применены в компьютерном моделировании речи, однако в моделировании восприятия речи человеком вряд ли целесообразно рассматривать словоформу лишь как некоторый спектральный эталон сегманта речевой цепи. «Слово является важнейшей единицей, которая характеризуется собствнными признаками, не сводимыми к признакам единиц более низкого уровня» (Ягунова, 2008, стр. 25).
Модель TRACE
Модель TRACE (Elman, McClelland, 1984) с определенной степенью условности также можно назвать моделью, основанной на дифференциальных признаках. Однако данная модель довольно сильно отличается от всех предыдущих, как по форме, так и по содержанию. Структура модели TRACE представляет собой иерархически устроенную сеть, узлами которой выступают дифференциальные признаки, фонемы и слова. Все признаки, фонемы и слова могут находиться в разной степени активации. Уровень активации той или иной единицы определяется параметрами входного акустического сигнала, а также взаимодействием с другими единицами того же и других уровней.
Узел (признак/набор признаков), пришедший в состояние активности под воздействием акустического сигнала, активирует все обладающие этим признаком фонемы. В свою очередь активируются слова, «содержащие» данную фонему, и т. д. Фонема или слово считаются идентифицированными, когда уровень их активации превосходит степень активированности всех других фонем или слов для данного временного отрезка речевого потока.
Важной особенностью модели TRACE является использование не только механизма активации, но и торможения. Одно слово может «тормозить» активацию другого слова. По словам Венцова и Касевича, длинные слова имеют более высокие шансы на распознавание, поскольку они обладают более высоким суммарным уровнем активации и успешнее подавляют «соперничающие» единицы (Венцов, Касевич, 2003).
Данная модель интересна еще и тем, что она допускает не только возможность последовательного восприятия элементов звучащей речи (то есть обработку сигнала «снизу-вверх»), но и возможность обратной активации – от высших уровней (например, высокая частотность слова) к более низким (активация соответствующих фонем).
Одним из серьезных недостатков модели TRACE, однако, называется то, что она не предусматривает самостоятельной процедуры сегментации: сегментация рассматривается только как результат процесса идентификации.
Модель динамических сетей
Близка к TRACE модель динамической сети Д. Норриса, которая в более поздних вариантах также получила название SHORTLIST (Norris, 2006).
Принципиальное отличие этой модели от всех описанных выше состоит в том, что модель Д. Норриса изначально была предназначена для работы со связным текстом, а не изолированно предъявляемыми словами.
Как и модель TRACE, модель SHORTLIST является коннекционистской моделью восприятия звучащей речи. На первой стадии формируется ограниченный список слов-кандидатов, то есть набор единиц, потенциально соответствующих входному сигналу. На второй стадии этот список сокращается за счет взаимодействия с сетью лексического уровня. Однако в отличие от модели TRACE модель SHORTLIST предполагает самостоятельную процедуру сегментации речевого потока на слова (вместе с процедурой идентификации слов через обращение к словарю). В процессе сегментации модель Д. Норриса опирается на вероятностные процедуры, которые включают использование следующей информации:
(1) различные акустические ключи пограничных сигналов границ слов,
(2) целостность просодической структуры слова,
(3) распределения частот встречаемости тех или иных явлений в начале/середине/конце слова.
В описании процедур сегментации авторы данной модели использовали данные исследований на материале типологически разных языков, исследований просодических структуры текстов, экспериментов по восприятию стимулов разной размерности носителями разных языков. В процессе сегментации учитываются также правила ударений, соотношение «сильный» vs «слабый» слог, и т. д.
Модель SHORTLIST так же, как и модель TRACE, предполагает влияние более высоких уровней на процесс обработки речевого сигнала на более низких уровнях, то есть является моделью активного восприятия. Другими словами, как пишет в своем обзоре Ягунова, информация высоких уровней – «представление слова в ментальном лексиконе – структура высказывания – структура текста и коммуникативной ситуации в целом» - оказывает влияние на функционирование процедур восприятия уже на сравнительно ранних этапах восприятия речи человеком (Ягунова, 2008).
Модель с использованием логики размытых (нечетких) множеств (Fuzzy Logical Model of Perception (FLMP))
Автором данной модели является Д. Массаро (Massaro, 1987). Эта модель предполагает три основных стадии перцептивного процесса. На первой, как и во многих других моделях, во входящем речевом сигнале определяются акустические признаки. На второй оценивается степень близости данного акустического признака к его прототипическому (эталонному) значению, ассоциированному с определенными фонемами (слогами). Степень близости описывается числом в интервале от 0 до 1 (от полного несовпадения до идеального совпадения), т. е. используется логика размытых (нечетких) множеств. Третья стадия – принятие решения относительно опознания или неопознания воспринимаемого элемента.
Подчеркивается, что эти три стадии процесса узнавания протекают последовательно, но пересекаются (накладываются одна на другую); также учитывается многообразие источников информации, действующих как «снизу-вверх», так и «сверху-вниз» (из каждого источника поступает градуированная информация, при этом оценка по одному источнику не испытывает влияния со стороны других источников).
Модель Массаро показала достаточно высокую эффективность на материале, как отмечает Клатт, сильно ограниченном качественно и количественно – некоторые типы английских открытых слогов (Klatt, 1989). Также, авторы данной модели не описывают процесс опознания слова целиком; вопрос о возможном влиянии единиц более высоких уровней на процедуры восприятия фонем учитывается в данной модели только в довольно общей форме.
Модель логогена
Модель логогена была предложена Дж. Мортоном (Morton, 1982). Логоген – поисковая структура, сопоставленная каждому слову словаря воспринимающей системы. Структура включает все сведения об этом слове: его значение, морфологические и синтаксические признаки, фонологическую и орфографическую структуру, а также ранг частотности. Каждое слово, предположительно, обладает уникальным набором признаков. Все признаки и параметры воспринимаемого речевого фрагмента оцениваются на предмет соответствия содержащейся в логогене информации. Если общая сумма параметров превышает некоторый критический порог, логоген активируется, что означает опознание ассоциированного с ним слова.
Таким образом, в логогенной модели предусматривается взаимодействие всех признаков уже на самом раннем этапе порцесса восприятия. Так как в логоген «встроены» и признаки потенциальных контекстов, слова, в большей степени предсказываемые контекстом, распознаются быстрее. Аналогичным образом слова с более высоким рангом частотности распознаются быстрее, чем слова с более низким соответствующим рангом.
При этом, как отмечают Венцов и Касевич, логогены представляются как пассивные устройства, которые «просеивают» поступающую информацию, но которые не предназначены для ее активного извлечения из сигнала (или в более широком понимании, текста) (Венцов, Касевич, 2003, стр. 40).
Модель когорты
Модель когорты, предложенная Марслен-Вилсон (Marslen-Wilson, 1990) предполагает, что распознавание слов производится «слева направо», то есть начальный сегмент речевого сигнала проверяется на совпадение с соответствующими начальными сегментами единиц ментального лексикона. В основе этой модели – предположение о том, что начальный сегмент входного сигнала активирует множество единиц словаря, содержащих этот сегмент как начальный, формируется когорта слов-кандидатов. Последовательное сужение когорты (верификация гипотезы) осуществляется, главным образом, за счет продолжения пополнения цепочки. Лексическое решение считается окончательным, когда найдена «уникальная» цепочка и дальнейший ее анализ избыточен. Момент принятия лексического решения называется точкой распознавания (recognition point).
По словам Ягуновой, основными проблемами данной модели называются неопределенность понятия «начальный сегмент» и самого процесса сопоставления входного сигнала со словом в ментальном лексиконе. В качестве «начальной цепочки» слова в разных работах называются: долготные параметры (как правило, 100-150 мс, т. е. длительность, сопоставимая со средней длительностью слога); фонемы (от 1-2 до 3-5 фонем); слоги (первый слог) (Ягунова, 2008, стр.35). Как осуществляется «проверка на совпадение» при существенной вариативности речевого сигнала, первая версия модели не объясняла.
В более поздних моделях «проверка на совпадение» носит вероятностный характер, благодаря чему неверная реализация/оценка начального сегмента не приводит к невозможности идентификации слова. В известной степени модель когорты (в ее поздних версиях) сближается с сетевыми моделями. Она ориентируется на параллельную активацию слов кандидатов; репрезентации слов в ментальном словаре не рассматриваются как независимые; учитывается взаимодействие разных путей активации. (Marslen-Wilson, 2002).
Общее осуждение моделей восприятия речи
Несмотря на большое количество предложенных теорий восприятия звучащей речи, до сих пор не существует единой модели, полностью отражающей процесс восприятия речи человеком. В каждой из рассмотренных моделей некоторые аспекты восприятия являются основными (центральными) для исследования, другие частично или полностью игнорируются.
Так, в пассивных моделях восприятия не учитывается двунаправленный процесс обработки входного сигнала («снизу-вверх» и «сверху-вниз») и соответственно влияние более высоких уровней восприятия речевого сообщения на обработку акустической информации на более низких уровнях. Модели, использующие дифференциальные признаки, успешно решают проблему широкой вариативности входного акустического сигнала, но при этом они вряд ли отражают процедуры восприятия речи человеком, так как требуют слишком большой затраты когнитивных ресурсов, таких как объем оперативной памяти и быстродействие обработки сигнала.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |


