ГЛАВА 3
КОРРЕЛЯЦИОННЫЕ СВЯЗИ МЕЖДУ ТРАНСПОНИРОВАННЫМИ ФОРМАМИ
АФФЕКТИВНОЙ РЕЧИ И ПОЛОМ ГОВОРЯЩЕГО
Данная глава посвящена описанию методологии выявления корреляционных связей между структурными формами аффективной речи и полом говорящего, а также интерпретации полученных результатов.
3.1. ОБЩАЯ МЕТОДОЛОГИЯ ИССЛЕДОВАНИЯ
Как уже было сказано, настоящее исследование включает две задачи: разработку классификации транспонированных конструкций, реализуемых в аффективной речи, и выявление, количественную оценку и интерпретацию корреляционных связей между структурными формами и полом говорящего. Таким образом, приведенная в главе 2 классификация является инструментом для изучения значимых синтаксических преференций в мужской и женской речи.
Обе задачи неразрывно связаны между собой, т. к. обнаружение значимых корреляционных связей является критерием продуктивности разработанной классификации. В то же время именно качество классификации определяет успех исследования в целом.
При решении первой задачи статистические методы обработки позволяют уже на ранних стадиях отвергнуть неудачные варианты ранжирования признаков и подсказывают направление корректировок. При этом они носят сугубо вспомогательный характер, поскольку классификация разрабатывается на «содержательном» уровне, базируясь на структурно-семантических и функциональных особенностях реализуемых форм и исследовательских представлениях об особенностях речемыслительной деятельности в состоянии сильного эмоционального напряжения.
При решении второй задачи роль статистической обработки материала представляется решающей, хотя анализ материала на содержательном уровне по-прежнему задает направление исследования и позволяет непрерывно контролировать правильность интерпретации результатов статистического анализа. Вторая задача является завершающей в настоящем исследовании, однако она все-таки носит «обеспечивающий» характер.
Совместное решение двух упомянутых задач – рекуррентный процесс. На стадии выявления корреляционных связей классификация синтаксических признаков все время корректируется – устраняются излишние (не работающие) признаки, некоторые из них объединяются или, напротив, дифференцируются, и т. п. Процесс заканчивается, когда он уже не дает существенного роста наблюдаемой корреляции. При рекуррентном процессе, естественно, нет уверенности, что будут выявлены все корреляционные связи. Точно так же и неизбежные при статистической обработке упрощения в исследовании выполнены таким образом, чтобы не ставить под сомнение наличие найденных связей, пусть даже ценой некоторого риска упустить часть из них. Таким образом, сделанные ниже оценки комплексной эффективности системы «алгоритм + классификация» – это оценки снизу, что соответствует основной задаче исследования – продемонстрировать, прежде всего, сам факт наличия прямого влияния пола говорящего на строй речи в состоянии аффекта.
Общая схема статистической обработки материала может быть представлена следующим образом. Разрабатывается алгоритм прогнозирования (или правила идентификации; далее эти термины употребляются как равноправные), который на основании структурных признаков аффективного высказывания по возможности (т. е. необязательно для любого высказывания) идентифицирует пол говорящего. В алгоритм заложены все выявленные корреляционные связи, так что результативность прогноза характеризует как качество классификации, наличие и полноту выявления корреляционных связей между структурными признаками и полом, так и эффективность самого алгоритма и его способность противостоять искажениям при выявлении искомых инвариантных единиц. Разработка алгоритма идентификации включает отбор и сортировку признаков для последующего их использования при идентификации пола. При этом оценка отбираемой структуры осуществляется по таким критериям, как:
- статистическая значимость структуры, которая определяется ее частотностью и объемом эталонной выборки;
- подверженность влиянию гендерных предпочтений авторов пьес.
Это принципиально разные критерии. Занижение первого из них может затруднить выявление корреляции, но не приводит к кажущемуся обнаружению несуществующих связей. Критерий существенен, главным образом, в случае использования одной и той же выборки и для разработки алгоритма, а также для его контроля: низкий уровень критерия создает при этом порочный логический круг. Второй критерий требует специального исследования, без которого нельзя быть уверенным в отсутствии существенных искажений, вызванных наложением факторов социокультурного и биологического плана.
Ниже эти вопросы рассматриваются подробно.
3.1.1. Методы организации выборки
В данной работе использовалась эталонная выборка, представленная высказываниями из 66 драматических произведений 44 современных англоязычных авторов и насчитывающая 5118 примеров употребления транспонированных конструкций в аффективной речи.
Сплошная выборка предназначена для выявления закономерностей организации разговорной речи. В силу специфики исследуемого материала (речь литературных персонажей) выборка отражает целый ряд сопутствующих факторов, которые вносят искажения в картину преференций разнополых коммуникантов и, следовательно, должны быть нивелированы в процессе ее обработки. По характеру вносимых искажений и, следовательно, методам их нивелирования, искажающие факторы могут быть разделены на две группы.
Первая группа отражает индивидуальные особенности авторов и связана с фактором стилистической неоднородности. Большой объем выборки автоматически нивелирует этот тип искажений. Однако, если авторы представлены в выборке очень неравномерно, требования к объему выборки велики. Поэтому представляется целесообразным ограничить максимальное количество реплик из произведений каждого автора[1].
В работе выравнивание по стилю автора осуществлялось следующим образом. В эталонной выборке каждый автор в среднем представлен 116 примерами (5118 / 44 = 116), однако разброс частотности высказываний по авторам велик: от 4 до 821 при среднеквадратичном отклонении DN=162. Поэтому было принято решение оставить не более чем по 160 высказываний у каждого автора (т. е. приблизительно среднее значение плюс 25% от DN). Это обеспечило достаточно хорошую однородность выборки при приемлемой потере ее объема. Сокращенная согласно принятому правилу выборка содержит 3504 примера (т. е. примерно 80 примеров на одного автора при среднеквадратичном отклонении частотности 56).
Вторая группа искажающих факторов связана с гендерными предпочтениями, но не персонажей, а авторов и даже читателей (автор может учитывать предпочтения читателя). Они являются групповыми предпочтениями, и поэтому их влияние не может быть нивелировано простым увеличением объема выборки (число групп авторов по полу не меняется с ростом выборки, влияние группы не зависит от числа примеров). В отличие от стилистических особенностей авторов, которые должны учитываться в любом исследовании на материале художественной литературы, эта группа искажений характерна именно при исследовании особенностей речи, связанных с полом говорящего. Чтобы выделить различия в передаче мужских и женских реплик авторами разного пола, нужно разделить упомянутую выборку из 3504 примеров на выборки только с репликами женщин-персонажей и мужчин-персонажей (без различия пола авторов) и выявить те структуры, для которых существенен пол автора. Эти структуры должны быть признаны недостоверными для определения влияния пола на реальную речь и исключены из прогнозирования. Анализ оставшихся структур покажет, конечно, неполные, но зато достоверные связи (даст оценку этих связей «снизу»).
Ситуация осложняется тем, что авторы-женщины и авторы-мужчины представлены в эталонной выборке неодинаково: женщин много меньше. При этом в произведениях авторов-женщин мужская речь представлена сравнительно небольшим количеством реплик. Очевидно, этот феномен может объясняться тем, что ХХ век в США и Великобритании характеризуется развитием самосознания женщины, в том числе творческого, что выражается в появлении заметного, но все же не очень большого, числа женщин-драматургов. Получив в прямом и переносном смысле право голоса, женщины затрагивают в своих произведениях проблемы, которые им приходится решать в современном мире, и, как правило, они предпочитают делать это с помощью персонажей-женщин. Так, в пьесе американки Клэр Бус все герои – женщины; в двух пьесах английского драматурга Сары Дэниелз встречается 14 мужских реплик, включающих транспозицию, на 96 женских.
В результате возникает чрезвычайно разнородная для анализа картина. Существующие методы корреляционного анализа способны выявить объективные закономерности даже в такой ситуации, но их интерпретация и контроль результатов статистической обработки материала на содержательном уровне будут сложны.
Поэтому в работе было проведено дополнительное выравнивание эталонной выборки по существенным параметрам: числу авторов-женщин и авторов-мужчин, числу реплик женских и мужских персонажей, причем раздельно для авторов-женщин и авторов-мужчин.
Таким образом, при анализе применялись следующие варианты выборок, являющихся производными относительно исходной базы данных из 5118 элементов.
Табл. 1
Варианты баз данных (БД)
Индекс БД | Характеристика выборки | Объем | Соотношение М/Ж-авторов | Соотношение М/Ж-реплик |
БД1 | Общая, выровненная по стилю | 3504 | 27 / 17 (2341 / 1163) | 1618 / 1886 |
БД2 | Ж-реплики всех авторов | 1886 | 22 / 17 (941 / 945) | - |
БД3 | М-реплики всех авторов | 1618 | 27 / 14 (1400 / 218) | - |
БД4 | Выровненная по числу М и Ж реплик всех авторов | 3236 | 27 / 17 | 1618 / 1618 |
БД5 | БД2, выровненная по полу авторов | 1882 | 22 / 17 (941 / 941) | - |
БД6 | БД3, выровненная по полу авторов | 436 | 24 / 13 (218 / 218) | - |
БД7 | БД1, выровненная по по полу авторов и по М/Ж репликам | 876 | 27 / 17 | 438 / 438 |
БД8 | БД7, только М-реплики | 438 | 24 / 13 | - |
БД9 | БД7, только Ж-реплики | 438 | 22 / 17 | - |
Итак, в результате проведения многоступенчатого выравнивания была получена выборка, однородная в отношении индивидуального стиля авторов и соотношения мужских и женских реплик из произведений авторов-мужчин и авторов-женщин (БД7). Выборка насчитывает 876 примеров. Сокращение объема активно используемого для анализа числа примеров относительно исходной выборки представляется естественным следствием мер, принятых с целью упростить анализ сложной ситуации.
3.1.2. Интегральная форма описания структуры высказывания при прогнозировании (форма рубрикатора)
Первый вопрос, который приходится решать при разработке алгоритма идентификации пола говорящего, – это выбор формы описания структуры анализируемого высказывания.
Существует два «крайних» варианта. Первый состоит в том, что первоначально каждый классификационный признак рассматривается независимо от других и, на основании предварительно изученных связей между этим признаком и полом говорящего, делается заключение о наиболее вероятном прогнозе. При этом даже в не очень большой выборке большинство признаков оказывается представленным довольно большим количеством примеров, достаточным для достоверного выявления автономных связей единичных признаков с полом.
Однако выявить взаимодействие признаков при их наложении трудно. Очевидно также, что в случае наложения признаков могут возникать конфликтные ситуации: два признака, одновременно входящие в описание структуры высказывания, могут указывать на разный пол. Соответственно, приходится создавать правила разрешения конфликтов, а при невозможности подобрать подходящее правило, отказываться от идентификации соответствующего высказывания. В работе [Синеокова 2003] был выбран, в основном, этот вариант, а правила разрешения конфликтов в большинстве случаев удалось свести к иерархическим отношениям между признаками. Более полно учесть связи между синтаксическими признаками и их экстралингвистическими коррелятами (типами измененного состояния сознания) пока не удалось.
Второй вариант состоит в использовании при прогнозировании уникальной структуры. Под уникальной структурой понимается весь набор первичных классификационных признаков, свойственных данному высказыванию, без какого-либо анализа связей между ними: все связи априори признаются существенными. При этом высказывания, обладающие одинаковым набором (сочетанием) первичных структурных признаков, являются членами одной изоморфной группы, и им всем приписывается одна и та же вероятность быть произнесенными мужчиной или женщиной, отражать или нет гендерные предпочтения авторов, и т. п. Поэтому алгоритм прогнозирования должен одинаково идентифицировать для них пол произнесшего реплику персонажа (верно либо неверно, но одинаково). При этом автоматически учитываются все связи между признаками, но, поскольку уникальные структуры включают и работающие, и неработающие признаки, а возможных сочетаний очень много (десятки тысяч), то и число возможных уникальных структур очень велико. Далеко не все теоретически возможные уникальные структуры реально употребительны, и только часть из них используется в речи настолько часто, чтобы быть представленной в эталонной выборке хотя бы одним примером. Тем не менее, в большую эталонную выборку попадает достаточно много изоморфных по структуре примеров, чтобы обеспечить возможность идентификации значительной части выборки.
Хотя в настоящем исследовании использовалась довольно большая выборка, применить вариант исследования уникальных структур в его чистой форме не удалось, и был применен смешанный метод. Таким образом, под уникальной структурой в работе понимаются как типы высказываний, в которых реализуются изолированные синтаксические признаки (например, несобственно-утвердительное предложение структуры общего вопроса, выступающее в отрицательной форме), так и те типы высказываний, в которых наблюдаются наложения признаков (например, несобственно-утвердительное предложение структуры общего вопроса, выступающее в отрицательной форме, реализуемое с восклицательной интонацией).
Число признаков, образующих эти структуры, было искусственно ограниченно. Прежде всего, вообще не учитывались признаки, относящиеся к иным, чем транспозиция, структурным модификациям – даже в том случае, если они налагались на транспозиционные признаки (рассмотрение мужских и женских преференций в употреблении наложений структурных модификаций, так же, как и в употреблении других структурных модификаций, представляется перспективным направлением дальнейшего исследования). Кроме того, на основании анализа на содержательном уровне некоторые структурные признаки модификации «транспозиция» были признаны несущественными для идентификации пола и также не учитывались при определении уникальной структуры (основания для такого решения были приведены в главе 2). В результате для идентификации пола были использованы 55 первичных признаков в соответствии с классификацией, представленной в главе 2. При этом оказалось, что выровненная по авторскому стилю БД1 (см. табл.1 настоящей главы) из 3504 примеров содержит всего 95 уникальных структур, причем только 20 из них встречается более, чем в 10% примеров, а 50% БД представлено всего 7 уникальными структурами. Само по себе число примеров с данной уникальной структурой (далее применяется параметр «мощность структуры») еще не полностью характеризует ее статистическую значимость для прогнозирования, т. к. значимость структуры зависит также и от ряда других параметров (коэффициента максимального правдоподобия и др.). То, как производится отбор структур по этим параметрам, будет рассмотрено ниже, но структуры, представленные менее чем 3 примерами, были с самого начала признаны неинформативными.
При формальной обработке эталонной выборки задача ставится следующим образом. Программой обработки[2] принимается идентификация структурных признаков каждого примера эталонной выборки. Выявляются все уникальные сочетания признаков (уникальные структуры), и выделяются группы примеров, изоморфные для каждой из этих структур. Далее, по определенным правилам, продиктованным исследователем, для каждой изоморфной группы определяется наиболее правдоподобная гипотеза о том, какое именно значение коррелята ей соответствует, и предлагается соответствующая идентификация (прогноз) коррелята для всех примеров с такой структурой. В нашем случае возможно три варианта прогноза «предположительно М», «предположительно Ж» и «прогноз невозможен» (числовые индексы соответствующих решений: +1,-1, 0). Исследователь может согласиться или не согласиться с решением программы; в последнем случае он может произвольным образом корректировать решение для отдельных уникальных структур, добавить или убрать структуры, которые, по его мнению, характерны или, наоборот, бесполезны, изменить правила для выработки «подсказок» или дать указания игнорировать определенные признаки (незначимые, по его мнению) при выделении уникальных структур (т. е. два сочетания признаков, различающиеся только «незначимыми» признаками, будут рассматриваться программой как тождественные).
Сам прогноз производится следующим образом. Перечень уникальных структур, выделенных по эталонной выборке примеров с готовыми решениями по идентификации коррелята для каждой (с учетом корректировки исследователя) используется в качестве «кодовой таблицы» – инструкции для наиболее вероятной идентификации коррелята.
Если пример содержит соответствующую структуру, то коррелят идентифицируется соответственно; если нет, имеет место идентификация «0» – отсутствие прогноза. При этом принимаются меры, чтобы снять возможные конфликты. Например, при идентификации примера со структурой ABC при наличии в кодовой таблице структур ABC, AB, AC приоритет отдается самой длинной – ABC. Сравнение результатов идентификации (прогноза коррелята) с ключом используется для количественной оценки эффективности прогноза в целом. Таким образом, создание алгоритма прогнозирования сводится к созданию кодовой таблицы употребительных уникальных структур и предложений по прогнозированию их коррелята.
3.1.3. Статистические критерии отбора структур
для прогнозирования
В работе приняты следующие правила составления кодовой таблицы. Для каждой группы примеров из эталонной выборки, изоморфных данной уникальной структуре, определяется (по ключам) состав примеров с коррелятом «М» и «Ж» (или условная вероятность коррелята «М» и «Ж») в этой изоморфной группе. Гипотеза «коррелят М» считается правдоподобной, если для нее условная вероятность ³ 2/3, т. е вдвое превышает условную вероятность альтернативной гипотезы «коррелят Ж», и наоборот. Таким образом, в работе принят критерий для коэффициента правдоподобия, равный 2:1, что соответствует нижней доверительной границе 0,66. Если условие 2:1 не выполнено ни для одной из гипотез, то прогноз не делается (прогноз «0»).
Однако при этом программа делает две корректирующие поправки.
1) Наблюдаемая условная вероятность – выборочный параметр; истинное значение лежит в пределах доверительного интервала, который зависит от общего числа примеров вошедших в изоморфную группу. Программа вычисляет коэффициент правдоподобия по нижней границе доверительного интервала [Синеокова, Райнер 2007] с выбранной нормой надежности (в работе - 0.7). При этом автоматически признаются непригодными для прогноза малочисленные изоморфные группы, например, группа всего из 2 высказываний, хотя и идентифицированных безошибочно.
2) Учитывается процентный состав примеров с ключами «М» и «Ж» в исходной эталонной выборке. Очевидно, что если число мужских реплик в выборке вдвое больше чем женских, малочисленную изоморфную группу из 6 примеров, в которой 4 имеют ключ «М» и 2 – ключ «Ж» нельзя прогнозировать как «М». Программа принимает для определения правдоподобия значение нижней границы доверительного интервала реально наблюдаемой условной вероятности, скорректированное соответствующим образом [Синеокова, Райнер 2007]. Норма надежности определения доверительного интервала (одностороннего) равна 0,65. При этом уровень значимости (односторонний) равен 0,35.
В табл. 2 приведен фрагмент таблицы допустимого количества «чужаков» при выборе изоморфной группы в качестве претендента на прогнозирование «М» или «Ж».
Табл. 2
Допустимое количество «чужаков» в зависимости от мощности (объема) группы уникальной структуры (на основе значения нижней границы доверительного интервала)
Объем группы | Допустимое число «чужаков» |
3-4 | 0 |
5-8 | 1 |
9-11 | 2 |
12-14 | 3 |
15-17 | 4 |
18-20 | 5 |
21-23 | 6 |
24-26 | 7 |
27-30 | 8 |
31-33 | 9 |
34-37 | 10 |
38-39 | 11 |
40-42 | 12 |
43-45 | 13 |
46-48 | 14 |
49-51 | 15 |
52-54 | 16 |
55-57 | 17 |
58-60 | 18 |
Очевидно, что оба критерия – норма надежности нижней границы доверительного интервала условной вероятности и граничный коэффициент правдоподобия – должны быть согласованы: нет смысла выбирать норму надежности 0.99 при коэффициенте правдоподобия 2:1 или выбирать коэффициент правдоподобия 10:1 при норме надежности 0.7. Принятые значения представляются согласованными. Естественно, окончательное суждение может быть сделано по результатам пробного прогноза.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 |


