3.1.4. Оценка информативности классификации
Количественно эффективность прогноза оценивается сравнением результата прогноза пола с ключами, определенными по списку действующих лиц пьесы. В работе в качестве параметра для оценки качества прогноза принят коэффициент корреляции. Параметр «коэффициент корреляции» в тех случаях, когда он может быть применен, очень хорошо передает интуитивную, человеческую оценку ситуации [Синеокова, Райнер 2006][3]. В частности, вычисление корреляции включает учет неоднородности исходного материала, поэтому выравнивать эталонную выборку по числу мужских и женских реплик в большинстве случаев нет необходимости[4]. Кроме того, параметр «коэффициент корреляции» способен оценить качество прогноза даже в тех случаях, когда он охватывает небольшую часть примеров выборки. Поэтому в работе в качестве основного параметра оценки эффективности прогноза на основе разработанной классификации принят именно коэффициент корреляции.
В связи с этим целесообразно сделать четыре замечания относительно смысла этого параметра.
1. При сопоставлении рядов событий с нечисловыми исходами коэффициент корреляции может быть применен только при двух возможных исходах. В рассматриваемом случае может быть три исхода идентификации пола: мужчина (М), женщина (Ж), отказ от идентификации (пол НЕ_ОПРЕДЕЛЕН). Однако значение «НЕ_ОПРЕДЕЛЕН» равноудалено от значений «М» и «Ж». В этом случае возможно естественным образом приписать исходам числовые значения («шкалировать», см.: [Синеокова, Райнер 2006]), например, +1, -1 и 0, и таким образом вычислить коэффициент корреляции.
2. Алгоритм вычисления корреляции исходит из предположения, что два ряда сопоставляемых событий (в данном случае идентификация пола алгоритмом и по ключу) независимы, и вычисляет ожидаемое число совпадений. Если реально совпадений больше или меньше, он «удивляется» и приписывает сопоставляемым событиям соответственно положительную или отрицательную корреляцию (естественно, с поправкой на степень однородности исследуемого материала, т. е. учитывает дисперсию рядов событий).
3. Достоверность выделенных корреляционных связей оценивается превышением найденного коэффициента корреляции над порогом статистической значимости. Порог значимости зависит от объема выборки и требований исследователя к надежности своих выводов. Обычно, из соображений простоты, принимают порог значимости 1/√n, где n – число событий в ряду. Это значение порога соответствует норме надежности 0.84, и превышение его в несколько раз является вполне надежным признаком наличия корреляции (используется термин «сильно значимая корреляция»). Часто уверенное обнаружение корреляции значит для исследователя больше, чем само значение коэффициента корреляции.
4. Поскольку пол принимает только два значения, то коэффициент корреляции со значением коррелята M (Rм) всегда равен по величине и противоположен по знаку коэффициенту корреляции с значением Ж (Rж):
Rм= – Rж
То, что параметр «коэффициент корреляции» используется как интегральный параметр оценки ситуации в целом, имеет и недостатки. В ряде случаев желательно иметь более дифференцированные данные о результатах прогноза. В работе используются также вспомогательные параметры: полнота охвата эталонной выборки «полным» прогнозом (т. е. прогнозом типа «М-Ж»), число верных прогнозов внутри группы примеров, для которой полный прогноз выполнен, в том числе раздельно для прогноза «М» и «Ж». Все эти параметры используются также и при вычислении основного параметра – общего коэффициента корреляции, но имеют и самостоятельную ценность.
Кроме того, в работе используется параметр «коэффициент корреляции для одной выделенной уникальной структуры» (ее наличия в примере) с ключом коррелята «М» или «Ж». Этот параметр является вспомогательным и служит только как подсказка исследователю при корректировке алгоритма прогнозирования.
3.2. РЕЗУЛЬТАТЫ АНАЛИЗА ЭТАЛОННОЙ ВЫБОРКИ
Непосредственное определение коэффициента корреляции уникальных структур с ключами пола персонажа (и, тем более, прогноз по этому корреляту) малоинформативно. Дело в том, что нас интересует живая разговорная речь, а эталонная выборка составлена на основании высказываний литературных персонажей. Соответственно, она может отражать гендерные преференции авторов относительно того, как «должны» говорить мужчины и женщины. Как неоднократно подчеркивалось выше, с точки зрения анализируемой в работе проблемы эти преференции следует считать искажениями. Разумеется, сами по себе они также представляют несомненный интерес, но, во-первых, их изучение выходит за рамки настоящей работы, а, во-вторых, их анализ возможен при условии выделения характерных особенностей влияния этих факторов.
Следует еще раз подчеркнуть, что влияние пола драматурга в данном исследовании выступает как основной искажающий фактор потому, что преференции авторов являются групповыми и, следовательно, не могут быть нивелированы путем увеличения объема выборки (как, например, в случае различия авторских стилей).
До некоторой степени разделить влияние факторов пола персонажа и пола автора можно, вычислив корреляцию для комплекса из четырех составных коррелятов:
GG01-GA01; GG02-GA01; GG01-GA02; GG02-GA02, где
GG01 – пол персонажа «М»
GG02 – пол персонажа «Ж»
GA01 – пол автора «М»
GA02 – пол автора «Ж».
Этот комплекс из четырех коррелятов представляет полную и альтернативную систему и для него, в принципе, возможен прогноз. Однако при увеличении числа коррелятов абсолютные значения коэффициентов корреляции уменьшаются настолько, что для некоторых уникальных структур порог статистической значимости при данном объеме выборки не будет превзойден и, следовательно, эффективность такого прогноза окажется низкой. Поэтому в работе прогноз ведется только для двух значений коррелята (пол говорящего).
Тем не менее, в таблице 3 приведен перечень уникальных структур, обнаруживших значимую корреляцию с полом персонажа с учетом пола автора.
Табл. 3
Уникальные структуры, обнаружившие значимую корреляцию с 4 коррелятами в эталонной выборке на 3504 примера
(с превышением порога значимости в 2 раза
хотя бы по одному из коррелятов)
Структура | Мощность изоморфной группы в эт. выборке | Коэффициенты корреляции (порог знач. 0.017) | |||
Совместно GG01*GA01 | Совместно GG01*GA02 | Совместно GG02*GA01 | Совместно GG02*GA02 | ||
TT00/TA05 | 44 | +0.07 | -0.02 | -0.06 | -0.005 |
TQ01 | 278 | +0.05 | -0.002 | -0.01 | -0.04 |
TT00/TE16 | 6 | +0.05 | -0.01 | -0.03 | -0.03 |
TT00/TE03 | 76 | +0.05 | -0.01 | -0.01 | -0.04 |
TT00/TN45 | 71 | +0.05 | -0.004 | +0.004 | -0.06 |
TT00/TQ30 | 3 | +0.036 | -0.008 | -0.02 | -0.02 |
TE03 | 21 | -0.03 | +0.09 | -0.005 | -0.006 |
TA05 | 6 | -0.03 | +0.075 | -0.009 | +0.006 |
TT00/TS33 | 33 | -0.007 | +0.05 | -0.01 | -0.006 |
TS30 | 26 | -0.03 | +0.05 | -0.04 | +0.04 |
ST55 | 12 | -0.008 | +0.05 | -0.002 | -0.01 |
TA02 | 12 | -0.02 | +0.05 | +0.009 | -0.01 |
TE18 | 2 | -0.02 | +0.04 | -0.01 | +0.01 |
TS20 | 64 | -0.007 | +0.035 | +0.001 | -0.01 |
TT00/TE01 | 92 | -0.05 | -0.04 | +0.08 | +0.01 |
TT00/TA09 | 11 | -0.02 | -0.01 | +0.05 | -0.02 |
ST01/TE01 | 9 | -0.02 | -0.01 | +0.05 | -0.02 |
TT00/TA01 | 130 | -0.04 | -0.03 | +0.04 | +0.02 |
TS30/TN10 | 2 | -0.02 | -0.06 | +0.04 | -0.01 |
TE13 | 2 | -0.02 | -0.06 | +0.04 | -0.01 |
TQ01/TS01 | 2 | -0.02 | -0.06 | +0.04 | -0.01 |
TN48 | 15 | -0.02 | +0.02 | +0.04 | -0.03 |
TS25 | 52 | -0.02 | -0.02 | +0.04 | -0.02 |
TT00/TN40 | 4 | -0.03 | -0.009 | +0.04 | -0.002 |
TI70 | 4 | -0.01 | -0.009 | +0.04 | -0.02 |
TT00/TS31 | 8 | -0.03 | -0.01 | -0.03 | +0.07 |
ST80 | 173 | -0.05 | -0.01 | +0.01 | +0.05 |
TT00/TQ01 | 5 | -0.03 | -0.01 | -0.006 | +0.05 |
TT00/TE02 | 5 | -0.02 | -0.01 | -0.02 | +0.05 |
TT00/TN43 | 2 | -0.02 | -0.006 | -0.01 | +0.04 |
TT00/TA10 | 15 | -0.02 | -0.02 | -0.01 | +0.04 |
TS33 | 114 | -0.02 | +0.02 | -0.03 | +0.037 |
TQ60/TN48 | 11 | -0.004 | -0.01 | -0.02 | +0.035 |
Анализ таблицы позволяет сделать некоторые предварительные выводы.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 |


