Лекция 11.

Статистическая методика в языкознании в диахронии и синхронии

Статистическая методика находит применение в различных методах.

1 этап исследования – наблюдение.

Поиск примеров (показательные примеры - сколько?; полная выборка (если объем текстов ограничен).

Начнем с применения в описательных исследованиях.

Часто по нескольким предложениям можем установить автора (Толстой, Чехов, Паустовский) - вне зависимости от содержания. На этом строится пародия (Жванецкий).

Как объяснить эти факты?

Есть какие-то стабильные признаки в структуре речи?

В речевом потоке у каждого индивидуума тоже отдельные элементы встречаются чаще или реже. Зимняя толпа отличается от весенней по определенным признакам, хотя есть и общие.

Пример. Проверялась гипотеза о том, что читательское впечатление от (стиля Шолохова» или «стиля Симонова» связано с какими-то устойчивыми соотношениями в тексте различных элементов (в частности, части речи).

Сравнивали по 6 выборок из Симонова и Шолохова (из разных произведений).

Как корректно определить фрагмент? Ведь от этого зависит чистота эксперимента.

Бралась только речь авторов. Длина выборки - 500 знаменательных слов.

Симонов Шолохов

Сущ. 160 196

Прил. 59 74

Глаголы 113 56

Причастия 21 56

Принято думать, что части речи слишком абстрактны и инертны, чтобы принимать участие в формировании стилей отдельных авторов.

Однако цифры говорят об обратном. В функциональных стилях должно быть то же.

Цифры по Симонову/Шолохову свидетельствуют не только о сравнительной активности определенной части речи, но и о том, что эта активность проявляется регулярно: в разных местах разных произведений.

НЕ нашли? Не то? Что вы ищете?

Активность определенных синтаксических конструкций тоже регулярна.

Ср. число сложных предложений: Симонов: 27/24/33/32

Шолохов 11/13/16/13

Эти факты - не самоцель и даже не результат, она - база для формулировки вопросов и лингвистических гипотез.

Например: 1) Есть ли внутренняя связь у данных статистических показателей, т. е. носят ли они системный характер?

11-2

2)   Стоит ли за статистическими различиями художественное содержание?

3)   Связаны ли изученные морфологические и синтаксические элементы с явлениями в лексике, не изучавшимся в опыте?

4)   Можно ли предположить, что в необследованных кусках активность изучаемых элементов будет той же, что и в выборках (представительность, достоверность выборки)?

5)   Есть ли в современной литературе другие писатели, близкие по структуре речи к Симонову и Шолохову?

6)   Влияет ли отношение писателя к действительности, которую он изображает, на активность различных явлений языка? И т. д.

Чем же обусловлена необходимость статистического метода?

1. Накопленные знания о языке позволяют утверждать, что языку и речи объективно присущи некоторые количественные признаки, количественные характеристики. Это имплицитно, в неявном виде признается всеми лингвистами: описывая язык, пользуемся понятиями часто, редко, употребительно, неупотребительно, обычно...» Но такие характеристики никак не проверяются - их надежность недостаточна.

См. 10-3

: «Некоторые основные количественные характеристики носят очень простой характер, фонем от 10 до 80, морфем несколько тысяч, слов примерно 104, 105.

Эти соотношения связаны с устройством человеческой памяти. Соотношение между количеством слогов (фонем) слов позволяет классифицировать языки по типам.

Так, если слова в языке односложны, они, как правило, состоят из одной морфемы, равной слову. Чтобы передать большее количество смыслов при помощи небольшого набора фонем (чтобы память не перегружалась 107-8 морфем-слов), слоги различаются при помощи музыкального ударения. В абхазском языке (бзибский говор) = 81 фонема - корневая морфема обычно = 1 фонема.

А в русском языке много таких корней.

11-3

Знание подобных зависимостей может использоваться и в сравнительно-историческом языкознании. Если для какого-либо языка (например, пракартвельского) из анализа морфемного состава слов (качественный анализ) предполагается, что корень = 1 фонеме, то из этого вытекает, что система фонем превосходит среднюю норму (40).

2.   Второе реальное основание для применения статистики в языкознании - зависимость между качественными и количественными характеристиками языковой структуры. Язык с 10 фонемами даст иное качество звукового облика морфем (значит, и слов), нежели язык с 50 фонемами.

3.   В мире, в котором мы живем, известны законы двух типов - так называемые динамические и статистические (вероятностные). Действие динамических законов может быть точно предсказано (железо тонет в воде, вода кипит при 100 градусах). Действие статистических законов может быть предсказано лишь в известных пределах от-до, так как результаты колеблются около некоторой средней величины. Статистическим законам подчиняются такие явления природы и общественной жизни, которые испытывают влияние ряда разнонаправленных причин - нет однозначного результат. Ср. факторы влияния на личность - воздействие школы, пропаганды на ребенка.

Частоты различных элементов в речи тоже подчиняются статистическим законам. Самые элементарные понятия: частота, средняя частота, отклонение от средней.

Частота (какого-либо факта, события) - число его проявлений в наблюдаемом отрезке действительности (в тексте). Статистика, как правило, имеет дело не с генеральной совокупностью, а с выборкой (берет «пробы»).

По нескольким пробам судит о частоте в генеральной совокупности - выборочная частота.

Х1+Х2+Х3+...Хi

Средняя частота: X = i (число набл.)

Отклонение от средней (дисперсия) - разброс частот. Как ни интересны отдельные отклонения сами по себе, их необходимо несколько обобщать и усреднять.

Абсолютное отклонение:

сумма всех отклонений

на число наблюдений

11-4

Где находят применение статистические приемы?

1.   Лексикографическая статистика: создание частотных словарей различных языков. Надежность частотных показателей: какую выборку взять? (Чем больше, тем надежнее!) Как сформировать выборку, чтобы словарь отражал функционирование лексики всего языка, а не отдельных стилей?

Создано более 300 частотных словарей и списков слов. «Словарь языка Пушкина» - частотные признаки даны как вспомогательные в качественном описании лексики.

2.   Изучение языковых и речевых стилей. Созрело понимание того, что функционирование языка вариативно, и это лежит в основе стилевой дифференциации языка и речи. Проблема стилистической атрибуции включает как качественные, так и количественные характеристики.

Стиль - это статистическая вероятность.

3.   Общие вопросы статистического изучения языка, квантитативный подход к языковым структурам. Получены статистические показатели функционирования фонем и морфем в разных языках, «нагруженность гласных и согласных»

См. С. 11-2

Никонов, См. Богданова, С. 13

4.   Известны успехи лингвистов в расшифровке и атрибуции древних текстов. Эти успехи - и от применения статистических методик.

См. . Система письма древних майя. М., 1965 (разработана оригинальная методика, позволившая с помощью статистики расшифровать большую часть письменных документов народа майя).

Сухотин лингвистической дешифровки // Проблемы структурной лингвистики. М., 1983.

5.   Особое место занимают статистические приемы в нормативном описательном методе, в нормативной оценке языковых фактов.

Еще в 50-60-х гг. в Советском Союзе лингвисты в регламентирующей сфере языка не обращались к статистическим характеристикам. В АГ-52 в случае колеблющихся вариантов использовались словесные количественные оценки (чаще...) В рекомендательных работах большей точности и не надо: говорящему не обязательно знать, сколько раз он скажет чая или чаю. Это важно знать кодификатору, чтобы сделать выбор.

См. диссертацию С. 67-69

Нормализатор отвечает на вопрос «как нужно». Но для этого он должен знать «как есть». Это сфера лингвостатистики.

11-5

Например, АГ рекомендует вариант самоё (сам идет, самоё ведет; он любит самоё жизнь, дитя/дитё), как традиционно-литературный. В наши дни даже корректоры, самые бдительные блюстители чистоты и правильности речи, сплошь и рядом пропускают жизнелюбивый вариант саму.

Любая рекомендация окажется легковесной, если не изучить, в том числе и количественно, соотношение этих вариантов, отношение к ним говорящих и т. д. Статистическое обследование может показать реальный перевес одного из вариантов, исход конкуренции.

О вопросниках. Контрольные вопросы.

Условия. Учесть релевантные признаки - факторный анализ.

На первом плане - проблема описания, а не предписания.

Ограниченность статистического метода (по Виноградову):

1)   «площадь исследования сужена пределами, доступными данному методу».

См. Граудина. С. 76; Муравьева Русский язык по данным массового обследования.

2)   результат подчинен «закону больших чисел»: для достоверности - большой материал; отмечаются лишь типические черты, в то время как качественный методы могут дать ценные наблюдения и на ограниченном материале.

Итак, использование статистики - в области вариативных языковых средств (со стороны их обработки в речи). Разные варианты - разная частота - неодинаковая эффективность: а) снег/снег, дожди/ дож, ж,и; б) редакторы/-а; в отпуске/-у; брызгает/брызжет.

О ведущей роли срединного слога.