Лекция 11.
Статистическая методика в языкознании в диахронии и синхронии
Статистическая методика находит применение в различных методах.
1 этап исследования – наблюдение.
Поиск примеров (показательные примеры - сколько?; полная выборка (если объем текстов ограничен).
Начнем с применения в описательных исследованиях.
Часто по нескольким предложениям можем установить автора (Толстой, Чехов, Паустовский) - вне зависимости от содержания. На этом строится пародия (Жванецкий).
Как объяснить эти факты?
Есть какие-то стабильные признаки в структуре речи?
В речевом потоке у каждого индивидуума тоже отдельные элементы встречаются чаще или реже. Зимняя толпа отличается от весенней по определенным признакам, хотя есть и общие.
Пример. Проверялась гипотеза о том, что читательское впечатление от (стиля Шолохова» или «стиля Симонова» связано с какими-то устойчивыми соотношениями в тексте различных элементов (в частности, части речи).
Сравнивали по 6 выборок из Симонова и Шолохова (из разных произведений).
Как корректно определить фрагмент? Ведь от этого зависит чистота эксперимента.
Бралась только речь авторов. Длина выборки - 500 знаменательных слов.
Симонов Шолохов
Сущ. 160 196
Прил. 59 74
Глаголы 113 56
Причастия 21 56
Принято думать, что части речи слишком абстрактны и инертны, чтобы принимать участие в формировании стилей отдельных авторов.
Однако цифры говорят об обратном. В функциональных стилях должно быть то же.
Цифры по Симонову/Шолохову свидетельствуют не только о сравнительной активности определенной части речи, но и о том, что эта активность проявляется регулярно: в разных местах разных произведений.
Активность определенных синтаксических конструкций тоже регулярна.
Ср. число сложных предложений: Симонов: 27/24/33/32
Шолохов 11/13/16/13
Эти факты - не самоцель и даже не результат, она - база для формулировки вопросов и лингвистических гипотез.
Например: 1) Есть ли внутренняя связь у данных статистических показателей, т. е. носят ли они системный характер?
11-2
2) Стоит ли за статистическими различиями художественное содержание?
3) Связаны ли изученные морфологические и синтаксические элементы с явлениями в лексике, не изучавшимся в опыте?
4) Можно ли предположить, что в необследованных кусках активность изучаемых элементов будет той же, что и в выборках (представительность, достоверность выборки)?
5) Есть ли в современной литературе другие писатели, близкие по структуре речи к Симонову и Шолохову?
6) Влияет ли отношение писателя к действительности, которую он изображает, на активность различных явлений языка? И т. д.
Чем же обусловлена необходимость статистического метода?
1. Накопленные знания о языке позволяют утверждать, что языку и речи объективно присущи некоторые количественные признаки, количественные характеристики. Это имплицитно, в неявном виде признается всеми лингвистами: описывая язык, пользуемся понятиями часто, редко, употребительно, неупотребительно, обычно...» Но такие характеристики никак не проверяются - их надежность недостаточна.
См. 10-3
: «Некоторые основные количественные характеристики носят очень простой характер, фонем от 10 до 80, морфем несколько тысяч, слов примерно 104, 105.
Эти соотношения связаны с устройством человеческой памяти. Соотношение между количеством слогов (фонем) слов позволяет классифицировать языки по типам.
Так, если слова в языке односложны, они, как правило, состоят из одной морфемы, равной слову. Чтобы передать большее количество смыслов при помощи небольшого набора фонем (чтобы память не перегружалась 107-8 морфем-слов), слоги различаются при помощи музыкального ударения. В абхазском языке (бзибский говор) = 81 фонема - корневая морфема обычно = 1 фонема.
А в русском языке много таких корней.
11-3
Знание подобных зависимостей может использоваться и в сравнительно-историческом языкознании. Если для какого-либо языка (например, пракартвельского) из анализа морфемного состава слов (качественный анализ) предполагается, что корень = 1 фонеме, то из этого вытекает, что система фонем превосходит среднюю норму (40).
2. Второе реальное основание для применения статистики в языкознании - зависимость между качественными и количественными характеристиками языковой структуры. Язык с 10 фонемами даст иное качество звукового облика морфем (значит, и слов), нежели язык с 50 фонемами.
3. В мире, в котором мы живем, известны законы двух типов - так называемые динамические и статистические (вероятностные). Действие динамических законов может быть точно предсказано (железо тонет в воде, вода кипит при 100 градусах). Действие статистических законов может быть предсказано лишь в известных пределах от-до, так как результаты колеблются около некоторой средней величины. Статистическим законам подчиняются такие явления природы и общественной жизни, которые испытывают влияние ряда разнонаправленных причин - нет однозначного результат. Ср. факторы влияния на личность - воздействие школы, пропаганды на ребенка.
Частоты различных элементов в речи тоже подчиняются статистическим законам. Самые элементарные понятия: частота, средняя частота, отклонение от средней.
Частота (какого-либо факта, события) - число его проявлений в наблюдаемом отрезке действительности (в тексте). Статистика, как правило, имеет дело не с генеральной совокупностью, а с выборкой (берет «пробы»).
По нескольким пробам судит о частоте в генеральной совокупности - выборочная частота.
Х1+Х2+Х3+...Хi
Средняя частота: X = i (число набл.)
Отклонение от средней (дисперсия) - разброс частот. Как ни интересны отдельные отклонения сами по себе, их необходимо несколько обобщать и усреднять.
Абсолютное отклонение:
сумма всех отклонений
на число наблюдений
11-4
Где находят применение статистические приемы?
1. Лексикографическая статистика: создание частотных словарей различных языков. Надежность частотных показателей: какую выборку взять? (Чем больше, тем надежнее!) Как сформировать выборку, чтобы словарь отражал функционирование лексики всего языка, а не отдельных стилей?
Создано более 300 частотных словарей и списков слов. «Словарь языка Пушкина» - частотные признаки даны как вспомогательные в качественном описании лексики.
2. Изучение языковых и речевых стилей. Созрело понимание того, что функционирование языка вариативно, и это лежит в основе стилевой дифференциации языка и речи. Проблема стилистической атрибуции включает как качественные, так и количественные характеристики.
Стиль - это статистическая вероятность.
3. Общие вопросы статистического изучения языка, квантитативный подход к языковым структурам. Получены статистические показатели функционирования фонем и морфем в разных языках, «нагруженность гласных и согласных»
См. С. 11-2
Никонов, См. Богданова, С. 13
4. Известны успехи лингвистов в расшифровке и атрибуции древних текстов. Эти успехи - и от применения статистических методик.
См. . Система письма древних майя. М., 1965 (разработана оригинальная методика, позволившая с помощью статистики расшифровать большую часть письменных документов народа майя).
Сухотин лингвистической дешифровки // Проблемы структурной лингвистики. М., 1983.
5. Особое место занимают статистические приемы в нормативном описательном методе, в нормативной оценке языковых фактов.
Еще в 50-60-х гг. в Советском Союзе лингвисты в регламентирующей сфере языка не обращались к статистическим характеристикам. В АГ-52 в случае колеблющихся вариантов использовались словесные количественные оценки (чаще...) В рекомендательных работах большей точности и не надо: говорящему не обязательно знать, сколько раз он скажет чая или чаю. Это важно знать кодификатору, чтобы сделать выбор.
См. диссертацию С. 67-69
Нормализатор отвечает на вопрос «как нужно». Но для этого он должен знать «как есть». Это сфера лингвостатистики.
11-5
Например, АГ рекомендует вариант самоё (сам идет, самоё ведет; он любит самоё жизнь, дитя/дитё), как традиционно-литературный. В наши дни даже корректоры, самые бдительные блюстители чистоты и правильности речи, сплошь и рядом пропускают жизнелюбивый вариант саму.
Любая рекомендация окажется легковесной, если не изучить, в том числе и количественно, соотношение этих вариантов, отношение к ним говорящих и т. д. Статистическое обследование может показать реальный перевес одного из вариантов, исход конкуренции.
О вопросниках. Контрольные вопросы.
Условия. Учесть релевантные признаки - факторный анализ.
На первом плане - проблема описания, а не предписания.
Ограниченность статистического метода (по Виноградову):
1) «площадь исследования сужена пределами, доступными данному методу».
См. Граудина. С. 76; Муравьева Русский язык по данным массового обследования.
2) результат подчинен «закону больших чисел»: для достоверности - большой материал; отмечаются лишь типические черты, в то время как качественный методы могут дать ценные наблюдения и на ограниченном материале.
Итак, использование статистики - в области вариативных языковых средств (со стороны их обработки в речи). Разные варианты - разная частота - неодинаковая эффективность: а) снег/снег, дожди/ дож, ж,и; б) редакторы/-а; в отпуске/-у; брызгает/брызжет.
О ведущей роли срединного слога.


