В. Д. СОЛОВЬЕВ

Казанский государственный университет

СРАВНЕНИЕ МАТЕМАТИЧЕСКИХ МЕТОДОВ

АНАЛИЗА КОРПУСНЫХ ДАННЫХ

С созданием больших корпусов текстов появились новые подходы к решению старых проблем семантики, таких как описание синонимии или структуры семантических полей. Однако методология корпусного анализа, в том числе, используемый математический аппарат, до сих пор не устоялась. В докладе излагаются результаты исследований семантических полей, включающих десятки слов, на основе данных Национального корпуса русского языка и Библиотеки Машкова и с применением трех видов математического анализа данных: иерархического кластерного анализа, ординации и метода диаграмм, разработанного автором. Показано, что в целом все виды анализа дают сопоставимые результаты. Все же для разных задач лучшие результаты дают разные методы. Для выявления в семантическом поле структуры ‘Центр-периферия’ лучше подходит ординация, а для описания синонимии – метод диаграмм.