В. Д. СОЛОВЬЕВ
Казанский государственный университет
СРАВНЕНИЕ МАТЕМАТИЧЕСКИХ МЕТОДОВ
АНАЛИЗА КОРПУСНЫХ ДАННЫХ
С созданием больших корпусов текстов появились новые подходы к решению старых проблем семантики, таких как описание синонимии или структуры семантических полей. Однако методология корпусного анализа, в том числе, используемый математический аппарат, до сих пор не устоялась. В докладе излагаются результаты исследований семантических полей, включающих десятки слов, на основе данных Национального корпуса русского языка и Библиотеки Машкова и с применением трех видов математического анализа данных: иерархического кластерного анализа, ординации и метода диаграмм, разработанного автором. Показано, что в целом все виды анализа дают сопоставимые результаты. Все же для разных задач лучшие результаты дают разные методы. Для выявления в семантическом поле структуры ‘Центр-периферия’ лучше подходит ординация, а для описания синонимии – метод диаграмм.


