мЕТОДЫ АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТОВ
Российский университет дружбы народов, Москва, Россия, *****@***com
В работе представлен метод анализа тональности, использующий словосочетания, и проводится его сравнение с методом, использующим слова.
Ключевые слова: компьютерные науки, анализ тональности, анализ контента социальных медиа.
Введение
Доклад посвящен анализу тональности (sentiment analysis) текстов на естественном языке. Анализ тональности имеет целью выделение эмоциональной оценки (положительной, отрицательной или нейтральной) в анализируемых текстах [1]. С помощью анализа тональности решается задача исследования отношения общественности к какому-либо объекту или событию на основе мнений опубликованных в социальных сетях и других социальных медиа.
Методы анализа тональности
Существует два основных подхода к анализу тональности [2]. Первый подход основывается на методе векторного анализа (часто с применением n-граммных моделей), и состоит в сравнении с ранее размеченным эталонным корпусом по выбранной мере близости и отнесении (классификации) текста к классу негативных или позитивных на основании результата полученного от классификатора. Второй подход состоит в поиске эмотивной лексики в тексте по заранее составленным тональным словарям (спискам паттернов) с применением лингвистического анализа текста. В качестве единицы данных в этих подходах выступает слово.
В работе предложен метод, в котором в качестве единиц данных выступают словосочетания, являющиеся признаками для классификации текстов с использованием метода опорных векторов (support vector machine).
Экспериментальная оценка влияния словосочетаний на точность анализа тональности проводилась в рамках ежегодного Российского семинара по Оценке Методов Информационного Поиска (РОМИП) [3], в котором принимают участие алгоритмы многих крупных фирм, в частности занимающихся анализом тональности. Участникам семинара раздавались обучающие и тестовые коллекции, которые представляют собой отзывы людей о различных товарах. Задача состояла в оценке отзывов текстовой коллекции по двум, трем и пяти шкалам.
Выводы
В ходе эксперимента было выявлено, что частота встречаемости выделенных словосочетаний на тестовой выборке мала. В результате точность метода, использующего только словосочетания ниже, чем у метода использующего слова. В случае если для анализа использовать и слова и словосочетания, то последние имеют малую значимость по причине их маленькой значимости в предложении.
Литература
1. Pang B., Lee L. Opinion Mining and Sentiment Analysis.// N. Y.:Now Publishers Inc., 2008.
2. , ., Метод определения эмоций в текстах на русском языке
3. Российский семинар по Оценке Методов Информационного Поиска. http://romip. ru/
METHODS OF SENTIMENT ANALYSIS
Khramoin I. V.
Peoples' Friendship University of Russia, *****@***com
The method of seniment analysis, which deals with phrases, and comparison of this method with the method, that deals with words, is represented in this report.
Кеу words: computer science, sentiment analysis, social media content analysis.


