мЕТОДЫ АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТОВ

Российский университет дружбы народов, Москва, Россия, *****@***com

В работе представлен метод анализа тональности, использующий словосочетания, и проводится его сравнение с методом, использующим слова.

Ключевые слова: компьютерные науки, анализ тональности, анализ контента социальных медиа.

Введение

Доклад посвящен анализу тональности (sentiment analysis) текстов на естественном языке. Анализ тональности имеет целью выделение эмоциональной оценки (положительной, отрицательной или нейтральной) в анализируемых текстах [1]. С помощью анализа тональности решается задача исследования отношения общественности к какому-либо объекту или событию на основе мнений опубликованных в социальных сетях и других социальных медиа.

Методы анализа тональности

Существует два основных подхода к анализу тональности [2]. Первый подход основывается на методе векторного анализа (часто с применением n-граммных моделей), и состоит в сравнении с ранее размеченным эталонным корпусом по выбранной мере близости и отнесении (классификации) текста к классу негативных или позитивных на основании результата полученного от классификатора. Второй подход  состоит в поиске эмотивной лексики  в тексте по заранее составленным тональным словарям (спискам паттернов) с применением лингвистического анализа текста. В качестве единицы данных в этих подходах выступает слово.

В работе предложен метод, в котором в качестве единиц данных выступают словосочетания, являющиеся признаками для классификации текстов с использованием метода опорных векторов (support vector machine).

НЕ нашли? Не то? Что вы ищете?

Экспериментальная оценка влияния словосочетаний на точность анализа тональности проводилась в рамках ежегодного Российского семинара по Оценке Методов Информационного Поиска (РОМИП) [3], в котором принимают участие алгоритмы многих крупных фирм, в частности занимающихся анализом тональности. Участникам семинара раздавались обучающие и тестовые коллекции, которые представляют собой отзывы людей о различных товарах. Задача состояла в оценке отзывов текстовой коллекции по двум, трем и пяти шкалам.

Выводы

В ходе эксперимента было выявлено, что частота встречаемости выделенных словосочетаний на тестовой выборке мала. В результате точность метода, использующего только словосочетания ниже, чем у метода использующего слова. В случае если для анализа использовать и слова и словосочетания, то последние имеют малую значимость по причине их маленькой значимости в предложении.

Литература

1. Pang B., Lee L. Opinion Mining and Sentiment Analysis.// N. Y.:Now Publishers Inc., 2008.

2. , ., Метод определения эмоций в текстах на русском языке

3. Российский семинар по Оценке Методов Информационного Поиска. http://romip. ru/

METHODS OF SENTIMENT ANALYSIS

Khramoin I. V.

Peoples' Friendship University of Russia, *****@***com

The method of seniment analysis, which deals with phrases, and comparison of this method with the method, that deals with words, is represented in this report.

Кеу words: computer science, sentiment analysis, social media content analysis.