классификация коротких текстовых документов
,
Московский государственный университет им. , *****@***com
Российский университет дружбы народов, emily. *****@***com
В работе рассмотрена задача классификации коротких текстовых документов по метаданным и классификация на основе анализа текста документа. Проанализированы различные метрики схожести между документами на основе распределения входящих в них слов. Выделены приоритетные направления для дальнейших исследований в области классификации коротких текстовых документов.
Ключевые слова: классификация текстовых документов, многоклассовая (мультиклассовая) классификация по метаданным, мультиномиальная модель, метод опорных векторов, TF, IDF.
Введение
Одним из крупнейших информационных ресурсов на сегодняшний день является сеть интернет, где большая часть информации хранится в виде текста, а именно в виде гипертекстовых документов. Для того чтобы эффективно работать с такими документами, полезно уметь их классифицировать, устанавливать связи между классами документов.
Задача автоматической классификации документов является одной из классических задач информационного поиска. Эта задача заключается в отнесении документа к одному или нескольким классам, на основе анализа текстового содержания документа.
Подход к классификации документов можно разделить на несколько типов:
- Классификация по метаданным
- Классификация на основе текста документа
- Комбинированная классификация
В данной работе рассмотрена задача классификация коротких текстовых документов по метаданным и классификация на основе анализа текста документа. Также в рамках работы проведены эксперименты по классификации коротких текстовых документов методом опорных векторов (SVM) [1] с применение различным метрик расстояния между документами, проведен сравнительный анализ полученных результатов.
Классификации документов
Для решения задачи классификации текстовых документов используется метод опорных векторов [1]. Это один из стандартных методов классификации, в рамках которого классифицируемые объекты представляются в виде численных векторов, а классификация сводится к нахождению гиперплоскости, которая будет разделять классифицируемые объекты (разделяющей гиперплоскости).
Каждый классифицируемый документ описывается вектором признаков. В качестве таких признаков используются следующие статистические данные, посчитанные по документам:
- Частота встречаемости слов в документе;
- Частота встречаемости биграмм слов в документе;
- Частота встречаемости символов в документе;
- Частот встречаемости пар символов в документе.
Для оценки степени принадлежности документа классу используются следующие метрики:
- Модуль разности признаковых векторов.
- Скалярное произведение признаковых векторов.
- Метрика близости в рамках мультинамиальной модели [3].
Каждый документ отдельно классифицируется по фрагментам:
- Название;
- Основной текст.
Далее приведем описание проводимых экспериментов, а именно опишем имеющиеся входные данные, интересующий нас выход и способ, с помощью которого была проведена оценка качества классификации.
Результаты экспериментов
В качестве исходных данных для классификации используются текстовые документы на русском языке, содержащие два поля: название и основной текст. Каждый документ подвергается предобработке и анализу, в результате которых мы получаем интересующее нас описание документа – вектор признаков, который и подается на вход классификатору. Для каждого документа, в соответствии с выбранной метрикой, рассчитывается вероятность его принадлежности к каждому классу, после чего среди них выбирается максимум, и документ относится к соответствующему классу.
Оценкой качества классификации служит точность. Точность классификации определяется следующим образом: считается отношение количества правильно классифицированных документов, к общему количеству классифицируемых документов.
В таблице 1 представлены некоторые данные по проведенным экспериментам.
Таблица 1. Качество классификации документов (по словам)
Multinomail Distribution | TF_Distance | TF_DotProduct | ||
BigramWord | main text | 0.715 | 0.776 | 0.754 |
name | 0.853 | 0.836 | 0.839 | |
Word | main text | 0.768 | 0.781 | 0.754 |
name | 0.872 | 0.839 | 0.844 |
Выводы
В результате проведенных экспериментов можно сформулировать следующие выводы:
- Для небольших по объему текстов качество классификации, основанной на распределении слов в документе значительно выше, чем качество классификации, основанной на распределении символов в документе.
- Качество классификации по биграммам слов оказалось ниже качества классификации по словам.
- В рамках наших исследований лучший результат был достигнут при применении полиномиальной модели распределения для слов.
Направления дальнейших исследований можно сформулировать следующим образом:
- Подбор большего количества признаков для классификации документов и проведение экспериментов с ними.
- Учет критерия IDF при классификации документов.
- Построение признаков для классификации на основе функции ранжировании BM25 и её модифицированного варианта BM25F[2].
- Применение принципов комбинированной классификации к задаче многоклассовой классификации коротких текстовых документов.
Литература
1. LIBSVM. A Library for Support Vector Machines - http://www. csie. ntu. edu. tw/~cjlin/libsvm/
2. Hugo Zaragoza, Nick Craswell, Michael Taylor, Suchi Saria, and Stephen Robertson. Microsoft Cambridge at TREC-13: Web and HARD tracks. In Proceedings of TREC-2004.
3. аннинг, Прабхакар Рагхаван, Хайнрих Шютце. Введение в информационный поиск - 2011 г – стр.263 - 294
short text classification
Dral A. A., Mbajkodzhi E.
Moscow State University, *****@***com
Peoples’ Friendship University of Russia, emily. *****@***com
This work covers different approaches to short text classification. The aim is to understand which measures of similarity text with metadata is preferably to use. Text measures presented in this work are based on distribution of word/character frequency. We also determine priority scientific directions for short text classification (in case we have metadata).
Key words: text classification, metadata classification, multinomial model, multiclass classification, SVM, TF, IDF.


