Рис. 5 – Размер словаря
Использование ручного словаря в большинстве случаев позволило получить более высокие оценки. Улучшение оценок составило от 1% до 77% по табл. 2 и от 1% до 39% по табл. 3. Среднее улучшение показателей представлено в табл. 5. Незначительное ухудшение наблюдается по метрике полноты.
Улучшение связано с тем, что словарь, составленный вручную, содержит слова с наиболее ярко выраженной эмоциональной окраской, и практически не содержит слов с нейтральной окраской. Благодаря отсутствию нейтрально окрашенных слов формирующиеся гипотезы более точно характеризуют тональность.
Таблица 5 – Среднее улучшение оценок при использовании ручного словаря по сравнению с автоматическим
Источник усредняемых данных | Метрика | |||
Precision | Recall | F1-measure | Accuracy | |
Табл. 2 | 11,4% | –0,39% | 5,7% | 4,1% |
Табл. 3 | 11,6% | 3% | 7,4% | 7,6% |
Таблица 6 – Количество сформированных гипотез (при использовании функции разрешения конфликтов на основе количества гипотез)
Параметры | Количество гипотез | ||
Часть речи | Словарь | Положительные | Отрицательные |
Прил. | Авт. | 2958 | 3046 |
Ручной | 2161 | 1932 | |
Сущ. | Авт. | 5290 | 9758 |
Ручной | 718 | 1234 | |
Гл. | Авт. | 3663 | 4155 |
Ручной | 1204 | 1378 | |
Прил. + Сущ. | Авт. | 12146 | 18907 |
Ручной | 2988 | 3307 | |
Прил. + Гл. | Авт. | 9193 | 9828 |
Ручной | 3754 | 3601 | |
Сущ. + Гл. | Авт. | 13660 | 22201 |
Ручной | 1850 | 2676 | |
Прил. + Сущ. + Гл. | Авт. | 23713 | 34850 |
Ручной | 4584 | 5280 | |
Все части речи | Авт. | 72412 | 113258 |
Ручной | 6217 | 6874 |
Наряду с повышением качества снизилось время работы программы. Это вызвано уменьшением количества слов в ручном словаре по сравнению с автоматическим, и как следствие, снижением времени поиска пересечений текстов. В табл. 6 этот факт подтверждается уменьшением количества гипотез.
б) Влияние частей речи
Проведенные испытания показали, что из трех наиболее многочисленных групп частей речи (прил., сущ., гл.) наилучшие оценки качества определения тональности достигаются при использовании имен прилагательных. В табл. 7 приведены результаты улучшения оценок при использовании имен прилагательных по сравнению с другие частями речи. Сравнение проведено по результатам испытаний с ручным словарем.
Таблица 7 – Улучшение оценок при использовании имен прилагательных по сравнению с другими частями речи (при использовании ручного словаря)
Источник данных | Часть речи, с которой проводилось сравнение | Метрика | |||
Precision | Recall | F1-measure | Accuracy | ||
Табл. 2 | сущ. | 19,4% | 3,8% | 12,3% | 1,5% |
гл. | 30,4% | 10,4% | 20,7% | 15,3% | |
Табл. 3 | сущ. | 34,5% | 8,4% | 21,1% | 8,4% |
гл. | 11,5% | 11,3% | 11,9% | 10,1% |
Объединение прилагательных с другими частями речи позволило получить еще более высокие оценки. Наилучшие и близкие между собой оценки были достигнуты при комбинациях:
· по данным табл. 2 – прил. + сущ., прил. + сущ. + гл.;
· по данным табл. 3 – прил. + сущ., прил. + сущ. + гл., все части речи.
Данный эксперимент показал, что наибольший вклад в качество определения тональности текста вносят прилагательные.
в) Совместное влияние словаря и частей речи
По данным табл. 2 и 3 наименее хорошие результаты показало использование сущ. и автоматического словаря. Наилучшие результаты (строки, выделенные серым цветом) были достигнуты при использовании сочетаний ручного словаря и прил. + сущ., прил. + сущ. + гл., всех частей речи.
2. Результаты эксперимента в зависимости от функции разрешения конфликтов
В процессе эксперимента для каждого
-текста на основе совпадений характеристик определялись множества подходящих положительных
и отрицательных
гипотез. Затем эти гипотезы поступали на вход функции разрешения конфликтов
, которая на основе заданного критерия присваивала тексту определенную тональность. Для разрешения конфликтов использовались функции, приведенные в п. 1.2.2. Компьютерный эксперимент проводился при коэффициенте естественного дисбаланса
. Результаты представлены в табл. 8.
Таблица 8 – Результаты работы ДСМ-метода в зависимости от функции разрешения конфликтов
Критерий функции разрешения конфликтов | Метрики качества | |||
Precision | Recall | F1-measure | Accuracy | |
Суммарное количество гипотез | 0,950 | 0,906 | 0,927 | 0,919 |
Суммарное количество характеристик во всех гипотезах | 0,919 | 0,915 | 0,917 | 0,911 |
Суммарное количество родителей у всех гипотез | 0,940 | 0,850 | 0,892 | 0,882 |
Произведение количества характеристик на количество родителей | 0,932 | 0,843 | 0,885 | 0,874 |
Взвешенное среднее арифметическое числа характеристик | 0,941 | 0,844 | 0,889 | 0,879 |
Взвешенное среднее арифметическое числа родителей | 0,717 | 0,679 | 0,696 | 0,691 |
Данные табл. 8 были получены при использовании ручного словаря с прилагательными. На основании этих можно заключить, что функция разрешения конфликтов влияет на качество определения тональности текстов. Лучшие результаты показала функция разрешения конфликтов на основе суммарного количества гипотез.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 |


