Рис. 5 – Размер словаря

Использование ручного словаря в большинстве случаев позволило получить более высокие оценки. Улучшение оценок составило от 1% до 77% по табл. 2 и от 1% до 39% по табл. 3. Среднее улучшение показателей представлено в табл. 5. Незначительное ухудшение наблюдается по метрике полноты.

Улучшение связано с тем, что словарь, составленный вручную, содержит слова с наиболее ярко выраженной эмоциональной окраской, и практически не содержит слов с нейтральной окраской. Благодаря отсутствию нейтрально окрашенных слов формирующиеся гипотезы более точно характеризуют тональность.

Таблица 5 – Среднее улучшение оценок при использовании ручного словаря по сравнению с автоматическим

Источник

усредняемых данных

Метрика

Precision

Recall

F1-measure

Accuracy

Табл. 2

11,4%

–0,39%

5,7%

4,1%

Табл. 3

11,6%

3%

7,4%

7,6%

Таблица 6 – Количество сформированных гипотез (при использовании функции разрешения конфликтов на основе количества гипотез)

Параметры

Количество гипотез

Часть речи

Словарь

Положительные

Отрицательные

Прил.

Авт.

2958

3046

Ручной

2161

1932

Сущ.

Авт.

5290

9758

Ручной

718

1234

Гл.

Авт.

3663

4155

Ручной

1204

1378

Прил. + Сущ.

Авт.

12146

18907

Ручной

2988

3307

Прил. + Гл.

Авт.

9193

9828

Ручной

3754

3601

Сущ. + Гл.

Авт.

13660

22201

Ручной

1850

2676

Прил. + Сущ. + Гл.

Авт.

23713

34850

Ручной

4584

5280

Все части речи

Авт.

72412

113258

Ручной

6217

6874

Наряду с повышением качества снизилось время работы программы. Это вызвано уменьшением количества слов в ручном словаре по сравнению с автоматическим, и как следствие, снижением времени поиска пересечений текстов. В табл. 6 этот факт подтверждается уменьшением количества гипотез.

НЕ нашли? Не то? Что вы ищете?

б) Влияние частей речи

Проведенные испытания показали, что из трех наиболее многочисленных групп частей речи (прил., сущ., гл.) наилучшие оценки качества определения тональности достигаются при использовании имен прилагательных. В табл. 7 приведены результаты улучшения оценок при использовании имен прилагательных по сравнению с другие частями речи. Сравнение проведено по результатам испытаний с ручным словарем.

Таблица 7 – Улучшение оценок при использовании имен прилагательных по сравнению с другими частями речи (при использовании ручного словаря)

Источник данных

Часть речи, с которой проводилось сравнение

Метрика

Precision

Recall

F1-measure

Accuracy

Табл. 2

сущ.

19,4%

3,8%

12,3%

1,5%

гл.

30,4%

10,4%

20,7%

15,3%

Табл. 3

сущ.

34,5%

8,4%

21,1%

8,4%

гл.

11,5%

11,3%

11,9%

10,1%

Объединение прилагательных с другими частями речи позволило получить еще более высокие оценки. Наилучшие и близкие между собой оценки были достигнуты при комбинациях:

· по данным табл. 2 – прил. + сущ., прил. + сущ. + гл.;

· по данным табл. 3 – прил. + сущ., прил. + сущ. + гл., все части речи.

Данный эксперимент показал, что наибольший вклад в качество определения тональности текста вносят прилагательные.

в) Совместное влияние словаря и частей речи

По данным табл. 2 и 3 наименее хорошие результаты показало использование сущ. и автоматического словаря. Наилучшие результаты (строки, выделенные серым цветом) были достигнуты при использовании сочетаний ручного словаря и прил. + сущ., прил. + сущ. + гл., всех частей речи.

2. Результаты эксперимента в зависимости от функции разрешения конфликтов

В процессе эксперимента для каждого -текста на основе совпадений характеристик определялись множества подходящих положительных и отрицательных гипотез. Затем эти гипотезы поступали на вход функции разрешения конфликтов , которая на основе заданного критерия присваивала тексту определенную тональность. Для разрешения конфликтов использовались функции, приведенные в п. 1.2.2. Компьютерный эксперимент проводился при коэффициенте естественного дисбаланса . Результаты представлены в табл. 8.

Таблица 8 – Результаты работы ДСМ-метода в зависимости от функции разрешения конфликтов

Критерий функции разрешения конфликтов

Метрики качества

Precision

Recall

F1-measure

Accuracy

Суммарное количество гипотез

0,950

0,906

0,927

0,919

Суммарное количество характеристик во всех гипотезах

0,919

0,915

0,917

0,911

Суммарное количество родителей у всех гипотез

0,940

0,850

0,892

0,882

Произведение количества характеристик на количество родителей

0,932

0,843

0,885

0,874

Взвешенное среднее арифметическое числа характеристик

0,941

0,844

0,889

0,879

Взвешенное среднее арифметическое числа родителей

0,717

0,679

0,696

0,691

Данные табл. 8 были получены при использовании ручного словаря с прилагательными. На основании этих можно заключить, что функция разрешения конфликтов влияет на качество определения тональности текстов. Лучшие результаты показала функция разрешения конфликтов на основе суммарного количества гипотез.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9