Анализ тональности текстов на основе ДСМ-метода (стр. 5 )

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

Рис. 5 – Размер словаря

Использование ручного словаря в большинстве случаев позволило получить более высокие оценки. Улучшение оценок составило от 1% до 77% по табл. 2 и от 1% до 39% по табл. 3. Среднее улучшение показателей представлено в табл. 5. Незначительное ухудшение наблюдается по метрике полноты.

Улучшение связано с тем, что словарь, составленный вручную, содержит слова с наиболее ярко выраженной эмоциональной окраской, и практически не содержит слов с нейтральной окраской. Благодаря отсутствию нейтрально окрашенных слов формирующиеся гипотезы более точно характеризуют тональность.

Таблица 5 – Среднее улучшение оценок при использовании ручного словаря по сравнению с автоматическим

Источник усредняемых данных	Метрика
Precision	Recall	F1-measure	Accuracy
Табл. 2	11,4%	–0,39%	5,7%	4,1%
Табл. 3	11,6%	3%	7,4%	7,6%

Таблица 6 – Количество сформированных гипотез (при использовании функции разрешения конфликтов на основе количества гипотез)

Параметры	Количество гипотез
Часть речи	Словарь	Положительные	Отрицательные
Прил.	Авт.	2958	3046
Ручной	2161	1932
Сущ.	Авт.	5290	9758
Ручной	718	1234
Гл.	Авт.	3663	4155
Ручной	1204	1378
Прил. + Сущ.	Авт.	12146	18907
Ручной	2988	3307
Прил. + Гл.	Авт.	9193	9828
Ручной	3754	3601
Сущ. + Гл.	Авт.	13660	22201
Ручной	1850	2676
Прил. + Сущ. + Гл.	Авт.	23713	34850
Ручной	4584	5280
Все части речи	Авт.	72412	113258
Ручной	6217	6874

Наряду с повышением качества снизилось время работы программы. Это вызвано уменьшением количества слов в ручном словаре по сравнению с автоматическим, и как следствие, снижением времени поиска пересечений текстов. В табл. 6 этот факт подтверждается уменьшением количества гипотез.

НЕ нашли? Не то? Что вы ищете?

б) Влияние частей речи

Проведенные испытания показали, что из трех наиболее многочисленных групп частей речи (прил., сущ., гл.) наилучшие оценки качества определения тональности достигаются при использовании имен прилагательных. В табл. 7 приведены результаты улучшения оценок при использовании имен прилагательных по сравнению с другие частями речи. Сравнение проведено по результатам испытаний с ручным словарем.

Таблица 7 – Улучшение оценок при использовании имен прилагательных по сравнению с другими частями речи (при использовании ручного словаря)

Источник данных	Часть речи, с которой проводилось сравнение	Метрика
Precision	Recall	F1-measure	Accuracy
Табл. 2	сущ.	19,4%	3,8%	12,3%	1,5%
гл.	30,4%	10,4%	20,7%	15,3%
Табл. 3	сущ.	34,5%	8,4%	21,1%	8,4%
гл.	11,5%	11,3%	11,9%	10,1%

Объединение прилагательных с другими частями речи позволило получить еще более высокие оценки. Наилучшие и близкие между собой оценки были достигнуты при комбинациях:

· по данным табл. 2 – прил. + сущ., прил. + сущ. + гл.;

· по данным табл. 3 – прил. + сущ., прил. + сущ. + гл., все части речи.

Данный эксперимент показал, что наибольший вклад в качество определения тональности текста вносят прилагательные.

в) Совместное влияние словаря и частей речи

По данным табл. 2 и 3 наименее хорошие результаты показало использование сущ. и автоматического словаря. Наилучшие результаты (строки, выделенные серым цветом) были достигнуты при использовании сочетаний ручного словаря и прил. + сущ., прил. + сущ. + гл., всех частей речи.

2. Результаты эксперимента в зависимости от функции разрешения конфликтов

В процессе эксперимента для каждого -текста на основе совпадений характеристик определялись множества подходящих положительных и отрицательных гипотез. Затем эти гипотезы поступали на вход функции разрешения конфликтов , которая на основе заданного критерия присваивала тексту определенную тональность. Для разрешения конфликтов использовались функции, приведенные в п. 1.2.2. Компьютерный эксперимент проводился при коэффициенте естественного дисбаланса . Результаты представлены в табл. 8.

Таблица 8 – Результаты работы ДСМ-метода в зависимости от функции разрешения конфликтов

Критерий функции разрешения конфликтов	Метрики качества
Precision	Recall	F1-measure	Accuracy
Суммарное количество гипотез	0,950	0,906	0,927	0,919
Суммарное количество характеристик во всех гипотезах	0,919	0,915	0,917	0,911
Суммарное количество родителей у всех гипотез	0,940	0,850	0,892	0,882
Произведение количества характеристик на количество родителей	0,932	0,843	0,885	0,874
Взвешенное среднее арифметическое числа характеристик	0,941	0,844	0,889	0,879
Взвешенное среднее арифметическое числа родителей	0,717	0,679	0,696	0,691

Данные табл. 8 были получены при использовании ручного словаря с прилагательными. На основании этих можно заключить, что функция разрешения конфликтов влияет на качество определения тональности текстов. Лучшие результаты показала функция разрешения конфликтов на основе суммарного количества гипотез.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9

НЕ нашли? Не то? Что вы ищете?

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Анализ тональности текстов на основе ДСМ-метода (стр. 5 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы