Параметры

Метрики качества

Часть речи

Словарь

Precision

Recall

F1-measure

Accuracy

Прил.

Авт.

0,882

0,861

0,871

0,868

Ручной

0,931

0,855

0,890

0,881

Сущ.

Авт.

0,685

0,723

0,699

0,706

Ручной

0,692

0,789

0,735

0,813

Гл.

Авт.

0,762

0,768

0,764

0,766

Ручной

0,835

0,768

0,795

0,800

Прил. + Сущ.

Авт.

0,787

0,843

0,814

0,820

Ручной

0,933

0,893

0,912

0,911

Прил. + Гл.

Авт.

0,872

0,845

0,858

0,855

Ручной

0,935

0,840

0,884

0,875

Сущ. + Гл.

Авт.

0,771

0,790

0,779

0,781

Ручной

0,839

0,873

0,855

0,862

Прил. + Сущ. + Гл.

Авт.

0,848

0,857

0,852

0,854

Ручной

0,947

0,878

0,911

0,907

Все части речи

Авт.

0,684

0,889

0,770

0,798

Ручной

0,952

0,880

0,914

0,909

На основании этой информации, проведем анализ влияния отдельных составляющих ДСМ-метода на качество распознавания тональности текстов.

а) Влияние словаря

В табл. 4 приведены размеры словаря по каждой части речи, а на рис. 5 эти данные представлены в виде диаграммы. Автоматический словарь формировался путем добавления из текстов обучающей коллекции всех слов без исключения. Ручной словарь составлялся из автоматического путем удаления слов с нейтральной окраской.

Таблица 4 – Размер словаря

Параметры

Размер словаря

Параметры

Размер словаря

Часть речи

Словарь

Часть речи

Словарь

Прил.

Авт.

1280

Прил. + Гл.

Авт.

2014

Ручной

757

Ручной

1041

Сущ.

Авт.

1142

Сущ. + Гл.

Авт.

1876

Ручной

294

Ручной

578

Гл.

Авт.

734

Прил. + Сущ. + Гл.

Авт.

3156

Ручной

284

Ручной

1335

Прил. + Сущ.

Авт.

2422

Все части речи

Авт.

3409

Ручной

1050

Ручной

1379

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9