Номера классов

1

2

3

4

1

89

6

8

8

2

7

9

0

0

3

7

3

4

2

4

6

3

0

6

Табл. 4.25 Тип объявления. C4.5. Матрица неточностей

Номера классов

1

2

3

4

1

111

0

0

0

2

16

0

0

0

3

16

0

0

0

4

15

0

0

0

Табл. 4.26 Тип объявления. НБК. Матрица неточностей

Проведена лемматизация, оставлены существительные и прилагательные.


C4.5

НБК

Класс

Precision

Recall

F-score

Precision

Recall

F-score

объявление о конкурсе

0,838

0,793

0,815

0,707

1,000

0,828

объявление результатов

0,462

0,750

0,571

0,000

0,000

0,000

общая информация

0,250

0,063

0,100

0,000

0,000

0,000

информация для участников

0,391

0,600

0,474

1,000

0,067

0,125

Взвешенное среднее по категории

0,698

0,696

0,685

0,592

0,709

0,594

Табл. 4.27 Тип объявления. Сущ. & прил.

Номера классов

1

2

3

4

1

88

10

2

11

2

3

12

1

0

3

10

2

1

3

4

4

2

0

9

Табл. 4.28 Тип объявления. C4.5. Матрица неточностей

Номера классов

1

2

3

4

1

111

0

0

0

2

16

0

0

0

3

16

0

0

0

4

14

0

0

1

Табл. 4.29 Тип объявления. НБК. Матрица неточностей

Приведём результирующую таблицу.

НБК

С4.5

Класс

ненорм

все

с+п+г

с+п

ненорм

все

с+п+г

с+п

объявление о конкурсе

0,825

0,825

0,825

0,2

0,858

0,839

0,809

0,815

объявление результатов

0

0

0

0,828

0,513

0,5

0,486

0,571

общая информация

0

0

0

0

0,32

0,364

0,286

0,1

информация для участников

0

0

0

0

0,424

0,519

0,387

0,474

Взвешенное среднее по категории

0,58

0,58

0,58

0,125

0,728

0,726

0,492

0,685

Табл. 4.30 Результирующая таблица по третьей категории

НЕ нашли? Не то? Что вы ищете?

Анализ полученных результатов показывает, что алгоритм C4.5 лучше подходит для решения задачи классификации для данной категории, причем лучшие результаты достигаются, если все слова текста были приведены к нормальной форме и без использования отбора терминов по частям речи. Исключение составляет класс «объявление о конкурсе» для которого более хорошие результаты получены при представлении текста с помощью его слов без нормализации. Также исключение составляет класс «объявление результатов» для которого лучший результат показал наивный байесовский классификатор для случая, когда слова в тексте приводились к нормальной форме и использовались только существительные и прилагательные. 

Четвёртая категория

Без нормализации


C4.5

НБК

Класс

Precision

Recall

F-score

Precision

Recall

F-score

не указано

0,318

0,350

0,333

0,667

0,200

0,308

международный

0,638

0,732

0,682

0,521

0,927

0,667

российский

0,594

0,442

0,507

0,667

0,698

0,682

внутривузовский (СПбГУ)

0,813

0,867

0,839

1,000

0,533

0,696

городской & региональный

0,824

0,933

0,875

1,000

0,133

0,235

Взвешенное среднее по категории

0,616

0,619

0,613

0,697

0,612

0,573

Табл. 4.31 Масштаб конкурса. Без нормализации

Номера классов

1

2

3

4

5

1

7

9

4

0

0

2

3

30

8

0

0

3

11

8

19

2

3

4

1

0

1

13

0

5

0

0

0

1

14

Табл. 4.32 Масштаб конкурса. C4.5. Матрица неточностей

Номера классов

1

2

3

4

5

1

4

12

4

0

0

2

0

38

3

0

0

3

2

11

30

0

0

4

0

5

2

8

0

5

0

7

6

0

2

Табл. 4.33 Масштаб конкурса. НБК. Матрица неточностей

Проведена лемматизация, оставлены все слова


C4.5

НБК

Класс

Precision

Recall

F-score

Precision

Recall

F-score

не указано

0,333

0,450

0,383

0,667

0,200

0,308

международный

0,652

0,732

0,690

0,638

0,902

0,747

российский

0,704

0,442

0,543

0,567

0,791

0,660

внутривузовский (СПбГУ)

0,778

0,933

0,848

1,000

0,400

0,571

городской & региональный

0,813

0,867

0,839

1,000

0,267

0,421

Взвешенное среднее по категории

0,653

0,634

0,631

0,700

0,634

0,598

Табл. 4.34 Масштаб конкурса. Все леммы

Номера классов

1

2

3

4

5

1

9

5

5

1

0

2

8

30

3

0

0

3

10

10

19

2

2

4

0

0

0

14

1

5

0

1

0

1

13

Табл. 4.35 Масштаб конкурса. C4.5. Матрица неточностей

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10