Проведена лемматизация, оставлены существительные и прилагательные.


C4.5

НБК

Класс

Precision

Recall

F-score

Precision

Recall

F-score

другое

0,356

0,696

0,471

0,429

0,130

0,200

проекты & гранты

0,750

0,293

0,421

0,667

0,049

0,091

премии, стипендии & выполненные работы

0,750

0,568

0,646

0,938

0,405

0,566

научная мобильность

0,656

0,724

0,689

0,354

1,000

0,523

Стартапы & инновационные проекты

0,458

0,733

0,564

0,405

1,000

0,577

Взвешенное среднее по категории

0,639

0,559

0,555

0,608

0,441

0,366

Табл. 4.14 Тип конкурса. Сущ. & прил.


Номера классов

1

2

3

4

5

1

16

2

0

0

5

2

17

12

3

4

5

3

6

1

21

7

2

4

4

0

3

21

1

5

2

1

1

0

11

Табл. 4.15 Тип конкурса. C4.5. Матрица неточностей

Номера классов

1

2

3

4

5

1

3

1

0

13

6

2

4

2

1

21

13

3

0

0

15

19

3

4

0

0

0

29

0

5

0

0

0

0

15

Табл. 4.16 Тип конкурса. НБК. Матрица неточностей

Приведём результирующую таблицу значений F-score.


НБК

с 4.5

Класс

ненорм

все

с+п+г

с+п

ненорм

все

с+п+г

с+п

Другое

0,182

0,2

0,2

0,2

0,375

0,492

0,471

0,471

проекты & гранты

0,047

0,091

0,091

0,091

0,431

0,585

0,421

0,421

премии, стипендии & выполненные работы

0,383

0,51

0,51

0,566

0,688

0,697

0,625

0,646

научная мобильность

0,448

0,479

0,496

0,523

0,545

0,759

0,636

0,689

Стартапы & инновационные проекты

0,667

0,591

0,625

0,577

0,649

0,55

0,457

0,564

Взвешенное среднее по категории

0,298

0,345

0,351

0,366

0,533

0,63

0,528

0,555

Табл. 4.17 Результирующая таблица по второй категории

НЕ нашли? Не то? Что вы ищете?

Анализ полученных результатов показывает, что алгоритм C4.5 больше подходит для решения задачи классификации для данной категории, причем лучшие результаты достигаются, если все слова текста были приведены к нормальной форме и не использовался отбор терминов по частям речи. Исключение составляет класс «Стартапы & инновационные проекты» для которого лучшие результаты показал Наивный байесовский классификатор, причем для случая, когда слова в тексте не приводились к нормальной форме и не было отбора терминов по частям речи. 

Третья категория

Без нормализации


C4.5

НБК

Класс

Precision

Recall

F-score

Precision

Recall

F-score

объявление о конкурсе

0,870

0,847

0,858

0,703

1,000

0,825

объявление результатов

0,435

0,625

0,513

0,000

0,000

0,000

общая информация

0,444

0,250

0,320

0,000

0,000

0,000

информация для участников

0,389

0,467

0,424

0,000

0,000

0,000

Взвешенное среднее по категории

0,737

0,728

0,728

0,494

0,703

0,580

Табл. 4.18 Тип объявления. Без нормализации

Номера классов

1

2

3

4

1

94

8

4

5

2

6

10

0

0

3

3

3

4

6

4

5

2

1

7

Табл. 4.19 Тип объявления. C4.5. Матрица неточностей


Номера классов

1

2

3

4

1

111

0

0

0

2

16

0

0

0

3

16

0

0

0

4

15

0

0

0

Табл. 4.20 Тип объявления. НБК. Матрица неточностей

Проведена лемматизация, оставлены все слова


C4.5

НБК

Класс

Precision

Recall

F-score

Precision

Recall

F-score

объявление о конкурсе

0,832

0,847

0,839

0,703

1,000

0,825

объявление результатов

0,500

0,500

0,500

0,000

0,000

0,000

общая информация

0,353

0,375

0,364

0,000

0,000

0,000

информация для участников

0,583

0,467

0,519

0,000

0,000

0,000

Взвешенное среднее по категории

0,726

0,728

0,726

0,494

0,703

0,580

Табл. 4.21 Тип объявления. Все леммы


Номера классов

1

2

3

4

1

94

6

7

4

2

8

8

0

0

3

8

1

6

1

4

3

1

4

7

Табл. 4.22 Тип объявления. C4.5. Матрица неточностей

Номера классов

1

2

3

4

1

111

0

0

0

2

16

0

0

0

3

16

0

0

0

4

15

0

0

0

Табл. 4.23 Тип объявления. НБК. Матрица неточностей

Проведена лемматизация, оставлены существительные, прилагательные и глаголы.


C4.5

НБК

Класс

Precision

Recall

F-score

Precision

Recall

F-score

объявление о конкурсе

0,817

0,802

0,809

0,703

1,000

0,825

объявление результатов

0,429

0,563

0,486

0

0,000

0,000

общая информация

0,333

0,250

0,286

0

0,000

0,000

информация для участников

0,375

0,400

0,387

0

0,000

0,000

Взвешенное среднее по категории

0,489

0,503

0,492

0,494

0,703

0,580

Табл. 4.24 Тип объявления. Сущ. & прил. & глаголы.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10