Вектора модулярности задаются в соответствующей табличной форме пакета, затем запускается процедура кластерного анализа с указанными настройками, после выполнения которой выдаются результаты классификации. Затем используется ряд опций, позволяющих проводить требуемый анализ результатов. Конкретные результаты по кластеризации веб-сайтов будут приведены в следующих главах.

Глава 3. Экспериментальная часть

3.1. Список исследуемых сайтов факультетов и институтов СПбГУ

Название факультета/института

URL сайта

Биологический факультет

http://bio. spbu. ru

Восточный факультет

http://orient. spbu. ru

Факультет искусств

http://arts. spbu. ru

Математико-механический факультет

http://math. spbu. ru

Факультет международных отношений

http://sir. spbu. ru

Факультет политологии

http://politology. spbu. ru

Факультет прикладной математики - процессов управления

http://apmath. spbu. ru

Факультет психологии

http://www. psy. spbu. ru

Факультет свободных искусств и наук

http://artesliberales. spbu. ru

Факультет социологии

http://soc. spbu. ru

Факультет стоматологии и медицинских технологий

http://dent. spbu. ru

Физический факультет

http://phys. spbu. ru

Филологический факультет

http://phil. spbu. ru

Экономический факультет

http://econ. spbu. ru

Юридический факультет

http://law. spbu. ru

Факультет Военного обучения

http://fvo. spbu. ru

Институт "Высшая школа менеджмента"

http://gsom. spbu. ru

Институт наук о Земле

http://earth. spbu. ru

Институт "Высшая школа журналистики и массовых коммуникаций"

http://jf. spbu. ru

Институт истории

https://history. spbu. ru

Институт философии

http://philosophy. spbu. ru

Институт химии

http://chem. spbu. ru


3.2. Ход исследования

С помощью RCCrawler были просканированы все сайты из списка в п. 3.1. Использованные файлы settings. ini и hosts. txt находятся в приложении.

НЕ нашли? Не то? Что вы ищете?

Все сайты были просканированы до конца, кроме сайта биологического факультета, для которого было применено ограничение по 4-й уровень включительно. Для каждого отсканированного сайта был получен файл, содержащий перечень страниц (соответствующих вершинам веб-графа) и перечень внутренних гиперссылок (соответствующих дугам веб-графа).

Для каждого отсканированного сайта по полученным файлам с использованием программного пакета Gephi был построен соответствующий  веб-граф, реализована их визуализация, сделан расчёт значения модулярности и построены все сообщества (модули), на которые разбивается веб-граф.

Визуализация полученных веб-графов произведена в укладке Yifan Hu [7]. Для наглядности вершина, соответствующая начальной странице сайта, имеет больший размер и отличный от других вершин цвет. Также, в некоторых случаях относительно небольшие вершины сильно отдаленные от основной части графа находятся за гранями изображения. Также, из-за размера изображений некоторые дуги могут стать незаметными. Но, стоит заметить, что изолированных вершин в графах нет. Параметры укладки и рендеринга описаны в приложении.

Далее был произведен кластерный анализ полученного множества векторов модулярности в пакете STATISTICA.

3.3. Сводные данные по результатам сканирования сайтов Биологический факультет

URL:

http://bio. spbu. ru

Количество вершин:

7259

Количество дуг:

238952

Мера модулярности:

0,344

Количество сообществ:

5

Вектор модулярности:

[2572,2286,1259,1063,79]

Рис. 2. Веб-граф сайта биологического факультета


Восточный факультет

URL:

http://orient. spbu. ru

Количество вершин:

1042

Количество дуг:

16054

Мера модулярности:

0,380

Количество сообществ:

5

Вектор модулярности:

[625,267,64,33,26]

Рис. 3. Веб-граф сайта восточного факультета



Факультет искусств

URL:

http://arts. spbu. ru

Количество вершин:

1146

Количество дуг:

26494

Мера модулярности:

0,129

Количество сообществ:

8

Вектор модулярности:

[501,453,72,54,35,22,15,12]

Рис. 3. Веб-граф сайта факультета искусств


Математико-механический факультет

URL:

http://math. spbu. ru

Количество вершин:

2816

Количество дуг:

51234

Мера модулярности:

0,449

Количество сообществ:

25

Вектор модулярности:

[793,447,447,328,248,166,62,62,57,45,45,21,21,17,11,10,8,6,4,4,3,3,2,2,2,2]

Рис. 4. Веб-граф сайта математико-механического факультета



Факультет международных отношений

URL:

http://sir. spbu. ru

Количество вершин:

14231

Количество дуг:

238952

Мера модулярности:

0,065

Количество сообществ:

49

Вектор модулярности:

[1784,1784,1696,1692,1689,1676,1675,209,132,126,66,58,55,50,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,43]

Рис. 5. Веб-граф сайта факультета международных отношений


Факультет политологии

URL:

http://politology. spbu. ru

Количество вершин:

996

Количество дуг:

38921

Мера модулярности:

0,009

Количество сообществ:

3

Вектор модулярности:

[482,452,62]

Рис. 6. Веб-граф сайта факультета политологии

Факультет прикладной математики - процессов управления

URL:

http://www. apmath. spbu. ru

Количество вершин:

4385

Количество дуг:

271261

Мера модулярности:

0,465

Количество сообществ:

37

Вектор модулярности:

[1690,792,687,223,102,95,79,72,66,46,41, 41,40,38,36,35,31,29,25,25,21,21,20,19,17,15,14,13,12,8,8,7,5,3,3,3,3]

Рис. 7. Веб-граф сайта факультета прикладной математики - процессов управления


Рис. 8. Веб-граф сайта факультета прикладной математики - процессов управления. Основная часть.

Факультет психологии

URL:

http://www. psy. spbu. ru

Количество вершин:

1025

Количество дуг:

31156

Мера модулярности:

0,199

Количество сообществ:

6

Вектор модулярности:

[553,323,44,38,36,31]

Рис. 9. Веб-граф сайта факультета психологии


Факультет свободных искусств и наук

URL:

http://artesliberales. spbu. ru

Количество вершин:

6232

Количество дуг:

468764

Мера модулярности:

0,394

Количество сообществ:

2

Вектор модулярности:

[4125,2107]

Рис. 10. Веб-граф сайта факультета свободных искусств и наук



Факультет социологии

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11