DataManager = "BMICDM"

DownloadingThread = "DT0"

ParsingThread = "PT0"

ParsingThreadsCount = 2

RoutineThread = "RT0"

UrlAnalyzingThread = "EmptyUAT"

ResultUnloaders = "GephiSiteGraphRU, TestRU"

DownloadingThreadPDChunkSizeMultiplier = 5

ParsingThreadPDChunkSize = 20

DownloadingThreadSleepTime = 1

ParsingThreadSleepTime = 1

RoutineThreadSleepTime = 1000

CommonLogFile = "logs/common_log. csv"

ErrorLogFile = "logs/error_log. csv"

DisplayCommonLog = 1

DisplayErrorLog = 1

RobotsTxtClass = "OnlyDisallowRobotsTxt"

TimeoutSeconds = 240000

ResultFolder = "result"

SaveDuplicates = 1

StopFile = "stop. txt"

Приложение 2. Использованный файл hosts. txt.

http://www. apmath. spbu. ru/;2;-1;0

http://fvo. spbu. ru;2;-1;0

http://dent. spbu. ru;2;-1;0

http://gsom. spbu. ru;2;-1;0

http://chem. spbu. ru;2;-1;0

https://history. spbu. ru;2;-1;0

http://jf. spbu. ru;2;-1;0

http://www. psy. spbu. ru;2;-1;0

http://arts. spbu. ru;2;-1;2500

http://sir. spbu. ru;2;-1;0

http://politology. spbu. ru;2;-1;0

http://orient. spbu. ru;2;-1;0

http://phys. spbu. ru;2;-1;0

http://soc. spbu. ru;2;-1;0

http://philosophy. spbu. ru;2;-1;0

http://earth. spbu. ru;2;-1;0

http://math. spbu. ru;2;-1;1000

http://phil. spbu. ru;2;-1;0

http://econ. spbu. ru;2;-1;0

http://law. spbu. ru;2;-1;0

http://bio. spbu. ru;2;4;2500

http://artesliberales. spbu. ru;2;-1;1500

Приложение 3. Использованные настройки укладки графа.

Приложение 4. Описание параметров settings. ini.

ApplicationManager

Описание:

Реализация ApplicationManager

Тип значения:

Строка

Диапазон значений:

TextFileAM

Требуется:

Всегда

Пример:

"TextFileAM"


ApplicationFinishers

НЕ нашли? Не то? Что вы ищете?

Описание:

Реализации ApplicationFinisher через запятую

Тип значения:

Строка

Диапазон значений:

Одно или несколько значений из множества {WorkIsDoneAF, TimeoutAF, StopFileAF}

Требуется:

Всегда

Пример:

"WorkIsDoneAF, TimeoutAF, StopFileAF"


CommonLogFile

Описание:

Путь к файлу общего лога

Тип значения:

Строка

Диапазон значений:

Любой валидный относительный или абсолютный файловый путь в системе. Папки, входящий в путь, не создаются автоматически.

Требуется:

Всегда

Пример:

"logs/common_log. csv"


DataManager

Описание:

Реализация DataManager

Тип значения:

Строка

Диапазон значений:

BMICDM

Требуется:

Всегда

Пример:

"BMICDM"


DisplayCommonLog

Описание:

Выводить ли общий лог в консоль

Тип значения:

Логическое

Диапазон значений:

{0,1} или {false, true}

Требуется:

Всегда

Пример:

1


DisplayErrorLog

Описание:

Выводить ли лог ошибок в консоль

Тип значения:

Логическое

Диапазон значений:

{0,1} или {false, true}

Требуется:

Всегда

Пример:

1


DownloadingThread

Описание:

Реализация DownloadingThread

Тип значения:

Строка

Диапазон значений:

DT0

Требуется:

Всегда

Пример:

DT0


DownloadingThreadPDChunkSizeMultiplier

Описание:

Максимальный размер набора PageData, запрашиваемых реализацией DownloadingThread у реализации DataManager для скачивания, по сайту вычисляется по формуле: DownloadingThreadPDChunkSizeMultiplier * Количество_одновременных_соединений_с_сайтом. Последнее число будет описано в следующем подразделе.

Тип значения:

Целое число

Диапазон значений:

[1,2147483647/max(Количество_одновременных_соединений_с_сайтом)]

Требуется:

Всегда

Пример:

6


DownloadingThreadSleepTime

Описание:

Время сна потока DownloadingThread в миллисекундах

Тип значения:

Целое число

Диапазон значений:

[0, 2147483647]

Требуется:

Всегда

Пример:

1

Комментарий:

Для снижения нагрузки на процессор поток DT0 спит каждую итерацию цикла заданное время. По результатам тестирования RCCrawler было выявлено, что значение в 1мс не влияет на скорость краулинга, но не позволяет загружать ядро процессора полностью. Для выявления основательных результатов требуется изучение работы RCCrawler при скорости соединения с сетью Интернет намного выше 100 МБит/c на загрузку и краулинга одновременно многих сайтов с целью загрузить канал.


ErrorLogFile

Описание:

Путь к файлу лога ошибок

Тип значения:

Строка

Диапазон значений:

Любой валидный относительный или абсолютный файловый путь в системе. Папки, входящий в путь, не создаются автоматически.

Требуется:

Всегда

Пример:

"logs/error_log. csv"


ParsingThread

Описание:

Реализация ParsingThread

Тип значения:

Строка

Диапазон значений:

PT0

Требуется:

Всегда

Пример:

"PT0"


ParsingThreadPDChunkSize

Описание:

Максимальное количество PageData, запрашиваемое реализацией ParsingThread у реализации DataManager

Тип значения:

Целое число

Диапазон значений:

[1, 2147483647]

Требуется:

Всегда

Пример:

10


ParsingThreadsCount

Описание:

Количество реализаций ParsingThread, работающих в приложении

Тип значения:

Целое число

Диапазон значений:

[1, Количество_ядер_в_процессоре]

Требуется:

Всегда

Пример:

3


ParsingThreadSleepTime

Описание:

Время сна реализации ParsingThread во время отсутствия работы в миллисекундах

Тип значения:

Целое число

Диапазон значений:

[0, 2147483647]

Требуется:

Всегда

Пример:

1


ResultFolder

Описание:

Каталог выгрузки результата работы краулера

Тип значения:

Строка

Диапазон значений:

Любой валидный относительный или абсолютный путь к каталогу в системе. Папки, входящий в путь, не создаются автоматически.

Требуется:

Всегда

Пример:

"result"


ResultUnloaders

Описание:

Реализации ResultUnloader через запятую

Тип значения:

Строка

Диапазон значений:

Одно или несколько из множества {TestRU, GephiSiteGraphRU}

Требуется:

Всегда

Пример:

"TestRU, GephiSiteGraphRU"


RobotsTxtClass

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11