DataManager = "BMICDM"
DownloadingThread = "DT0"
ParsingThread = "PT0"
ParsingThreadsCount = 2
RoutineThread = "RT0"
UrlAnalyzingThread = "EmptyUAT"
ResultUnloaders = "GephiSiteGraphRU, TestRU"
DownloadingThreadPDChunkSizeMultiplier = 5
ParsingThreadPDChunkSize = 20
DownloadingThreadSleepTime = 1
ParsingThreadSleepTime = 1
RoutineThreadSleepTime = 1000
CommonLogFile = "logs/common_log. csv"
ErrorLogFile = "logs/error_log. csv"
DisplayCommonLog = 1
DisplayErrorLog = 1
RobotsTxtClass = "OnlyDisallowRobotsTxt"
TimeoutSeconds = 240000
ResultFolder = "result"
SaveDuplicates = 1
StopFile = "stop. txt"
Приложение 2. Использованный файл hosts. txt.
http://www. apmath. spbu. ru/;2;-1;0
http://fvo. spbu. ru;2;-1;0
http://dent. spbu. ru;2;-1;0
http://gsom. spbu. ru;2;-1;0
http://chem. spbu. ru;2;-1;0
https://history. spbu. ru;2;-1;0
http://jf. spbu. ru;2;-1;0
http://www. psy. spbu. ru;2;-1;0
http://arts. spbu. ru;2;-1;2500
http://sir. spbu. ru;2;-1;0
http://politology. spbu. ru;2;-1;0
http://orient. spbu. ru;2;-1;0
http://phys. spbu. ru;2;-1;0
http://soc. spbu. ru;2;-1;0
http://philosophy. spbu. ru;2;-1;0
http://earth. spbu. ru;2;-1;0
http://math. spbu. ru;2;-1;1000
http://phil. spbu. ru;2;-1;0
http://econ. spbu. ru;2;-1;0
http://law. spbu. ru;2;-1;0
http://bio. spbu. ru;2;4;2500
http://artesliberales. spbu. ru;2;-1;1500
Приложение 3. Использованные настройки укладки графа. 
Приложение 4. Описание параметров settings. ini.
ApplicationManager
Описание: | Реализация ApplicationManager |
Тип значения: | Строка |
Диапазон значений: | TextFileAM |
Требуется: | Всегда |
Пример: | "TextFileAM" |
ApplicationFinishers
Описание: | Реализации ApplicationFinisher через запятую |
Тип значения: | Строка |
Диапазон значений: | Одно или несколько значений из множества {WorkIsDoneAF, TimeoutAF, StopFileAF} |
Требуется: | Всегда |
Пример: | "WorkIsDoneAF, TimeoutAF, StopFileAF" |
CommonLogFile
Описание: | Путь к файлу общего лога |
Тип значения: | Строка |
Диапазон значений: | Любой валидный относительный или абсолютный файловый путь в системе. Папки, входящий в путь, не создаются автоматически. |
Требуется: | Всегда |
Пример: | "logs/common_log. csv" |
DataManager
Описание: | Реализация DataManager |
Тип значения: | Строка |
Диапазон значений: | BMICDM |
Требуется: | Всегда |
Пример: | "BMICDM" |
DisplayCommonLog
Описание: | Выводить ли общий лог в консоль |
Тип значения: | Логическое |
Диапазон значений: | {0,1} или {false, true} |
Требуется: | Всегда |
Пример: | 1 |
DisplayErrorLog
Описание: | Выводить ли лог ошибок в консоль |
Тип значения: | Логическое |
Диапазон значений: | {0,1} или {false, true} |
Требуется: | Всегда |
Пример: | 1 |
DownloadingThread
Описание: | Реализация DownloadingThread |
Тип значения: | Строка |
Диапазон значений: | DT0 |
Требуется: | Всегда |
Пример: | DT0 |
DownloadingThreadPDChunkSizeMultiplier
Описание: | Максимальный размер набора PageData, запрашиваемых реализацией DownloadingThread у реализации DataManager для скачивания, по сайту вычисляется по формуле: DownloadingThreadPDChunkSizeMultiplier * Количество_одновременных_соединений_с_сайтом. Последнее число будет описано в следующем подразделе. |
Тип значения: | Целое число |
Диапазон значений: | [1,2147483647/max(Количество_одновременных_соединений_с_сайтом)] |
Требуется: | Всегда |
Пример: | 6 |
DownloadingThreadSleepTime
Описание: | Время сна потока DownloadingThread в миллисекундах |
Тип значения: | Целое число |
Диапазон значений: | [0, 2147483647] |
Требуется: | Всегда |
Пример: | 1 |
Комментарий: | Для снижения нагрузки на процессор поток DT0 спит каждую итерацию цикла заданное время. По результатам тестирования RCCrawler было выявлено, что значение в 1мс не влияет на скорость краулинга, но не позволяет загружать ядро процессора полностью. Для выявления основательных результатов требуется изучение работы RCCrawler при скорости соединения с сетью Интернет намного выше 100 МБит/c на загрузку и краулинга одновременно многих сайтов с целью загрузить канал. |
ErrorLogFile
Описание: | Путь к файлу лога ошибок |
Тип значения: | Строка |
Диапазон значений: | Любой валидный относительный или абсолютный файловый путь в системе. Папки, входящий в путь, не создаются автоматически. |
Требуется: | Всегда |
Пример: | "logs/error_log. csv" |
ParsingThread
Описание: | Реализация ParsingThread |
Тип значения: | Строка |
Диапазон значений: | PT0 |
Требуется: | Всегда |
Пример: | "PT0" |
ParsingThreadPDChunkSize
Описание: | Максимальное количество PageData, запрашиваемое реализацией ParsingThread у реализации DataManager |
Тип значения: | Целое число |
Диапазон значений: | [1, 2147483647] |
Требуется: | Всегда |
Пример: | 10 |
ParsingThreadsCount
Описание: | Количество реализаций ParsingThread, работающих в приложении |
Тип значения: | Целое число |
Диапазон значений: | [1, Количество_ядер_в_процессоре] |
Требуется: | Всегда |
Пример: | 3 |
ParsingThreadSleepTime
Описание: | Время сна реализации ParsingThread во время отсутствия работы в миллисекундах |
Тип значения: | Целое число |
Диапазон значений: | [0, 2147483647] |
Требуется: | Всегда |
Пример: | 1 |
ResultFolder
Описание: | Каталог выгрузки результата работы краулера |
Тип значения: | Строка |
Диапазон значений: | Любой валидный относительный или абсолютный путь к каталогу в системе. Папки, входящий в путь, не создаются автоматически. |
Требуется: | Всегда |
Пример: | "result" |
ResultUnloaders
Описание: | Реализации ResultUnloader через запятую |
Тип значения: | Строка |
Диапазон значений: | Одно или несколько из множества {TestRU, GephiSiteGraphRU} |
Требуется: | Всегда |
Пример: | "TestRU, GephiSiteGraphRU" |
RobotsTxtClass
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 |


