ГОСУДАРСТВЕННЫЙ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И ТЕЛЕКОММУНИКАЦИЙ
На правах рукописи
СВЕЧНИКОВ СЕРГЕЙ ВЛАДИМИРОВИЧ
РАЗРАБОТКА МЕТОДОВ АВТОМАТИЧЕСКОГО ПОИСКА, АНАЛИЗА И КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ ДЛЯ ОЦЕНКИ ЭФФЕКТИВНОСТИ ФУНКЦИОНИРОВАНИЯ ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЕЙ
Специальность 05.13.13 – «Телекоммуникационные системы
и компьютерные сети»
ДИССЕРТАЦИЯ
на соискание ученой степени кандидата технических наук
Научный руководитель - кандидат технических наук доцент |
Москва - 2007
ОГЛАВЛЕНИЕ
СПИСОК УСЛОВНЫХ СОКРАЩЕНИЙ.. 4
ВВЕДЕНИЕ.. 5
ГЛАВА 1. АНАЛИТИЧЕСКИЙ ОБЗОР СОВРЕМЕННЫХ СИСТЕМ ТЕМАТИЧЕСКОЙ КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ.. 10
1.1 Общее описание систем тематической категоризации и требований к ним. 10
1.2 Обзор и классификация систем тематической категоризации. 11
1.3 Технологии, используемые в системах тематической категоризации. 11
1.4 Оценка эффективности современных систем тематической категоризации. 11
1.5 Недостатки существующих систем тематической категоризации. 11
1.6 Цель и постановка задачи исследования. 12
ГЛАВА 2. МЕТОДЫ АВТОМАТИЧЕСКОГО ПОИСКА, АНАЛИЗА И КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ.. 13
2.1 Анализ методов автоматического поиска и категоризации. 13
ГЛАВА 3. МОДИФИКАЦИЯ И АДАПТАЦИЯ МЕТОДОВ И АЛГОРИТМОВ АВТОМАТИЧЕСКОГО ПОИСКА, АНАЛИЗА И КАТЕГОРИЗАЦИИ.. 14
ГЛАВА 4. ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ МЕТОДОВ ДЛЯ РЕАЛИЗАЦИИ СИСТЕМЫ АВТОМАТИЧЕСКОГО ПОИСКА, АНАЛИЗА И КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ.. 15
4.1 Особенности архитектуры системы автоматического поиска, анализа и категоризации интернет-ресурсов. 15
4.1.N Системные требования для работы системы.. 15
4.1.N Принцип работы с подсистемой. 15
4.2 Подсистема «Ведение информационных ресурсов». 16
4.2.1 Общее описание функционирования подсистемы.. 16
4.2.2 Описание функций задач и связей между ними. 16
4.3 Подсистема «Каталогизация сайтов». 21
4.3.1 Общее описание функционирования подсистемы.. 21
4.3.2 Описание функций задач и связей между ними. 21
4.4 Подсистема «Контроль и настройка процедуры классификации». 26
4.4.1 Общее описание функционирования подсистемы.. 26
4.4.2 Описание функций задач и связей между ними. 27
4.5 Подсистема «Обход сайтов». 31
4.5.1 Общее описание функционирования подсистемы.. 31
4.5.2 Описание функций задач и связей между ними. 32
4.6 Подсистема «Обмен информацией с СКФ». 35
4.6.1 Общее описание функционирования подсистемы.. 35
4.6.2 Описание функций задач и связей между ними. 36
4.7 Подсистема «Поиск новых сайтов». 38
4.7.2 Описание функций задач и связей между ними. 38
4.8 Выводы по главе 4. 40
ЗАКЛЮЧЕНИЕ.. 41
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ... 42
ПРИЛОЖЕНИЯ.. 43
СПИСОК УСЛОВНЫХ СОКРАЩЕНИЙ
ВВЕДЕНИЕ
Во введении (3-6 страниц) автор может обосновать выбор темы исследования, отразить ее актуальность, показать научную новизну, теоретическую и практическую значимость работы.
Актуальность исследования
Актуальность исследования (одна страница) содержит положения и доводы, свидетельствующие в пользу научной и прикладной значимости выполненной работы. При написании этой части введения следует воспользоваться обоснованием актуальности темы диссертации в процессе выбора и утверждения темы, содержащимся в индивидуальном плане аспиранта. К тому же в процессе подготовки диссертации появляются дополнительные аргументы, - свидетельствующие об актуальности выполненного исследования. Отметим, что если на первой стадии выполнения работы следовало обосновать актуальность темы, то в завершающей фазе корректнее писать не только об актуальности темы диссертации, но и материалов проведенного исследования. Актуальность находится в самой тесной связи с решаемой в работе научной проблемой, от которой и надлежит отталкиваться. Вам надо убедительно показать, что до проведения диссертационного исследования в данной отрасли науки существовала брешь, которую надо было обязательно заполнить в интересах науки и практики. Приняв на себя эту нелегкую миссию и закрыв брешь, вы совершили значимое дело, что и предопределяет актуальность исследования, выполненного в диссертации.
За последние несколько лет активное развитие информационно-коммуникационных технологий привело к тому, что объем информационных ресурсов значительно вырос. Этот всевозрастающий объем информации, а также ее различные виды представлений (текстовая, графическая, аудио-, видеоинформация) приводят к проблемам, связанным с бесконтрольным доступом к сети интернет.
Российский сегмент сети – один из самых быстроразвивающихся, количество пользователей интернета по различным данным около 24 миллионов человек, из них 2 миллиона детей.
Обеспечение учебных заведений и публичных библиотек доступом к сети интернет увеличивает количество учащихся, пользующихся различными сервисами и информационными источниками, предоставляемыми глобальной сетью. Такой бесконтрольный доступ к сети интернет может привести к серьезным угрозам для детей и учащихся.
Также интернет бесконтрольно используется в личных целях работниками умственного труда, имеющими доступ к глобальной сети, что снижает эффективность их работы.
При этом методы прямого регулирования (цензуры) неэффективны, встречают протест пользователей интернета и юридически несостоятельны, поскольку противоречат естественным правам граждан на свободу воли, высказываний и волеизъявления.
В связи с этим решение этой проблемы надо искать не в цензуре, а в предоставлении инструмента защиты от нежелательного контента, который пользователи могут использовать по своей воле и по своему усмотрению [1].
Ряд авторитетных исследователей, таких как …. своими работами внесли значительный вклад в развитие информационно-поисковых систем.
Также существуют организации, занимающиеся исследованиями в этом направлении, это такие организации, как Яндекс, Рамблер, Апорт, Гарант Парк Интернет, Центр Анализа Интернет Ресурсов, … и другие.
Таким образом, актуальность темы диссертационной работы определяется необходимостью создания методов автоматического поиска, анализа и категоризации интернет-ресурсов, которые будут преодолевать указанные недостатки и упорядочивать информацию, представленную в сети интернет для управления доступом к ней.
Цели и задачи исследования
Цели и задачи исследования (до одной страницы) содержат формулировку главной цели, которая видится в решении основной проблемы диссертации, обеспечивающем внесение значимого вклада в теорию и практику. Конкретное описание сути решения проблемы и вносимого в результате вклада и представляет формулирование главной цели диссертации. В соответствии с основной целью следует выделить три-четыре целевые задачи в кандидатской диссертации и пять-семь задач в докторской, которые необходимо решить для достижения главной цели исследования. Это либо решение подпроблем, вытекающих из общей проблемы, либо задачи анализа, обобщения, выявления, обоснования, разработки, оценки отдельных аспектов общей проблемы, решение которых ведет к решению самой проблемы. Формулирование задачу исследования полезно еще и в том отношении, что каждая из крупных целевых задач способна формировать отдельную главу диссертации.
Целью настоящей диссертационной работы является разработка методов автоматического поиска, анализа и категоризации интернет-ресурсов для оценки эффективности использования информации находящейся в сети интернет.
Для реализации указанной цели необходимо решить следующие задачи:
· провести анализ существующих методов автоматического поиска и категоризации интернет-ресурсов с выделением их достоинств и недостатков;
· разработать математическую модель автоматического поиска;
· разработать алгоритмы (методы) автоматического поиска, анализа и категоризации интернет-ресурсов для поиска интернет-ресурсов на основе разработанной математической модели;
· провести апробацию эффективности программных средств, реализующих разработанные методы, оценить ресурсоемкость и быстродействие разработанных методов.
Объект исследования
Объект исследования представляет область научных изысканий, в пределах которой выявлена и существует исследуемая проблема. Это система закономерностей, связей, отношений, видов деятельности, в рамках которой зарождается проблема. Например, система ценообразования в экономике, отношения между государством и обществом в социологии, процессы преобразования энергии и технике, развитие творческой активности учащихся в педагогике, лечение определенных видов наследственных заболеваний в медицине и т. д.
Объектом исследования являются программные средства и методы автоматического поиска, анализа и категоризации интернет-ресурсов.
Методы исследования
Формулирование методологической и теоретической основы исследования (до одной страницы) обычно носит стандартный характер и сводится к утверждению, что такую основу составили научные труды отечественных и зарубежных авторов в области тех отраслей и направлений науки, к которым относится тема диссертации. Так, например, в экономических исследованиях принято упоминать в качестве основы политическую экономию, экономическую теорию, макро - и микроэкономику, управление экономикой, финансы и кредит, государственное регулирование, региональную экономику, экономическую статистику, программно-целевое планирование и управление и т. д.
Здесь же целесообразно выделить отдельной строкой использованные в диссертации методы исследования, такие, как методы системного анализа и исследования операций, математические, статистические методы, метод сравнений и аналогий, метод обобщений, метод натурного моделирования, метод экспертных оценок и др.
При проведении исследований в работе использовались элементы теории информационных систем, теория графов, …
Научная новизна исследования
Следующий подраздел введения под названием «Научная новизна исследования» (одна-две страницы) играет особо важную роль, вследствие чего к нему надо отнестись с повышенным вниманием. В традиции российских ученых, членов научных, диссертационных советов, рассматривающих и принимающих к защите диссертации на соискание ученых степеней, входит незыблемое правило «щипать», «клевать» диссертантов именно по поводу недостаточно явно видимой научной новизны. Отсюда со всей очевидностью следует, что научной новизне во введении к диссертации (и составленном на его основе автореферате диссертации) надлежит стать ярко видимой. Научная новизна работы должна быть не только продекларирована, но и подтверждена.
Ученые любят шутить по поводу того, что новое есть хорошо забытое старое. В действительности же в любом старом присутствуют ростки нового, надо только их отыскать и взрастить. Задача диссертанта состоит в том, чтобы на основании изучения состояния проблемы выявить несколько размытую исходную границу между знанием и незнанием о предмете исследования. Все что удалось диссертанту в части продвижения этой границы в область незнания, есть свидетельство новизны работы. В этом смысле о научной новизне свидетельствуют не только тезисы введения, к которым правомерно приписывать сильное слово «впервые», но и те элементы научной новизны, что представляют личный вклад автора в решение проблемы. Заметим также, что требование научной новизны носит гораздо более жесткий характер по отношению к докторским диссертациям, чем к кандидатским.
К числу признаков, позволяющих утверждать о научной новизне диссертации, относятся:
а) постановка новой научной проблемы;
б) введение новых научных категорий и понятий, развивающих представление о данной отрасли знаний;
в) раскрытие новых закономерностей протекания естественных и общественных процессов; г) применение новых методов, инструментов, аппарата исследования;
д) разработка и научное обоснование предложений об обновлении объектов, процессов и технологий, используемых в экономике и управлении;
е) развитие научных представлении об окружающем мире, природе, обществе.
Явные признаки научной новизны и ее конкретные элементы должны быть присущи только части диссертационной работы. Но эта часть должна быть заметной, существенной, особенно в докторской диссертации.
Приходится отмечать, что объективное суждение о степени научной новизны диссертации способны формировать только квалифицированные, беспристрастные эксперты на основе достаточно глубокого ознакомления с материалами диссертации.
Практическая значимость работы
В подразделе «Практическая значимость исследования» (полстраницы) принято перечислять в каких областях прикладной деятельности, какими органами и организациями, в какой форме используются и могут быть использованы результаты выполненного исследования и рекомендации, высказанные в работе.
Апробация результатов исследования
Подраздел «Апробация результатов исследования» (полстраницы) содержит сведения о практической проверке основных положений и результатов диссертационной работы, а также областях научной, прикладной, учебной деятельности, в которых результаты исследования нашли применение. В этом же подразделе указывается, где и когда докладывались результаты исследований и были опубликованы
Результаты работы докладывались и обсуждались на научно-практических конференциях:
Иногда в завершение введения приводится перечень базисных положений, выносимых на защиту, объемом примерно в полстраницы и краткое описание структуры диссертационной работы, обосновывающее логику ее построения (примерно страница текста).
Публикации
Основное содержание диссертационной работы было отражено автором в 02 печатных работах.
Структура работы
Диссертация состоит из введения, четырех глав и заключения, списка литературы из 00 наименований и приложений. Работа изложена на 000 страницах, содержит 00 рисунков и 00 таблиц.
Первая глава диссертационной работы посвящена …
Во второй главе рассматриваются …
Третья глава посвящена …
В четвертой главе рассматривается …
В заключении приводятся основные результаты диссертационной работы.
ГЛАВА 1. АНАЛИТИЧЕСКИЙ ОБЗОР СОВРЕМЕННЫХ СИСТЕМ ТЕМАТИЧЕСКОЙ КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ
Глава 1 (20-40 станиц, должна называться в соответствии с ее содержанием, например: «Современное состояние проблемы изменения умственной работоспособности под влиянием различных фармакологических средств») представляет собой обзор и анализ литературных источников по теме исследования.
Целесообразно рассмотреть, в каком состоянии на современный момент находится избранное научное направление, что уже сделано другими авторами, что в этом вопросе еще неясно и поэтому требует дальнейшего исследования. Если Ваша диссертация затрагивает несколько крупных проблем, то глава может иметь параграфы (они нумеруются 1и т. д.).
Логичным заключением главы 1 будет формулировка цели, задач исследования, рабочей гипотезы (что предполагалось получить в результате исследования) и основных положений, выносимых на защиту. В диссертациях, защищаемых по педагогическим специальностям, обычно приводят также объект и предмет исследования. Объектом исследования является контингент испытуемых (группы людей, животных и д. т. (В постоянно приводимом здесь примере объектом являются крысы линии «Вистар»), а предметом - то, что Вы исследуете у данного контингента (психологические, физиологические или иные параметры. (В нашем примере это - умственная работоспособность). Заключение главы 1 - это та часть Вашей диссертации, которая может претерпевать значительные изменения по мере работы над темой. Окончательно цель, задачи и т. д. будут сформулированы на завершающем этапе написания диссертации и автореферата.
1. Литературные источники по теме исследования.
2. Состояние научного направления в настоящий момент автоматического поиска, анализа и категоризации Интернет-ресурсов:
- что уже сделано в этом направлении;
- что в этом вопросе еще не ясно и требует дальнейшего исследования;
3. Цели, задачи исследования, что предполагается получить в результате исследования.
В первой главе настоящей диссертационной работы представлен обзор и классификация современных систем тематической категоризации, применяемых для осуществления автоматического поиска, анализа и категоризации интернет-ресурсов, выполнен обзор принципов осуществления поиска.
1.1 Общее описание систем тематической категоризации и требований к ним
В настоящее время необходимость в системах для контроля доступа к интернет-ресурсам не вызывает сомнений. Организации несут значительные расходы не связанные с рабочим процессом, это происходит из-за того, что недобросовестные сотрудники используют интернет в личных целях. Основные расходы связаны с неэффективным использованием рабочего времени и затратами на оплату доступа в интернет.
Применение систем для анализа и категоризации интернет-ресурсов позволяют значительно сократить расходы, связанные с неэффективным использованием рабочего времени за счет уменьшения нецелевого использования интернета и уменьшения веб-трафика.
Общая задача систем тематической категоризации интернет-ресурсов – управление доступом пользователей к интернет.
В целях повышения гибкости и удобства процесса ограничения доступа к интернет, такие системы поддерживают тематическую категоризацию интернет-ресурсов.
1.2 Обзор и классификация систем тематической категоризации
1.3 Технологии, используемые в системах тематической категоризации
1.4 Оценка эффективности современных систем тематической категоризации
1.5 Недостатки существующих систем тематической категоризации
1.6 Цель и постановка задачи исследования
ГЛАВА 2. МЕТОДЫ АВТОМАТИЧЕСКОГО ПОИСКА, АНАЛИЗА И КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ
Глава 2 (8-12 страниц, может называться «Методы исследования») обычно содержит описание методик исследования и контингента испытуемых. Достаточно подробно следует изложить организацию эксперимента, описать методики, используемую аппаратуру, дать подробные сведения об испытуемых. Прочитав эту главу, не должно возникать вопросов о том, как Вы получили те или иные данные. Любой прочитавший ее должен понять, как провести аналогичное исследование (например, с целью проверки Ваших результатов). Главу 2 можно разбить на параграфы, отдельно описав испытуемых и каждую методику (если она объемна), либо сгруппировать получаемые показатели по определенным признакам (и назвать параграфы, например: 2.1. Показатели центральной нервной системы. 2.2. Показатели иммунитета. и т. п.).
2.1 Анализ методов автоматического поиска и категоризации
2.2
ГЛАВА 3. МОДИФИКАЦИЯ И АДАПТАЦИЯ МЕТОДОВ И АЛГОРИТМОВ АВТОМАТИЧЕСКОГО ПОИСКА, АНАЛИЗА И КАТЕГОРИЗАЦИИ
Глава 3 (60-90 страниц, может называться «Результаты исследования») обычно являет собой изложение собственных результатов исследования. В ней часто размещают таблицы с полученными данными (не первоначальными, а уже обработанными), рисунки, обобщающие или иллюстрирующие результаты, пояснения автора по поводу тех или иных полученных данных. Обычно, эта глава разбивается на параграфы, в соответствии с логикой изложения материала. Иногда (чаще в докторских диссертациях), если исследование слишком объемное и выполнено по нескольким направлениям, изложение собственных результатов занимает 2 главы (главу 3 и главу 4). В этом случае диссертация имеет на одну главу больше, а результаты обсуждаются в главе 5.
ГЛАВА 4. ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ МЕТОДОВ ДЛЯ РЕАЛИЗАЦИИ СИСТЕМЫ АВТОМАТИЧЕСКОГО ПОИСКА, АНАЛИЗА И КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ
В главе 4 (20-30 страниц, может называться «Обсуждение результатов») обычно приводится обсуждение полученных результатов. Оно преследует две задачи. Во первых, необходимо сопоставить полученные Вами данные с результатами исследований других авторов, а во-вторых, предварительно изучив современные научные концепции, определить - с позиции какой из них можно объяснить Ваши данные (либо в какую из них «вписываются» Ваши результаты). Если Вы провели объемное исследование с использованием серьезных современных методик, а Ваши результаты не вписываются ни в одну из известных теорий или противоречат им, и если при этом Вы убеждены, что полученным данным можно верить, то Ваша диссертация «тянет» на докторскую. Отличие докторской диссертации от кандидатской в том, что первая должна представлять собой крупное научное открытие или открывать новое научное направление.
4.1 Особенности архитектуры системы автоматического поиска, анализа и категоризации интернет-ресурсов
4.1.N Системные требования для работы системы
Требования взять из описания к подсистемам
4.1.N Принцип работы с подсистемой
Структура программы представлена на схеме (Рисунок 1).

Рисунок 1 – Принцип работы.
Интерфейс оператора реализован в виде набора сохраненных процедур по технологии PSP. Для отображения информации используются непосредственно данных, хранящиеся в таблицах БД. Внесение изменений в данные производится через вызов процедур из специализированных пакетов.
4.2 Подсистема «Ведение информационных ресурсов»
4.2.1 Общее описание функционирования подсистемы
Подсистема «Ведение информационных ресурсов» используется для ведения информации о категориях, сайтах и журнале аудита.
Подсистема обеспечивает выполнение следующих функций.
· Ведение классификатора;
· Ведение информации о сайтах;
· Ведение журнала аудита;
· Поиск сайтов и страниц.
4.2.2 Описание функций задач и связей между ними.
Описание задачи «Ведение классификатора»
Данная задача обеспечивает набор операций по управлению перечнем категорий и сбор статистики по каждой категории. Интерфейс задачи состоит из страницы списка, содержащего перечень категорий и количества отнесенных к ним сайтов, а также из экранной формы создания/редактирования категории. Данная задача взаимодействует со следующими задачами:
· «Ведение журнала аудита» - для отслеживания изменений в системе;
· «Формирование списков изменений» - формирование изменений категорий.
Для реализации задачи «Ведение классификатора», необходимо обеспечить выполнение следующих функций:
· Отображение списка категорий;
· Создание/изменение категорий;
· Удаление категорий.
Отображение списка категорий производится процедурой SHOW_RUBRIC_LIST. Данная процедура выдает в требуемом виде данные из таблицы TBLRUBRICATOR.
Создание/изменение категорий производится в два этапа. Сначала отображается форма с текущими данными категории (или пустыми полями для новой категории). Отображение производится функцией SHOW_RUBRIC_EDIT. После этого происходит обработка введенных данных. Обработка данных производится функцией RBR_SUBMIT пакета pkgRubricator. Функция RBR_SUBMIT:
· Проверяет введенные данные на корректность;
· Формирует XML- документ, отражающий сделанные изменения;
· Сохраняет новую информацию в таблицу TBLRUBRICATOR;
· Сохраняет XML с изменениями и другие параметры в журнале аудита, используя процедуру pr_Audit.;
· В случае создания новой категории или изменения названия существующей сохраняет запись в таблице списка изменений категорий tblRBROUTQUEUE с соответствующим признаком операции.
Удаление категорий производится из формы категории, отображаемой функцией SHOW_RUBRIC_EDIT. Обработка данных также производится с функцией RBR_SUBMIT пакета pkgRubricator. В этом случае в качестве параметра p_action приходит значение “Delete”. В этом случае функция:
· Устанавливает для записи в таблице TBLRUBRICATOR признак, что запись удалена;
· Вызывает pr_audit для сохранения информации в журнале аудита;
· Создает запись в списке изменений категорий TBLRBROUTQUEUE с признаком удаления.
Описание задачи «Ведение информации о сайтах»
Задача обеспечивает ведение атрибутивной информации о сайте, необходимую для осуществления целевых для системы процессов, в том числе: принадлежность сайта категориям, редакторская аннотация. Интерфейс задачи состоит из страницы списка сайтов, экранной формы фильтра, позволяющего задать ограничения на выводимый список сайтов, а также экранной формы, позволяющей просматривать и изменять вышеперечисленные параметры сайта. Данная задача взаимодействует со следующими задачами:
· «Ведение журнала аудита» - для отслеживания изменений в системе;
· «Формирование списков изменений» - формирование изменений сайтов.
Для реализации задачи «Ведение информации о сайтах» необходимо обеспечить выполнение следующих функций:
· Поиск сайта;
· Создание/изменение/удаление сайта.
Форма поиска сайтов формируется процедурой SHOW_SITE_SEARCH. Далее на основании введенных ограничений функция SHOW_SITE_LIST осуществляет поиск сайтов и отображение списка сайтов.
Создание/изменение/удаление сайта реализовано аналогично категориям. Сначала необходимо войти в карточку сайта. Карточка сайта формируется процедурой SHOW_SITE_EDIT. Далее для обработки введенных или измененных данных вызывается функция SITE_SUBMIT пакета pkgSite. Тип операции (создание/изменение/удаление) формируется на уровне HTML и передается как значение параметра p_action.
Общий алгоритм работы следующий:
· Проверить введенные данные на корректность;
· Сформировать XML- документ, отражающий сделанные изменения;
· Сохраняет информацию в таблицу TBLRUBRICATOR:
o При создании создается новая запись
o При изменении обновляются поля существующей записи
o При удалении устанавливается признак «Запись удалена»
· Сохраняет XML с изменениями и другие параметры в журнале аудита, используя процедуру pr_Audit;
· В случае создания нового сайта, изменения категорий существующего или удаления сайта сохраняет запись в таблице списка изменений категорий tblSITEOUTQUEUE с соответствующим признаком операции.
Описание задачи «Ведение журнала аудита»
Задача обеспечивает сохранение записей обо всех действиях, изменяющих информационное состояние системы. Перечень журналируемых действий задается в таблице системных настроек. Интерфейс задачи состоит из страницы списка записей действий, с возможностью сортировки по различным атрибутам записей, и формы фильтра для ввода критериев отбора записей для просмотра. Данная задача взаимодействует со следующими задачами:
· «Ведение классификатора»;
· «Ведение информации о сайтах».
Для задачи «Ведение журнала аудита» используются:
· Процедура pr_audit, выполняющая запись данных в таблицу TBLAUDIT. Данная процедура вызывается при соответствующих операциях;
· Набора процедур для просмотра данных журнала. Эти процедуры не выполняют модификаций в системе, только отображают данные из таблиц:
o SHOW_AUDIT_SEARCH – отображение формы поиска;
o SHOW_AUDIT_LIST – осуществление поиска по ограничениям и отображение списка событий;
o SHOW_AUDIT_LOG – отображение XML-журнала со списком изменений в данном событии.
Описание задачи «Поиск сайтов и страниц»
Задача обеспечивает осуществление атрибутивного и полнотекстового поиска сайтов и страниц, имеющихся в системе, а также построение и обновление необходимых поисковых индексов. Интерфейс задачи состоит из поисковой формы, позволяющей задать соответствующие атрибуты для поиска сайтов и страниц, списка результатов поиска, с возможностью сортировки по различным атрибутам записей, и возможностью уточнить условия поиска для ввода критериев отбора записей для просмотра. Данная задача взаимодействует со следующими задачами:
· «Ведение классификатора»;
· «Ведение информации о сайтах».
Для реализации задачи поиска сайтов и страниц необходимо обеспечить наполнение БД информацией о страницах и сайтах. Условия поиск задаются через специальную поисковую форму, в которой можно задать соответствующие атрибуты. Поисковая форма поиска сайтов генерируется процедурой SHOW_SITE_SEARCH, поиска страниц соответственно SHOW_PAGE_SEARCH. После заполнения поисковой формы данные передаются в процедуру, которая осуществляет поиск: SHOW_SITE_LIST для поиска сайтов и SHOW_PAGE_LIST для поиска страниц, которая генерирует список сайтов или страниц, удовлетворяющих введенным критериям.
Список результатов поиска отображается постранично с возможностью уточнить условия поиска или отсортировать по определенным критериям:
· Хост;
· Рейтинг;
· Статус;
· Создан;
· Утвержден;
· Изменен;
· Дата загрузки;
· URL.
4.3 Подсистема «Каталогизация сайтов»
4.3.1 Общее описание функционирования подсистемы
Подсистема «Каталогизация сайтов» используется для анализа страниц и категоризации сайтов.
Подсистема обеспечивает выполнение следующих функций:
· загрузку и регистрацию страниц сайтов в БД СТК;
· очистку страницы:
o автоматическое определение кодовой страницы документа;
o преобразование кодовой страницы документа в кодовую страницу windows-1251 для русскоязычных текстов;
o удаление скриптов;
o подсчет контрольной суммы документа;
· анализ контента страницы: выделение ключевых терминов, слов и словосочетаний, определяющих тематический портрет страницы;
· автоматическое построение профилей категорий на основе результатов анализа страниц;
· классификацию страниц: соотнесение контента страницы с профилями целевых категорий;
· классификацию сайта: соотнесение контента сайта по результатам классификации страниц с наборами правил для целевых категорий.
4.3.2 Описание функций задач и связей между ними
Описание задачи «Загрузка и регистрация страниц сайтов в БД СТК»
Данная задача обеспечивает набор операций по сохранению информации о страницах сайтов в БД СТК.
Входной информацией для данной задачи являются страницы сайтов в формате html, загруженные из удаленных ресурсов подсистемой «Обход сайтов». Выходной информацией задачи являются записи в БД СТК о страницах сайтов.
Данная задача взаимодействует со следующими подсистемами и задачами:
· «Ведение информационных ресурсов»;
· «Обход сайтов».
Задача определяет необходимость первичного обхода сайтов, расширенного обхода сайтов, проверки уже загруженных страниц сайтов и помещает соответствующие задания в очередь на обработку для подсистемы «Обход сайтов». Перечисленные действия реализованы в виде процедур пакета PKG_CRAWLER_TASKS.
После загрузки страниц на сервер задача осуществляет их сохранение в БД СТК посредством функции SAVEPAGE пакета CRAWLER_PKG.
Задача запускается периодически посредством механизма JOB СУБД Oracle. Данные о своем состоянии между запусками задача хранит в таблице TBLJOBDATA.
Описание задачи «Очистка страницы»
Данная задача обеспечивает следующие виды обработки страниц сайтов, зарегистрированных в БД СТК:
· автоматическое определение кодовой страницы документа;
· преобразование кодовой страницы документа в кодовую страницу windows-1251 для русскоязычных текстов;
· удаление скриптов;
· подсчет контрольной суммы документа.
Входной информацией для задачи являются страницы сайтов в формате html, хранимые в БД СТК. Выходной информацией является текстовое содержимое страниц и их контрольная сумма.
Очищенное текстовое содержимое страницы передается другим задачам в качестве входных данных. Контрольная сумма страницы сохраняется в БД СТК для отслеживания последующих изменений текстового содержимого страницы.
Данная задача взаимодействует со следующими подсистемами и задачами:
· «Ведение информационных ресурсов»;
· «Контроль и настройка процедуры классификации».
Для реализации функции получения очищенного текстового содержимого страницы используется функция СУБД Oracle ctx_doc. filter, которая выполняет все необходимые требования по очистке текстового содержимого страницы.
Для подсчета контрольной суммы страницы реализована функция GET_CRC пакета CRAWLER_PKG.
Обращения к данной задаче происходят из других задач по мере необходимости.
Описание задачи «Анализ контента страницы»
Задача обеспечивает для каждой страницы, сохраненной в БД СТК и включенной в обучающее множество какого-либо из тематических профилей, выделение ключевых терминов, слов и словосочетаний, определяющих тематический портрет страницы.
Входной информацией для задачи очищенное текстовое содержимое страницы. Выходной информацией является перечень терминов, который сохраняется в БД СТК.
Данная задача взаимодействует со следующими задачами:
· «Автоматическое построение профилей категорий на основе результатов анализа страниц»;
· «Контроль и настройка процедуры классификации».
Задача использует для выполнения своих функций программное обеспечение RCO for Oracle. Для этих целей создан тематический индекс на таблице TBL_RCO_TEXT_LEARN, поддерживаемый программой RCO for Oracle. Тематический индекс синхронизируется посредством вызова процедуры PRC_SYNC_TRAINSET_INDEX пакета PKG_RCO_CLASSIFIER_CORE.
Обращения к данной задачи осуществляются задачей «Автоматическое построение профилей категорий на основе результатов анализа страниц» по мере необходимости.
Описание задачи «Автоматическое построение профилей категорий на основе результатов анализа страниц»
Задача обеспечивает возможность автоматического построения профилей категорий на основе результатов анализа страниц.
Входной информацией задачи являются обучающее множество страниц, состоящее из положительных и отрицательных примеров, а также список ключевых терминов, выделенных при анализе страниц обучающего множества. Выходные данные состоят из перечня терминов, отобранных для профиля, весовых коэффициентов терминов и порогового значения. Выходные данные охраняются в БД СТК для последующего использования другими подсистемами и задачами.
Данная задача взаимодействует со следующими задачами:
· «Анализ контента страницы»;
· «Контроль и настройка процедуры классификации»;
· «Классификация страниц».
Задача реализована посредством процедуры PRC_LEARN_PROFILE пакета PKG_RCO_CLASSIFIER_CORE. Результирующие данные складируются в таблицах TBL_RCO_PROFILE, TBL_RCO_TERMS_TEST и TBL_RCO_TERM_WORK.
Данная задача вызывается пользователем через подсистему «Контроль и настройка процедуры классификации». Задача всегда выполняется в фоновом режиме.
Описание задачи «Классификация страниц»
Задача обеспечивает возможность соотнесение контента страницы с профилями целевых категорий.
Входной информацией задачи являются очищенное содержимое страниц сайтов и профили целевых категорий. Выходной информацией является перечень категорий, которым относится страница. Перечень категорий сохраняется в БД СТК для использования в задаче «Классификация сайтов».
Данная задача взаимодействует со следующими задачами:
· «Очистка страницы»;
· «Автоматическое построение профилей категорий на основе результатов анализа страниц»;
· «Классификация сайтов».
Задача реализована посредством функции FNC_CLASSIFY пакета PKG_RCO_CLASSIFIER_CORE и функций пакета PKG_PAGE_TASKS. Задача определяет перечень страниц, у которых изменился контент, и помещает их в очередь на категоризацию. Задача также обрабатывает упомянутую выше очередь. Результирующие данные складируются в таблицах TBLPROFILE_SITECONTENT и TBLRBR_SITECONTENT.
Задача запускается периодически посредством механизма JOB СУБД Oracle. Данные о своем состоянии между запусками задача хранит в таблице TBLJOBDATA.
Описание задачи «Классификацию сайтов»
Задача обеспечивает возможность автоматического построения профилей категорий на основе результатов анализа и классификации страниц.
Входной информацией для задачи является перечень категорий, к которым были отнесены страницы сайтов с указанием количества страниц, отнесенных к каждой из категорий, а также данные о минимальном количестве страниц, необходимом для отнесения сайта к каждой из категорий. Выходной информацией является перечень категорий, к которым отнесен сайт. Указанная информация сохраняется в БД СТК.
Данная задача взаимодействует со следующими задачами:
· «Классификация страниц»;
· «Ведение информации о сайтах».
Задача реализована посредством функций пакета PKG_SITE_TASKS. Задача определяет сайты, у которых изменились категории страниц, и помещает их в очередь. Задача также обрабатывает упомянутую выше очередь. Результирующие данные складируются в таблицах TBLRBR_SITE.
Задача запускается периодически посредством механизма JOB СУБД Oracle. Данные о своем состоянии между запусками задача хранит в таблице TBLJOBDATA.
4.4 Подсистема «Контроль и настройка процедуры классификации»
4.4.1 Общее описание функционирования подсистемы
Подсистема «Контроль и настройка процедуры классификации» используется для:
· экспертного контроля новых поступлений в классификатор;
· экспертной коррекции результатов работы процедуры автоматической категоризации сайтов;
· экспертной коррекции параметров процедуры автоматической категоризации сайтов.
Подсистема обеспечивает выполнение следующих функций:
· мониторинг новых поступлений в классификаторы путем просмотра последних поступлений в заданную категорию и коррекции категорий, к которым был отнесен сайт;
· настройку лексического состава профиля категории, а именно:
o просмотр и коррекция перечня терминов, описывающих заданную категорию;
o возможность просмотра, задания вручную и автоматического пересчета весов терминов;
o удаление и загрузку терминов;
· проверку результатов классификации сайта, а именно:
o просмотр для каждой страницы сайта, сохраненной в БД СТК;
o просмотр перечня категорий, к которым была отнесена страница;
o просмотр перечня терминов профиля рубрики, благодаря которым страница была отнесена к заданным категориям;
· настройка порога отнесения страницы к категории:
o задание порога вручную;
o задание порога автоматически, путем минимизации ошибки на уже классифицированных данных;
· возможность автоматической настройки процедуры категоризации сайтов на основе предоставленных пользователем примеров.
4.4.2 Описание функций задач и связей между ними
Описание задачи «Мониторинг новых поступлений в классификаторы»
Данная задача обеспечивает набор операций по отслеживанию новых поступлений сайтов в классификаторы. Интерфейс задачи состоит из страницы списка, содержащего перечень категорий и количество отнесенных к ним сайтов, а также из списка сайтов, отнесенных к данной категории, отсортированного по дате поступления сайтов. Данная задача взаимодействует со следующими подсистемами и задачами:
· «Ведение информационных ресурсов»;
· «Каталогизация сайтов».
Для реализации задачи «Мониторинг новых поступлений в классификаторы», необходимо обеспечить выполнение следующих функций:
· Отображение списка категорий;
· Просмотр списка сайтов, отнесенных к выбранной категории;
· Изменение результатов автоматической классификации при необходимости, либо создание положительной экспертной оценки.
Отображение списка категорий производится процедурой SHOW_RUBRIC_LIST. Данная процедура выдает в требуемом виде данные из таблицы TBLRUBRICATOR. Существует возможность с помощью перехода по ссылке открыть список сайтов, отнесенных к данной категории. Этот список формируется с помощью передачи параметра P_RBR_ID в процедуру SHOW_SITE_LIST.
Процедура SHOW_SITE_LIST формирует список сайтов стандартного вида, элементами которого являются записи о сайтах в БД. Перейдя на свойства элемента можно изменить список категорий, к которым отнесен сайт и выставить экспертную оценку.
Описание задачи «Настройка лексического состава профиля категории»
Задача обеспечивает ведение списка терминов, составляющих лексический состав профиля категории, управление атрибутами терминов и их весовыми коэффициентами. Интерфейс задачи состоит из страницы списка профилей, экранной формы фильтра, позволяющего задать ограничения на выводимый список профилей, а также экранной формы, позволяющей просматривать и изменять параметры профиля, в т. ч. список и весовые коэффициенты. Данная задача взаимодействует со следующими подсистемами и задачами:
· «Ведение информационных ресурсов»;
· «Каталогизация сайтов».
Для реализации задачи «Настройка лексического состава профиля категории» необходимо обеспечить выполнение следующих функций:
· просмотр и коррекция перечня терминов, описывающих заданную категорию;
· возможность просмотра, задания вручную и автоматического пересчета весов терминов;
· удаление и загрузку терминов.
Просмотр и коррекция перечня терминов осуществляется через форму просмотра и изменения свойств профиля. В ней имеется раздел со списком терминов, где также можно менять параметры выбранного термина. Список терминов генерируется процедурой SHOW_TERM_LIST. Форма просмотра и изменения свойств профиля – процедурой SHOW_TERM_EDIT.
Загрузка списка терминов из файла осуществляется через форму, генерируемую процедурой SHOW_TERM_LIST.
Для хранения терминов используются 2 таблицы с соответствующими им индексами (ctx_rule). Первая – тестовая – используется для текущей настройки профиля и проведению тестовой классификации подборок. Вторая – рабочая таблица (сокращенная по столбцам) используется для проведения классификации в штатном режиме. Синхронизация между ними осуществляется редактором профиля после того, как он внес все необходимые изменения и настройки в профиль, с помощью кнопки «Опубликовать». Она доступна только, если профиль имеет состояние «Готов».
При изменении веса любого термина или порога профиля для того, чтобы эти изменения вступили в силу необходимо провести публикацию – это онлайн задача.
При изменении самого термина необходимо заново проводить обучение и пересчитывать все веса, и также производить синхронизацию. Обучения на примерах осуществляется через диалог «Синхронизация».
Описание задачи «Проверка результатов классификации сайта»
Задача обеспечивает для каждой страницы, сохраненной в БД СТК, просмотр категорий, к которым она была отнесена, просмотр перечня терминов профиля рубрики, благодаря которым страница была отнесена к заданным категориям. Интерфейс задачи состоит из страницы просмотра свойств и статистики страницы. Данная задача взаимодействует со следующими задачами:
· «Ведение классификатора»;
· «Ведение информации о сайтах».
Просмотр результатов классификации сайта осуществляется через форму просмотра и редактирования свойств сайта. Там же имеется возможность изменить категории, к которым был отнесен сайт.
Для детального анализа поведения процедуры классификации существует специальная процедура семейства SHOW_TEXT_ANALIZE, с помощью которой формируется окно с дополнительной информацией о классификации:
· Порог;
· Сумма весовых коэффициентов;
· Количество терминов;
· Количество негативных терминов;
· Список терминов с их весовыми коэффициентами;
· Текст анализируемого документа.
Описание задачи «Настройка порога отнесения страницы к категории»
Задача обеспечивает возможность задания порога классификации вручную, а также расчета оптимального порога на основе заранее введенных данных. Интерфейс задачи состоит из формы свойств профиля, позволяющей задавать порог классификации, вести список положительных и отрицательных примеров и производить расчет оптимального значения в автоматическом режиме. Данная задача взаимодействует со следующими задачами:
· «Ведение классификатора»;
· «Ведение информации о сайтах».
Настройка порога отнесения страницы к категории осуществляется как в ручном режиме, когда порог может быть введен произвольно, так и в процессе автоматического обучения системы на основе заранее введенных положительных и отрицательных примеров.
Для реализации задачи используется ряд экранных форм и хранимых процедур, необходимых для ведения списка положительных и отрицательных примеров, формы ввода порога профиля и просмотра статистики обучения:
· SHOW_PROFILE_EDIT – отображение формы основных свойств профиля и ручного изменения порога;
· SHOW_SAMPLE_LIST – ведение списка положительных и отрицательных примеров;
· SHOW_TEXT_LEARN – просмотр результатов анализа примера;
· pkg_rco_classifier_core – пакет процедур для автоматического обучения на основе примеров;
· SHOW_LEARN_STAT – выводит статистику по результатам обучения.
4.5 Подсистема «Обход сайтов»
4.5.1 Общее описание функционирования подсистемы
Подсистема «Обход сайтов» используется для получения информации от веб-ресурсов и занесением ее в базу данных СТК
Подсистема обеспечивает выполнение следующих функций:
· Получение страницы по протоколу HTTP;
· Выделение внешних ссылок со страницы;
· Сохранение страницы в базе СТК;
· Размещение задания в комплекс задач «Сбор адресов» ПС «Поиск новых сайтов».
4.5.2 Описание функций задач и связей между ними
Описание задачи «Обход сайта»
Данная задача обеспечивает набор операций по обходу сайтов и получения и внесения информации с них в базу данных СТК, в частности она реализует следующий функционал:
· Получение страницы по протоколу HTTP;
· Выделение внешних ссылок со страницы;
· Сохранение страницы в базе СТК;
· Размещение задания в комплекс задач «Сбор адресов» ПС «Поиск новых сайтов».
В результате работы задачи «Обход сайта» генерируется следующая информация:
· записи в базе данных, содержащие данные по полученным страницам сайтов;
· Новые задания в очереди на выделение новых ресурсов;
· Изменение состояний очереди обхода сайтов.
Данная задача взаимодействует со следующими подсистемами и задачами:
· «Планирование процессов обхода».
Источником входного сообщения является комплекс задач «Планирование процессов обхода» ПС «Обход сайтов».
Исходной информацией для работы является номер задания в очереди сайтов на обход. Исходя из номера задачи, получаются следующие параметры:
· Адрес сайта;
· Глубина обхода;
· Максимальное количество страниц.
Сканирование производится «вширь», т. е. анализируются сначала страницы первого уровня, потом страницы второго уровня и т. д.
Для реализации сканирования внутри модуля организуется очередь страниц для скачивания. Изначально в очередь размещается первый стартовый адрес сайта. Далее для каждой страницы необходимо выполнить следующую последовательность действий:
· Проверить на возможность выхода из цикла:
o Если задана глубина обхода и очередная страница имеет глубину больше заданной;
o Если превышено максимальное количество анализируемых страниц;
o Если очередь пуста (весь сайт проанализирован);
· Получить текст страницы по HTTP;
· Сохранить данные страницы в базе;
· Сохранить статус работы системы в очереди сайтов на обработку;
· Выделить из текста страницы ссылки на другие страницы и обработать выделенные адреса:
o Для всех внешних страниц – разместить в очереди адресов для анализа;
o Для внутренних страниц:
– Проверить обработанную часть очереди на то, что страницы уже обработаны;
– Если страницы обработаны, то игнорировать;
– Если нет, то добавить в конец очереди с признаком уровня на единицу больше текущего;
· Перейти к следующему элементу очереди.
В случае если при анализе ссылок со страниц, были выявлены ссылки на внешние сайты, то автоматически вызывается процедура создания заданий на анализ новых адресов.
В процессе работы, после сохранения данных об очередной странице, автоматически вызывается сообщение «Сохранить статус выполнения» в «Очереди на обход сайтов», чтобы показать, что процедура продолжает работать.
После завершения работы вызывается сообщение «Завершить задачу» в «Очереди на обход сайтов».
Описание задачи «Планирование процессов обхода»
Задача обеспечивает набор операций по определению необходимости первичного обхода сайтов, расширенного обхода сайтов, проверки уже загруженных страниц сайтов.
Входной информацией задачи служат записи о страницах и сайтах в БД СТК. Выходной информацией задачи является перечень сайтов, подлежащих обходу, а также перечень страниц сайтов, подлежащих проверке.
Данная задача взаимодействует со следующими подсистемами и задачами:
· «Обход сайта».
Задача определяет необходимость первичного обхода сайтов, расширенного обхода сайтов, проверки уже загруженных страниц сайтов и помещает соответствующие задания в очередь на обработку. Перечисленные действия реализованы в виде процедур пакета PKG_CRAWLER_TASKS.
Задача запускается периодически посредством механизма JOB СУБД Oracle. Данные о своем состоянии между запусками задача хранит в таблице TBLJOBDATA.
Алгоритм выделения ссылок
Для выделения ссылок анализируются только теги <a href.
· Выделяется значение атрибута href.
· Если значение начинается с javascript, то ссылка игнорируется.
· Если значение начинается с символа “/”, то из адреса текущей страницы выделяется адрес сайта и к нему добавляется значение атрибута.
· Если значение начинается с «http://», то проверяется, если адрес сайта совпадает с текущим, то дальнейшая работа строится как с внутренней ссылкой (проверка на то, что уже обработана и размещение в очереди). Если нет – как с внешней (размещение задания).
· Иначе считаем, что это страница из текущего каталога. Тогда от адреса текущей страницы удаляется все, правее последнего символа /, и к нему добавляется значение атрибута.
4.6 Подсистема «Обмен информацией с СКФ»
4.6.1 Общее описание функционирования подсистемы
Подсистема «Обмен информацией с СКФ» используется для обмена данными системы СТК с системами контентной фильтрации (СКФ).
Программа обеспечивает выполнение следующих функций:
· Формирование списков изменений;
· Взаимодействие с локальной СКФ.
Входной информацией для подсистемы являются:
· Данные задачи «Формирование списков изменений»
· Данные о новых сайтах от СКФ
Выходной информацией являются:
· Список изменений категорий
· Список изменений сайтов
· Данные о новых сайтах, сохраненные в таблицах базы данных
4.6.2 Описание функций задач и связей между ними
Описание задачи «Формирование списков изменений»
Задача обеспечивает подготовку информации, необходимой СКФ для актуализации локальной БД от временной метки последней актуализации до временной метки, предоставленной СТК. Информация включает в себя список сайтов с указанием категорий, картированных с момента последней актуализации локальной БД СКФ, а также список изменений классификатора, произошедших с момента последней актуализации локальной БД СКФ. Данная задача взаимодействует со следующими задачами:
· «Ведение классификатора» ПС «Ведение информационных ресурсов»
· «Ведение информации о сайтах» ПС «Ведение информационных ресурсов»
Задача «Формирование списков изменений» заключается в ведении таблиц TBLRBROUTQUEUE, TBLSITEOUTQUEUE. Их заполнение происходит автоматически при соответствующих изменениях в системе.
Описание задачи «Взаимодействие с локальной СКФ»
Задача обеспечивает механизм обмена данными с СКФ, а именно: прием списка адресов, не зарегистрированных в БД СТК, передача в СКФ списка вновь категоризированных сайтов с указанием категорий каждого сайта, передача в СКФ изменений в структуре рубрик. Алгоритм обмена данными предусматривает пакетный режим передачи данных, позволяющий производить дозагрузку в случае обрыва связи. Данная задача взаимодействует со следующими задачами:
· «Формирование списков изменений»;
· «Ведение информации о сайтах» - ПС «Ведение информационных ресурсов».
Задача «Взаимодействие с локальной СКФ» реализована в пакете WS_PKG. Каждая процедура изначально проводит авторизацию СКФ и получение данных о последнем обновлении.
Функция «Получение списка всех категорий» реализуется вызовом метода GetAllRubricator. Данный метод возвращает все неудаленные записи классификатора.
Функция «Получение списка изменений категорий» реализуется путем циклического вызова метода GetChangedRubrics, который возвращает часть списка всех изменений классификатора, произошедших в системе с момента последнего успешного обновления классификатора данной СКФ. Каждая запись изменения классификатора состоит из уникального идентификатора, реквизитов рубрики и кода действия с рубрикой (создание, изменение, удаление). Количество записей, передаваемых методом GetChangedRubrics в пределах одного вызова, определяется настройками данной СКФ в базе данных СТК. Если в системе больше нет новых записей для передачи в СКФ, то метод возвращает пустой список. Метод работает на основании списка изменений категорий TBLRBROUTQUEUE. После завершения приема записей со списком изменений классификатора СКФ должна закончить логическую транзакцию путем вызова метода CommitChangedRubrics. Данный метод сохраняет информацию о последнем номере полученной записи из TBLRBROUTQUEUE в реквизитах клиента.
Функция «Получение списка изменений сайтов» реализуется в циклическом вызове СКФ метода GetClassifiedURL. Метод возвращает набор записей, содержащих информацию о вновь категоризированных сайтах с указанием присвоенных категорий. Количество записей, возвращаемых в одном запросе, определяется настройками данной СКФ в базе данных СТК. Если в системе больше нет новых записей для передачи в СКФ, то метод возвращает пустой список. Данный метод выдает изменения на основании списка TBLSITEOUTQUEUE. По завершении приема списка СКФ должна закончить логическую транзакцию путем вызова метода CommitClassifiedURL. Данный метод сохранит номер последней полученной записи из TBLSITEOUTQUEUE в реквизитах клиента.
4.7 Подсистема «Поиск новых сайтов»
Подсистема «Поиск новых сайтов» используется для поиска новых доменных имен активных (посещаемых) сайтов.
Подсистема обеспечивает выполнение следующих функций:
· прием адресов от локальных СКФ:
o Получение новых адресов от СКФ;
o Размещение адресов в задаче «Сбор адресов» подсистемы «Поиск новых сайтов.
· анализ и утилизация адресов:
o Получение новых адресов из задачи «Сбор адресов»;
o Анализ адресов и выявление новых ресурсов;
o Создание новых ресурсов.
Входной информацией для подсистемы являются:
· Информация о новых сайтах, полученная от СКФ.
Выходной информацией подсистемы является запись о новых информационных ресурсах в системе в соответствующие таблицы базы данных.
4.7.2 Описание функций задач и связей между ними
Описание задачи «Прием из локальных СКФ»
Данная задача обеспечивает набор операций по отслеживанию новых поступлений сайтов в очередь для анализа. Задача расширяет базу ресурсов за счет получения информации о некатегоризированных ресурсах от установленных систем контентной фильтрации.
При работе происходит взаимодействие с другими комплексами задач:
· комплекс задач «Сбор адресов» подсистемы «Поиск новых сайтов» - размещение заданий для анализа;
· комплекс задач «Ведение информации об СКФ» подсистемы «Ведение пользователей и управления правами доступа».
Для реализации задачи «Прием из локальных СКФ», необходимо обеспечить выполнение следующих функций:
· получение новых адресов от СКФ;
· размещение адресов в комплексе задач «Сбор адресов» подсистемы «Поиск новых сайтов».
Обмен между СТК и СКФ реализован по технологии Web Services и заключается в последовательном вызове системами контентной фильтрации методов Web-службы, развернутой на стороне СТК. Аутентентификация производится путем передачи в каждом вызове ключа клиента (CLIENT_KEY) и ключа инсталляции (INSTALL_KEY) вызывающей СКФ.
Описание задачи «Анализ и утилизация адресов»
Задача обеспечивает объединение в рамках одного модуля алгоритмов определения новых ресурсов. Это позволит в дальнейшем, при необходимости, легко изменять логику системы, изменяя всего один модуль. Данная задача взаимодействует со следующими подсистемами и задачами:
· комплекс задач «Сбор адресов» подсистемы «Поиск новых сайтов» - получение заданий для анализа;
· комплекс задач «Ведение информации о сайтах» подсистемы «Ведение информационных ресурсов» - заведение новых сайтов.
Для реализации задачи «Анализ и утилизация адресов» необходимо обеспечить выполнение следующих функций:
· получение новых адресов из комплекса задач «Сбор адресов»;
· анализ адресов и выявление новых ресурсов;
· создание новых ресурсов.
Выходной информацией комплекса задач является запись о новых информационных ресурсах. Данные для записи передаются в комплекс задач «Ведение информации о сайтах» подсистемы «Ведение информационных ресурсов».
4.8 Выводы по главе 4
Разработана система автоматического поиска, анализа и категоризации интернет-ресурсов …
Использование разработанной системы позволяет …
ЗАКЛЮЧЕНИЕ
Количество выводов в диссертации должно соответствовать количеству поставленных задач (и в идеале - представлять собой решение этих задач). Однако, на практике такое встречается редко. Одной задаче может соответствовать два вывода, реже - выводы мало соответствуют поставленным задачам. Несоответствия выводов поставленным задачам следует избегать. Если выводы совсем не соотвествуют задачам - измените задачи, никто не заметит, что раньше - при обосновании выбора темы - они были другими. Даже если кто-то и заметит, это считается в порядке вещей, и еще никто к этому не придирался.
Заключительная часть диссертации (заключение) должна содержать выводы, сделанные по результатам всей работы. Эта часть, самая небольшая по объему, имеет особую важность, поскольку именно здесь в завершенной и логически безупречной форме должны быть представлены на суд научного сообщества итоговые результаты Вашего труда. Заключение - это не просто суммирование достигнутых результатов, а своего рода синтез, органично соединяющий эксплицитный и имплицитный уровни изложения, отдельные результаты по теме и совокупный итог Вашей работы в целом. В заключении необходимо соотнести полученные выводы с целями и задачами, поставленными во введении, соединить в единое целое извлеченные выводы, оценить успешность собственной работы. Иногда целесообразно построить текст заключения как перечень выводов, разбив его на пункты, каждый из которых - выделение и обоснование одного конкретного вывода. Если работа наряду с теоретическими результатами имеет и практические следствия, это также нужно оговорить в заключении. Кроме того, следует оценить открывающуюся на основе результатов работы перспективу дальнейших исследований поданной теме, очертить встающие в этой связи новые задачи, охарактеризовать имеющиеся побочные результаты и идеи и оценить возможные перспективы их научного развития.
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ
Список литературы (обычно, не менее 100, не более 600 источников, в диссертациях по техническим специальностям - меньше) оформляется по текущему ГОСТу. Вначале по алфавиту приводятся отечественные источники, затем по алфавиту - иностранные. Соответствие списка литературы ГОСТу можно проверить в библиотеке (в информационно-библиографическом отделе).
1. Опыт создания системы фильтрации агрессивного web-контента Труды XII Всероссийской научно-методической конференции «Телематика 2005», 6-9 июня 2005г., Издательство во СПб.
ПРИЛОЖЕНИЯ
В приложения диссертации включают не вошедшие в основной текст таблицы, схемы организации эксперимента, иногда приводятся образцы анкет, тестов (если они разработаны Вами) и т. д. Кроме того, в приложения входят акты внедрения, авторские свидетельства и т. д. Каждому разделу приложений присваивается номер (1, 2, 3 и т. д.). Например, в «Приложение 1» могут входить таблицы оценки умственной работоспособности крыс. Если приложение состоит из нескольких листов, то первый подписывается сверху: Приложение 1, а каждый последующий: Приложение 1 (продолжение) (без кавычек). Если приложения слишком объемны, они могут издаваться в виде отдельного тома.


