УДК 004.738.52:004.891:004.785

,

Tsaregorodseva M. A., Kudryashova O. B.

ИНТЕЛЛЕКТУАЛЬНЫЙ КЛИЕНТСКИЙ МОДУЛЬ ПОИСКОВОЙ СИСТЕМЫ

THE INTELLIGENT CLIENT MODULE OF THE SEARCH ENGINE

Предложена постановка задачи разработки клиентского модуля системы поиска в сети Интернет с применением технологий экспертных рекомендательных систем. Такой интеллектуальный модуль позволит облегчить поиск информации в сети Интернет, соответствующей потребностям пользователя с учетом его психологического портрета. Для построения профиля пользователя выбираются явные методы рекомендательных систем. Описаны три варианта алгоритма работы модуля.

Ключевые слова: интеллектуальная система, поиск в интернет, явные методы рекомендательных систем.

The task formulation of research the module of the client part for Internet search using the technology of expert recommendation systems is proposed. Such an intelligent module facilitates retrieval of information on the Internet, meet user needs, taking into account user's psychological portrait. To construct the user profile explicit methods of recommendation systems are selected. Three variants of the algorithm of the module are described.

Keywords: intelligent system, searching the internet, explicit methods of recommendation systems.

Современное Интернет-пространство предоставляет пользователю огромное количество разнообразной информации, в которой становится все сложнее ориентироваться, поэтому применение классических средств поиска и систематизации не может полностью удовлетворить потребности пользователя: невозможно просмотреть все материалы, чтобы выбрать для себя подходящие. В связи с этим стало появляться все больше так называемых рекомендательных систем, которые ориентированы на предоставление информации, наиболее полно удовлетворяющую интересы пользователя и наиболее полно отвечающую его запросу.

НЕ нашли? Не то? Что вы ищете?

Рекомендательные системы – это программы, которые пытаются предсказать, какие объекты (книги, фильмы, музыка, веб-сайты) могут понравиться пользователю, имея определенную информацию о его профиле [1]. Такие программы используются, как правило, в коммерческих целях (в первую очередь, в Интернет-магазинах, либо на специализированных сайтах «по интересам» с целью предложения товаров).

С другой стороны, актуальной задачей является интеллектуализация самого процесса поиска в Интернете. Многие пользователи Интернет объективно полагают, что современные возможности поисковых систем не позволят им найти необходимые документы или данные. Поэтому необходима технология, которая помогла бы пользователю найти то, в чем он нуждается, и избежать того, на что он не желает тратить свое время и внимание. Особенно это актуально для начинающих пользователей, недостаточно ориентирующихся в технологиях сетевого поиска.

Прогноз в рекомендательных системах строится на основе данных о пользователе, которые обычно получают применением явных и неявных методов.

Примеры явных методов:

-  запрос у пользователя оценки объекта по дифференциальной шкале;

-  запрос у пользователя ранжирования группы объектов от наилучшего к наихудшему;

-  предъявление пользователю двух объектов с вопросом о том, какой из них лучше;

-  предложение создать список объектов, любимых пользователем.

Примеры неявного сбора данных:

-  наблюдение за тем, что осматривает пользователь в интернет-магазинах или базах данных другого типа;

-  ведение записей о поведении пользователя онлайн;

-  отслеживание содержимого компьютера пользователя.

На основе собранных данных рекомендательная система вычисляет список рекомендаций для конкретного пользователя.

Чаще всего рекомендательные системы основаны на механизме коллаборативной, или совместной, фильтрации. Коллаборативная фильтрация – это метод, дающий автоматические прогнозы (фильтрацию) относительно интересов пользователя по собранной информации о вкусах множества пользователей [2]. Основная идея данного метода состоит в том, что те, кто согласился в прошлом, склонны соглашаться и будущем.

Системы коллаборативной фильтрации обычно применяют двухступенчатую схему.

-  Находят тех, кто разделяет суждения прогнозируемого пользователя.

-  Используют оценки сходно мыслящих людей, найденных на первом шаге, для вычисления прогноза.

Цель данного сообщения – постановка задачи разработки интеллектуального клиентского модуля поисковой системы с использованием технологий рекомендательных экспертных систем.

В любой классической поисковой системе можно выделить три основные части:

-  Робот (краулер, спайдер, индексатор). Робот отвечает за сбор информации. То есть робот эмулирует работу пользователя, загружая страницы и сохраняя их в базе данных.

-  База данных. В базе данных хранится и сортируется собранная роботом информация.

-  Клиент. В этой части обрабатываются пользовательские запросы.

Для реализации интеллектуального поиска необходим особый алгоритм обработки пользовательских запросов. Обычно алгоритм обработки запроса выглядит следующим образом:

1.  Запрос разбивается на слова.

2.  Удаляются так называемые “стоп” слова — слова, которые встречаются почти во всех документах (предлоги, союзы).

3.  Каждому слову сопоставляется его номер из списка всех слов.

4.  Для каждого слова из запроса находится в обратном индексе (записи отсортированы по словам, а не по номеру документа) список документов, которые содержат это слово.

5.  Из этих списков создается новый, содержащий те и только те документы, которые входили в списки для всех слов.

6.  На основе характеристик, обозначенных в предыдущем разделе для каждого документа, вычисляется степень релевантности, и список сортируется по этому признаку. На этом шаге для всех документов создаются аннотации. Аннотацией может быть содержание тэга “description”, контекст вхождения слов из запроса (наиболее близко стоящих или первое вхождение), первое предложение или заголовок документа [3].

Соответственно, результат поиска напрямую зависит от того, как пользователь сформулирует запрос, от того, какие конкретно слова он будет для этого использовать. Поэтому начинающий или недостаточно квалифицированный пользователь не всегда найдет именно то, что он хочет. Интеллектуализация поиска заключается в создании дополнительного инструмента, который будет учитывать психологическую сторону вопроса, «изучит» пользователя и его предпочтения и на основе выявленных характеристик вычислит степень релевантности документа (первый вариант алгоритма) или неким образом переформулирует запрос, а вычисление степени релевантности произойдет классическим образом (второй вариант алгоритма). В итоге, степень релевантности уже не будет напрямую зависеть от вхождения документов в список всех слов из исходного запроса пользователя. Но при таком подходе необходимо добавить возможность «отключения интеллектуализации» для поиска каких-либо конкретных материалов, не связанных с личностными предпочтениями пользователя.

Возможен и третий вариант алгоритма, когда пользователь не формулирует запрос вообще. Он просто дает системе команду угадать, чего он хочет. В этом случае система должна задать несколько вопросов для идентификации текущего настроения и психического состояния пользователя и на основе полученного результата произвести поиск по определенным тегам, соответствующим выявленному состоянию пользователя. Психологический комфорт такого поиска, особенно для новичка, трудно переоценить. Система интеллектуального поиска принесет такому пользователю именно то, что он хотел бы узнать, без усилий с его стороны на правильную формулировку запросов.

Все три варианта алгоритма интеллектуализации поиска подразумевают наличие базы знаний, базы экспертных оценок, которая будет служить для оценки психологических особенностей и выявления психологического типа пользователя. Наполнение такой базы знаний происходит путем предварительных опросов большого количества «экспертов» – людей, хорошо ориентирующихся в интернет-поиске. Будут выявляться психологические портреты таких людей, и связываться с теми типичными поисковыми запросами, которые они делают. В качестве «экспертов» предполагается использовать студентов, аспирантов и преподавателей специальностей, связанных с информационными технологиями.

Таким образом, необходимо выбрать метод, который позволит построить профиль предпочтений конкретного пользователя. Наиболее предпочтительными здесь представляются явные методы. Под явными методами подразумеваются анкетирование пользователя, выставление пользователем рейтингов, составление пользователем списка любимых/нелюбимых предметов. Преимущество данного подхода заключается в том, что предпочтения пользователя определяются сразу после выполнения им требуемых действий. При использовании неявных методов (слежение за пользователем, за тем, какие сайты он посещает, что конкретно просматривает в интернет-магазинах, какие товары покупает, какие файлы хранятся на его компьютере и т. д.) информация о предпочтениях пользователя накапливается постепенно, поэтому система не сможет сразу предоставить «интеллектуализированный» результат. Преимущество неявных методов в том, что пользователь не тратит время на «представлении себя системе», отвечая на ее вопросы.

В нашем случае наиболее важно сразу определить профиль предпочтений пользователя, соответственно, будут использоваться явные методы анкетирования с помощью экспертной системы. После того, как пользователь ответит на предложенные системой вопросы, будет определена область его интересов. Для каждой из областей интересов заранее должен быть определен список понятий, слов, связанных с данной областью. Впоследствии эти понятия будут использованы при «интеллектуализации» поиска.

Таким образом, основными компонентами интеллектуального клиентского модуля будут являться экспертная подсистема определения психологического портрета (профиля) пользователя и база знаний. Поисковый робот будет собирать информацию в соответствии с профилем пользователя, база данных будет использоваться для хранения собранной роботом информации. Новизна данной разработки будет заключаться в применении технологий рекомендательных экспертных систем в клиентском модуле поисковой системы.

СПИСОК ЛИТЕРАТУРЫ

1.  Рекомендательная система / Материал из Википедии ru. wikipedia. org – Интернет-ресурс

2.  Herlocker J. L., Konstan J. A., Terveen L. G., Riedl J. T. Evaluating Collaborative Filtering Recommender Systems // ACM Transactions on Information Systems, Vol. 22, № 1, 2004. Р. 5-53.

3.  Юрий Лившиц. Введение в поисковые системы. http://yury. name/modern/05.pdf – Интернет-ресурс

, Бийский технологический институт (филиал) Алтайского государственного технического университета им. , аспирант, +, *****@***ru

, Бийский технологический институт (филиал) Алтайского государственного технического университета им. , к. ф.-м. н., доцент, зав. кафедрой, +, *****@