УДК 681.3

УЧЕТ ВНЕШНИХ ФАКТОРОВ ПРИ РАНЖИРОВАНИИ ДОКУМЕНТОВ В ПОИСКОВЫХ СИСТЕМАХ

, ,

Муромский институт ВлГУ

Ранжирование документов в поисковых машинах – процесс весьма сложный. Разработчики постоянно пытаются совершенствовать алгоритмы ранжирования, преследуя, как правило, две большие цели – улучшение качества поиска и уменьшение возможности искусственных воздействий на ранжирование результатов. Та или иная поисковая машина может учитывать множество факторов, так или иначе влияющих на положение конкретного документа в выдаче по конкретному запросу.

Все эти поисковые машины используют одинаковый набор основополагающих факторов, которые можно разделить на 3 большие категории:

1. Статические (не зависящие от запроса).

Как правило, это некий агрегированный показатель, который носит название статического ранга или авторитетности документа и зависит от количества и ранга документов, ссылающихся на данный документ. Он является внешним фактором, так как зависит только от внешних показателей, не принимая во внимание содержимое документа.

2. Динамические (зависящие от запроса) внутренние (страничные).

Они учитывают степень соответствия запросу содержимого самого документа.

3. Динамические (зависящие от запроса) внешние (ссылочные).

Как правило, они учитывают степень соответствия запросу текста ссылок на документ (в среде русскоязычных специалистов по оптимизации такой фактор носит название «ссылочное ранжирование»). Также одним из факторов может быть динамический (т. е. зависящий от запроса) ранг документа [1].

НЕ нашли? Не то? Что вы ищете?

К внешним факторам можно отнести статические и динамические внешние факторы. Стоит остановиться на вопросе – зачем нужны внешние факторы ранжирования? Ведь человек ищет информацию, расположенную на определенных страницах. Соответственно и ранжировать страницы логично на основе их содержания. В начале развития поисковых систем так и было. Но с увеличением числа сайтов увеличилось количество страниц с одинаковым содержанием - так называемое дублирование контента. К тому же появилось много желающих сделать “идеальные” страницы под основные запросы, что привело к нерелевантному ранжированию документов. Чтобы преодолеть возникшие проблемы, потребовалось введение дополнительных факторов ранжирования, не зависящих от содержания страниц (внешних факторов). Рассмотрим их подробнее.

Статические факторы измеряют важность или авторитетность страницы, не обращая внимание на ее содержание.

Наиболее известным примером реализации статического фактора является показатель PageRank, использующийся в поисковой машине Google. В основу его вычисления положена вероятностная модель пользователя, блуждающего по документам Сети. Предполагается, что он с равной вероятностью может перейти по любой ссылке, которую содержит документ. Так же, с некоторой одинаковой для каждого документа вероятностью, пользователь может попасть на него не по ссылке с другого документа (например, набрав вручную адрес документа в адресной строке браузера или воспользовавшись «закладкой»). Таким образом, вероятность того, что пользователь посетит конкретный документ, которая и принята за ранг документа PageRank, равна

,

где PRa – PageRank рассматриваемой страницы,

d – коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не попадет на следующий документ каким-нибудь другим образом),

Nобщее количество документов,

PRi – PageRank i-й страницы, ссылающейся на страницу а,

Ci – общее число ссылок на i-й странице.

PageRank очень популярен в современных коммерческих системах и используется практически всеми общедоступными поисковыми Интернет-машинами. Ее успех во многом основывается на том, что ее достаточно трудно фальсифицировать, создав специальные страницы (так называемая поисковая оптимизация сайтов). Однако, в последнее время фирмы, специализирующиеся на “вытаскивании" определенных сайтов в начала списков по запросам в популярных поисковых машинах, научились “обманывать” PageRank, создавая специальные страницы, содержащие много ссылок. В целях борьбы с этим явлением, и увеличения качества поиска система Google в конце 2003 года применила еще один дополнительный параметр, который можно рассматривать как достаточно простую модификацию PageRank — так называемый HillTop [2], основанные на алгоритме HITS. В нем при вычислении PR(A) используются не все ссылки на данную страницу, а только ссылки с определенного подмножества сайтов, выбранных экспертами как достоверные. При этом в модели документа хранится не один коэффициент PageRank, а два — вычисленный по всей коллекции и только по “достоверным" документам. Данный коэффициент позволяет оценить, применялись ли специальные технологии искажения PageRank для данных страниц и провести необходимую коррекцию результата.

Чем больше ссылок на документ, тем выше его статический ранг. Чем больший статический ранг имеет ссылающийся документ, тем больший вклад он сделает в статический ранг того документа, на который он ссылается. Как правило, из всех страниц сайта наибольший, статический ранг имеют главные страницы – на них ссылаются все внутренние страницы, кроме того, и внешние ссылки ведут, как правило, на них. Далее идут страницы основного меню, которые также имеют ссылки со всех страниц сайта. Далее величина статического ранга спускается по уровням иерархии сайта. Чем плотнее перелинкованы между собой документы сайта, тем более близки будут их статические ранги.

В основе алгоритма HITS лежит понятие значимости страницы. Наиболее значимыми страницами предложено считать те страницы, на которые больше всего ссылаются другие значимые страницы. Такие страницы называются первоисточниками (authorities). Первоисточники являются наиболее значимыми в рамках заданной темы, поэтому на них часто ссылаются другие страницы, относящиеся к данной теме. Это свойство позволяет выявить так называемые индексные страницы (hub pages), которые ссылаются на несколько первоисточников, относящихся к одной теме. Вместе оба типа значимых страниц образуют отношение взаимного усиления (mutually reinforcing relationship), то есть качественный первоисточник ссылается на много качественных индексных страниц и качественная индексная страница ссылается на много качественных первоисточников. Таким образом, целью анализа в HITS является поиск наиболее качественных первоисточников и наиболее качественных индексных страниц.

Работа алгоритма строится в два этапа. На первом этапе строится так называемый сфокусированный подграф Web, который содержит страницы, полученные путем посылки запроса системе поиска по ключевым словам. На втором этапе производится анализ сфокусированного подграфа Web и вычисляются наиболее значимые документы.

Итак, какое же место занимает статический ранг документа среди других факторов ранжирования? Так как этот показатель не зависит от запроса, то он играет вспомогательную роль и используется как весовой коэффициент при учете факторов, зависящих от запроса. Однако, этим показателем отнюдь не следует пренебрегать, так как он может существенно усилить эффект от динамических факторов.

Динамические внешние или ссылочные факторы измеряют релевантность ссылок на страницу с других страниц, т. е. показывают, насколько соответствующей запросу эта страница считается другими документами.

Влияние конкретной текстовой ссылки на релевантность документа запросу зависит от нескольких показателей. Один из них – релевантность текста ссылки запросу. Наибольший эффект от текстовой ссылки при ранжировании документа, на который она ведет, по определенному запросу возникает тогда, когда поисковая фраза имеет точное вхождение в ее текст.

Другой важный момент – при оценке вклада конкретной текстовой ссылки в общую релевантность учитывается статический ранг ссылающейся страницы как весовой коэффициент. То есть, чем авторитетней ссылающаяся станица, тем больший эффект от текстовой ссылки с нее, при прочих равных, будет достигнут.

И, наконец, третья составляющая вклада ссылочного ранжирования от конкретной ссылки на документ в общее значение релевантности этого документа запросу – это статический ранг самого этого документа, который тоже используется в качестве весового коэффициента. Таким образом, эффект от ссылки усиливается дважды – статическим рангом ссылающейся страницы и статическим рангом страницы, на которую она ссылается. Если оба эти значения довольно велики, то получается своеобразный «кумулятивный» эффект всего одна ссылка может вывести документ в топ поисковой выдачи.

Как можно увидеть, внешние факторы ранжирования способны качественно улучшить ранжирование документов в поисковых системах, то есть сделать поиск более качественным.

Литература:

1.  Ранжирование документов в поисковых машинах. / IV конференция “Поисковая оптимизация и продвижение сайтов”. Сборник докладов – М., 2005. С. 59-68.

2.  Губин и методы представления текстового документа в системах информационного поиска: Диссертационная работа к. т.н.: 05.13.11 / Санкт-Петербургский государственный университет – СПб., 2000. – 95 c.

3. , Белова эффективности применения методов совместного анализа текстов и гиперссылок для поиска тематических сообществ.

http://company. yandex. ru/grant/2005/06_Kozlov_102805.pdf