ИНДЕКСАЦИЯ ПОИСКОВЫМИ СИСТЕМАМИ

Московский государственный институт электроники и математики

На сегодняшний день поиск не может быть эффективным и корректным, если он основан только на анализе текста документов, т. к. внешние факторы могут играть не меньшую роль, чем сам текст. Поисковая машина должна учитывать положение страницы на сайте, авторитетность источника, частоту обновления, цитируемость страницы. Сочетание этих факторов может дать более полноценную картину о деятельности ресурса и его восприятии сетевой общественностью.

Одними из наиболее эффективных и результативных средств раскрутки веб сайтов являются регистрация в каталогах Интернет ресурсов и индексирование поисковыми системами. Но если первый метод в большинстве случаев зависит исключительно от того, как устроена процедура занесения информации о ресурсе в базу данных каталога, то подход пользователя к индексированию страниц поисковиками с полной уверенностью можно назвать индивидуальным и вполне предсказуемым. Регистрируясь в каталоге, пользователь вносит в установленные формы данные о сайте так, как он хочет. Однако, далеко не всегда информация о ресурсе будет отображена впоследствии в каталоге в первозданном виде: администраторы многих подобных серверов редактируют описание ресурсов, руководствуясь при этом собственными доводами и правилами.

Поисковая система представляет собой более сложную структуру и состоит из трех компонентов:

·  Робот (программа, которая просматривает веб-страницы, считывает (индексирует) их содержимое, следуя по ссылкам, найденным внутри документов. Возобновляет работу через определенный период времени).

НЕ нашли? Не то? Что вы ищете?

·  Индексы (база данных о проиндексированных роботом документах).

·  Поисковый механизм.

Поисковые системы, в отличие от встроенных в каталоги поисковых двигателей, ищут не в пределах определенной серверными настройками базы данных, а по всей Сети, выводя страницы, находящиеся в их индексах. Именно последним и занимаются так называемые поисковые роботы (spiders, wanderers, robots). При обращении к серверу робот проверяет наличие файла robots. txt в его корневой директории, в котором могут быть вручную установлены правила индексирования тех или иных документов текущего узла. Однако, не все роботы "умеют" читать указанную в этом файле информацию: часть из них не поддерживает специальный стандарт описания правил индексирования файлов - Standard for Robot Exclusion.

Страница имеет ряд особых мест, поместив ключевые слова в которые, можно надеяться на более высокую релевантность в индексах поисковых систем. Прежде всего это самое начало документа: текст, содержащий ключевые слова в верхней части страницы, заметно повысит релевантность.

Такой подход имеет, как минимум, три больших минуса: во-первых, исходный размер HTML-файла заметно увеличивается, во-вторых, при выдаче результатов поисковики выводят данные, указанные в заголовке (<TITLE></TITLE>), что делает название найденных документов малопривлекательными, в-третьих, пользователю будет довольно сложно поместить страницу с таким длинным заголовком в папку Избранное. Кроме этого, на релевантность документов влияет наличие выделенных фрагментов текста (теги <STRONG>, <B>, <EM>, <U>, <I>, <H1>, <H2> и др.) и внесение ключевых слов в комментарии, поле альтернативного текста <ALT> и мета теги.

Мета теги, по сути, имеют два основных атрибута - HTTP-EQUIV и NAME. Первый можно отождествить с HTTP-заголовками, и мета теги с этим атрибутом на ряде серверов могут быть автоматически преобразованы в HTTP заголовки. Наибольший интерес представляет атрибут NAME, а точнее - его значения "keywords", "description" и "robots", как влияющие на индексирование поисковыми спайдерами.

·  META NAME="keywords" CONTENT="…". Здесь в значении атрибута CONTENT следует указывать ключевые слова и словосочетания. Делается это через запятую. Сюда можно добавить слова, которые не встречаются в документе (или встречаются крайне мало), но имеют отношение к тематике сайта (что снова повысит релевантность). В среднем допускается указывать до 150-200 символов в качестве ключевых слов.

·  META NAME="description" CONTENT="…". Значение атрибута CONTENT в данном случае уместно использовать, если в самом документе нет (или очень мало) тематического описания вашего сайта. Большинство поисковых систем в результирующем списке рядом с заголовком выводит 70-150 символов, относящихся к характеристике найденного документа. Если робот не обнаружит данного значения, его внимание будет обращено к проверке страницы с целью нахождения текста, характеризующего документ, и дальнейшего вывода этого текста в результирующем списке. Оптимальным решением является параллельное использование значений ключевых слов и описания (возможно дублировать ключевые слова в конструкции META NAME="description" CONTENT="...").

·  META NAME="robots" CONTENT="…". Эта конструкция предназначена для того, чтобы указать поисковому роботу, индексирующему сайт, что надо добавлять в индексы, а что нет. Последний случай не является редким, т. к. существует множество ситуаций, когда просто необходимо запретить индексирование: чаты, баннерные показы.

Если этот мета тег пропущен или не указано значение атрибута CONTENT, то поисковый робот понимает их отсутствие как конструкцию CONTENT="INDEX, FOLLOW".

Следует избегать чрезмерного использования JavaScript. Роботы не умеют различать ссылки внутри JavaScript, в отличие от обычных посетителей, которые без проблем проходят по такой ссылке. Размещение же скрита в теге <HEAD> облегчает работу web мастеру, но только не роботу. Вопрос состоит в том, как упростить роботу индексацию страницы, например, если там находится несколько строк текста и сотня-другая строк кода JavaScript. Ведь робот должен исследовать страницу от начала и до закрывающего тэга </HTML>, следовательно, не имеет значения, где будет находиться JavaScript в коде HTML. Облегчить это задание можно, поместив JavaScript в отдельный файл — он создается в любом текстовом редакторе и имеет расширение. js.

Похожая ситуация обстоит и с Flash объектами — сайт остается полностью непроиндексированным. В лучшем случае поисковик выдает ссылку на домашнюю страницу сайта, дальше же робот пройти просто не может. Такая страница расценивается как dangling page — страница не содержащая внешних ссылок, и оценивается очень низко. Избежать такой ситуации можно продублировав все ссылки в HTML-коде где-нибудь, скажем, внизу страницы.

Каждая страница сайта может оказаться входной страницей, то есть, если робот ее оценит высоко, посетители будут приходить к вам именно через нее. Поэтому следует максимально тщательно обрабатывать каждую страницу.

Стремясь удерживать лидирующие позиции лучшего поисковика по русскоязычному Интернету, Яндекс(http://*****), постоянно совершенствует алгоритм расчета релевантности страниц, заимствуя передовые идеи у машин с мировым именем. Последние изменения, внедренные Яндексом, оказались наиболее кардинальными.

При анализе текстовых критериев релевантности Яндекс учитывает позицию найденных слов в титульной фразе, «вес» слова и его близость к началу документа, наличие найденных слов в заголовках и фрагментах выделенного текста, компактность цитаты, т. е. учет расположения найденных слов относительно друг друга.

Нетекстовые критерии, учитываемые Яндексом, можно условно разделить на три вида каталожные, ссылочно-расчетные, ссылочно-текстовые.

К каталожному типу критериев относится индекс цитирования (ИЦ) Яндекса который определяется как совокупность всех страниц, ссылающихся на данную (включая и страницы данного сайта).

Индекс цитирования Яндекс рассчитывает для всех ресурсов, ссылки на которые были найдены им в русском интернете, при условии, что результирующее значение тематического ИЦ для них не меньше 10. При учете ИЦ Яндекс наверху результатов поиска по запросу выдает несколько ссылок на сайты, зарегистрированных в своем каталоге.

Учет при расчете релевантности ИЦ был очень популярен в зарубежных поисковых системах примерно до 1998 года. Однако из-за того, что этот показатель легко подвергается накрутке и не учитывает качество самих источников, дополнительно ввели его усовершенствованные версии – тематический и взвешенный индексы цитирования (тИЦ и вИЦ соответственно). Эти два показателя по указанной выше классификации нетекстовых критериев расчета релевантности относят к ссылочно-расчетным.

В начале 2000г. учет поисковыми алгоритмами качества ссылочной политики сайта был взят за основу при модификации наиболее популярных зарубежных поисковых систем, уточнивших методику ранжирования результатов. Яндекс, следуя общемировой тенденции, также научился учитывать не только количество ссылок, но и их качество. В связи с этим им рассчитывается три вида индекса цитирования: ИЦ, вИЦ и тИЦ.

Все ссылки на некоторый ресурс нельзя признать равными, используется ранжирование их ценности, т. е. определение веса ссылки. Чем популярнее ресурс, тем больше вес, а значит, качество ссылки. Т. о. вИЦ сайта определяется не количеством ведущих на него ссылок, а суммой их весов. Тематический индекс цитирования рассчитывается по специальному алгоритму, в котором главную роль играет близость тематики анализируемого ресурса и ссылающихся на него сайтов. При подсчете используется количество ссылок на сайт и их тематический вес.

При анализе ресурсов на степень схожести тематики исследуется их взаимное положение в каталоге Яндекса. Например, сайты, расположенные в одной рубрике каталога, считаются близкими по тематике. Однако только этого фактора мало для того, чтобы полноценно рассчитать тИЦ ресурса. Чтобы решить эту проблему, Яндекс позаимствовал у Гугла уже отработанную «человеческую» технологию использования асессоров – специалистов, выносящих вердикт о релевантности страницы.

Некоторые зарубежные поисковики уже давно применяют практику использования человека для оценки релевантности результатов поиска. Приход новой методики работы асессоров на Яндекс должен был частично заменить учет оценки интервала между кликами одного и того же пользователя на разных позициях в результатах поиска. Анализ кликов теперь используется Яндексом, но для других целей, например, для интегральной оценки качества поиска. Непосредственно для настройки качества поиска эти данные не годятся, т. к. пользователи делают выбор только по цитатам из документов и адресам страниц. Асессоры же работают по более полноценной методике. Однако Яндекс не отказался от старого способа, а просто удачно совместил их, получив тем самым синергетический эффект. Благодаря работе асессоров поисковый механизм Яндекса отделяет тематические ссылки, т. е. связывающие сайты одинаковой тематики, от любых других. Для оценки качества поиска Яндексом совмещаются как автоматические, так и ручные методы оценки.

Ссылочно-текстовые критерии, учитываемые Яндексом при определении релевантности страницы, основаны на анализе текста ссылок. При этом, если содержимое запроса совпадает с содержимым тега ссылки, в результатах поиска выдается адрес, указанный в теге. При этом в результатах поиска такая страница выводится Яндексом без титула и сопровождается текстом: «адрес найден по ссылке».

Для высоких позиций в Яндексе оптимизируемый сайт должен иметь как можно большее количество входящих ссылок, увеличивающих ИЦ, вИЦ и тИЦ, расположенных на ресурсах, близких по тематике исходному.

При ранжировании результатов поиска по запросу пользователя Яндекс учитывает не только наличие ссылок на эту страницу с других страниц, но и их текст. Поэтому при верстке html-кода рекомендуется ссылаться на различные страницы сайта с использованием характерных ключевых слов и словосочетаний. А также стараться выделять несколько страниц, которые будут посвящены высококонкурентным темам, и ставить на них ссылки как можно чаще.

Однако гонка за высокими показателями ссылочных критериев приводит к определенным трудностям. Оптимизированная ссылочная структура сайта не должна затруднять полную индексацию сайта поисковой системой. Для этого желательно уменьшать число уровней иерархии, т. е. количество ссылок, которое должен пройти робот Яндекса, чтобы проиндексировать самую глубокую страницу сайта. Если же структура сайта имеет более 3-4 уровней желательно вынести наиболее важные внутренние ссылки на отдельную страницу.

Для того, чтобы правильно задать тематическую концепцию ресурса, содержащего разнородную информацию, необходимо при проектировании распределять страницы сайта по разделам, посвященным отдельным темам, и правильно связывать между собой страницы каждого из разделов. Главная страница или карта сайта, в свою очередь, должны ссылаться на одну из страниц каждого раздела. При оптимизации сайта под Яндекс необходимо особое внимание уделять соблюдению тематической целостности ресурса.

Поисковая машина Google в своей работе пользуется технологией Page Rank. Каждая ссылка на сайт считается «голосом» за этот сайт и, соответственно, помогает ему поднять рейтинг. При этом оценивается не только сайт, к которому ведет ссылка, но и сайт, на котором находится ссылка, то есть оценивается релевантность сайта данной тематике. Под релевантностью следует понимать соответствие содержания сайта объявленной тематике. То есть, поисковая машина считает оглавление страницы, содержимое мета тэга DESCRIPTION, и несколько абзацев текста. Тег KEYWORDS будет проигнорирован, она сама решит какие слова для данной страницы являются ключевыми, проанализировав частоту повторений определенной фразы в тексте. Тем не менее, рекомендуется не отказываться от этого тега, поскольку другие машины все еще пользуются им при оценке релевантности страниц. Также, следует обратить внимание на «заметность, или броскость» ключевых слов (keyword prominence). Особую важность будут иметь заголовки, заключенные в теги <H1>-<H3>, слова выделенные полужирным шрифтом, а также текст гиперссылок. Также, предполагается, что определенный вес будут иметь слова в альтернативном тексте изображений.

Когда-то эффективный метод публикации ссылок на так называемых «фермах» линков (FFA farms), где ваш сайт, пребывая некоторое время в базе данных, мог быть замечен роботом и проиндексирован, сейчас практически не приносит желаемых результатов. Для этого есть несколько причин. Во-первых в последнее время появилось много программ автоматической регистрации, которые забросят вашу ссылку на тысячи ферм одновременно. Поскольку тысячи людей во всем мире пользуются такими программами, время пребывания вашей ссылки в базе данных значительно сокращается. Ваша ссылка просто «вытесняется» новыми регистрациями. Во-вторых, даже если GoogleBot и наткнется на вашу ссылку, то ее ценность будет очень невысока, поскольку тематику таких ферм невозможно определить.

Крэиг Силверстеин из Google (http://) сообщил, что они хотели бы использовать "больше чисто человеческого подхода в работе алгоритма" для определения ценности сайта в соответствии с использованными ключевыми словами и фразами. Крэйг сказал: "К настоящему времени мы начали разрабатывать и опробовать усложненные математические модели и программные решения определения того, как оценивают ценность вашего ресурса другие участники сети".

Необходимо заметить, что уже сейчас Google оценивает количество входящих и исходящих ссылок на вашем сайте, их "авторитетность", а также определяет входит ли ваш проект в какое-либо "сообщество" web-ресурсов, объединенных одной тематикой, в общесетевом и/или локальном масштабе.

"Если Вы облегчаете нашу работу, Вы нам (поисковой машине Google) больше нравитесь", - говорит Крэйг. Так что рекомендации очень просты: "Обменивайтесь ссылками с "уважаемыми" сайтами; убедитесь, что ваши партнеры ипользуют ключевые слова, связанные с тематикой вашего проекта; будьте последовательны в использовании ключевых слов и фраз на всех страницах сайта и очень внимательны при подготовке текста описаний вокруг ваших ключевых слов и ссылок".

Поисковая система Аport (http://*****) на сегодняшний день вычисляет индекс цитирования каждой страницы, но учитывает только одну ссылку со всех доменов второго уровня. "Авторитетность" ссылок при ранжировании не учитывается. Если ваш ресурс зарегистрирован в каталоге, рядом с его описанием Вы сможете найти индекс цитирования главной страницы сайта.

Кроме Yahoo! и MSN особо следует вспомнить проект Open Directory Project, он же DMOZ. В отличие от многочисленных самопровозглашенных каталогов и так званных «ферм линков», каталог DMOZ является действительно авторитетным источником информации. Регистрация в нем бесплатна, но для того, чтобы сайт начал появляться в результатах поиска, вам придется подождать от двух недель до 6 месяцев. Объясняются такие продолжительные задержки недостатком редакторов для некоторых категорий. На домашней странице сайта вы увидите что на DMOZе работает около 60 тысяч редакторов, но это не текущее число редакторов, а количество людей, работавших там за всю историю существования проекта. Но даже когда ваш сайт появится в каталоге, не следует ждать резкого повышения приплыва посетителей — мало кто пользуется этим каталогом для осуществления поиска. Тем не менее, польза от регистрации есть, и значительна, хотя и не прямая. Дело в том, что Google пользуется каталогом DMOZ таким же образом, как Yahoo! или MSN пользуются своими — по сути, каталог Google — это копия каталога DMOZ. Так что, несмотря на то, что у вас не будет посетителей непосредственно с каталога, присутствие в нем может просто таки взвинтить ваш рейтинг к верхушке результатов поиска. Кроме того, другие поисковые машины кроме Google сканируют каталог DMOZ, а это опять-таки значит увеличение трафика.

Если ваш сайт представляет тематику, в которой идет напряженная борьба за первые места, и предложение очень высоко, бывает очень трудно, иногда даже невозможно пробиться к вершине поиска. В таком случае лучшим решением проблемы может быть покупка места в результатах поиска.

Современный Интернет представляет собой сложный, почти живой организм, который чутко реагирует на все информационные изменения. Интернет магазины, как в прочем и все компании на прямую зависят от популярности в сети. Чем больше посетителей, тем больше потенциальных покупателей и соответственно оборот компаний. Проблема раскрутки сайтов в настоящее время стало самой «популярной» проблемой миллионов их владельцев.