Партнерка на США и Канаду по недвижимости, выплаты в крипто
- 30% recurring commission
- Выплаты в USDT
- Вывод каждую неделю
- Комиссия до 5 лет за каждого referral
Курсовая работа на тему:«Поисковые системы»
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Московский Государственный институт электроники и математики
(Технический университет)
Кафедра информационно - коммуникационных технологий
КУРСОВАЯ РАБОТА НА ТЕМУ:
«Поисковые системы»
ПО ДИСЦИПЛИНЕ "ОРГАНИЗАЦИЯ ЭВМ "
ВЫПОЛНИЛИ:
СТУДЕНТЫ ГРУППЫ С-34
ПРЕПОДАВАТЕЛЬ: доцент
Мартиросян Сашик Торгомович
Москва, 2010г.
Введение
Интернет – это мировая информационная свалка. Помимо хранения информации, её необходимо структурировать, организовать быстрый поиск искомой информации. Для этого были созданы специальные поисковые роботы. * Сюда надо ещё что-то приписать!*
Постановка Задачи:
Целью нашей работы является выработка методики составления поисковых запросов изучение и овладение приёмами поиска информации в интернете. Наша курсовая делится на три части :
Произвести анализ существующих поисковых систем(наиболее популярных) Произвести теоретическое сравнение ПС Практически показать достоинства и недостатки ПСАнализ существующих поисковых систем
Общяя часть
Что такое ПС и как она работает? Эти два вопроса мы рассмотрим в данной главе.
ПС - Поисковая система. Сайт который предоставляет возможность поиска информации в интернете. Пользователь вводит запрос и после обработки запроса,«Сайт» выдаёт список искомого по релевантности( на сколько ссылка «адекватна» запросу)
Конечно же не сайт ищет, а специальный поисковый робот. Рассмотрим более подробно как происходить поиск.
Каждый поисковик(будь то яндекс, рамблер, гугл) имеет базу обратных (инвертированных) индексов. Поисковые системы преобразовывают документы в текстовые файлы, содержащие список всех имеющихся в документе слов. Слова в таких списках (индекс-файлах) располагаются в алфавитном порядке и рядом с каждым словом указаны в виде координат те места в документе, где это слово встречается. Кроме позиции в документе, для каждого слова приводятся еще и другие параметры, определяющие его значение в документе.
Помимо базы, каждый поисковик имеет робота-паука(spider) который сканирует все сайты(не только тот список который дала ПС но и переходя по ссылкам),тем самым индексирует их(или производит переиндексацию, если вы изменили что-либо на своей страницы после того как произошла первоначальная индексация) и
копирует содержимое этих страниц, дабы отдать это содержимое на дальнейшую переработку ПС для преобразования этих документов в обратные индексы.
Итак как же происходит поиск. После ввода запроса ПС начинает, искать в своей базе обратных индексов страницы сортируя найденные документы в порядке убывания релевантности поискового запроса.
Поисковая система должна не только предоставить список всех документов (веб-страниц), на которых встречаются слова из поискового запроса. Она должна предоставить этот список документов в такой форме, когда в самом начале этого списка будут находиться наиболее соответствующие запросу пользователя документы (осуществить сортировку найденных страниц по релевантности (И тут у каждой ПС разные способы реализации этого, но об этом чуть позже.)) Эта задача не тривиальна и по умолчанию не может быть выполнена идеально. Именно поэтому есть такие специально обученные люди - ассесоры, которые просматривают выдачу поисковых систем (конкретно той поисковой системы, которая их наняла) по различным запросам и оценивают качество работы математической модели поисковой системы. (математическая модель - это «формула» для поиска и ранжирования документов).
Google имеет свой российский аналог, менее популярный чем исходный американский, но ничем ему не уступающий по качеству поиска. У Google в России есть многочисленные поклонники, считающие, что этот посковик выдает наилучший результат. Тут следует отметить, что всё зависит от того, что вы ищите. Так как алгоритм поисковых машин не одинаков, то и результат будет разный.
PageRank, используемый в Google, в основном основан на link popularity(индекс цитирования). При вычислении релевантности страницы наибольший вклад имеет количество и качество ссылок на страницы с других страниц.
PageRank - это название алгоритма, запатентованного компанией Google, и представляющего собой способ учета внешних ссылок на сайт. Для каждой страницы PageRank рассчитывается отдельно, он служит для определения «важности» веб-страницы. То есть, чем больше на других сайтах ссылок на конкретную страницу, тем выше ее величина PageRank, и, соответственно, «весомее» эта страница.
PageRank веб-страницы – это числовая величина, характеризующая вероятность нахождения посетителя на данной странице, причем суммарная вероятность по всем страницам в сети равна единице, поскольку на какой-нибудь странице обязательно находится посетитель. В более удобном виде PageRank отображается в надстройке браузера Google Toolbar, где каждой странице соответствует показатель в виде целого числа от 0 до 10. На самом деле это число - не точное значение, а диапазон PageRank, в который попадает страница. Высчитывается оно по логарифмической шкале.
На данный момент база данных Google насчитывает более миллиарда проиндексированных страниц.
Google – одна из немногих поисковых систем, которая глубоко индексирует ваш сайт. Google использует link populariry как наиболее весомый фактор в определении релевантности страницы. Поэтому большим и популярным сайтам проще попасть на высокие позиции в результатах поиска. Это также защищает Google от спама.
Google полагает, что следующие факторы будут наиболее весомыми при ранжировании страниц:
Link popularity (индекс цитирования);
Keyword proximity and density (плотность и частота ключевых слов);
Keywords in the link text (ключевые слова в ссылках);
Emphasized text (выделенный текст).
Yandex
Отличительная особенность Yandex – интуитивный поиск во всех словоформах. Уникальная разработка под особенности русского языка.
В каталоге Яндекса используется такое понятия, тематический индекс цитирования (тИЦ). Он рассчитывается для сайта в целом и показывает авторитетность ресурса относительно других, тематически близких ресурсов (а не всех сайтов Интернета в целом). И взвешенный индекс цитирования (вИЦ) – аналог PageRank, применяемый поисковой системой Яндекс. Значения ВИЦ нигде не публикуются и известны только Яндексу. Поскольку узнать ВИЦ нельзя, следует просто помнить, что у Яндекса есть собственный алгоритм оценки «важности» страниц. ВИЦ Яндекса непосредственно влияет результаты поиска в Яндексе, т. е. на места по которым распределяются сайты.
При подсчете индекса цитирования не берутся во внимание ссылки с форумов, веб-досок, конференций, сайтов, расположенных на бесплатных хостингах (если они не описаны в каталоге Яндекса). Естественно, не учитываются ссылки с тех сайтов, которые Яндекс не индексирует (например, зарубежные сайты).
Количество хостов зависит от посетителей (чем их больше, тем больше хостов), а индекс цитирования Яндекса – от авторов сайтов (чем больше авторов поставят ссылку на ваш ресурс, тем выше значение CY).
По значению индекса цитирования определяется релевантность ресурса в каталоге Яндекса и, соответственно, позиция вашего сайта в выбранном разделе.
Переиндексация документа происходит примерно раз в две недели, но под каждый сайт робот подстраивается в отдельности. Все зависит от частоты обновления. По словам Яндекса, тег <meta name="Revizit-after" content="n-days"> никакой роли в работе робота не играет.
Яндекс индексирует российскую сеть, поэтому в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, ua, uz. Остальные сервера вносятся, только если на них найден текст на русском языке.
Информация в заголовке (тег <title>) Яндекс отображает в результатах поиска. Слова, находящиеся в теге <title>, имеют больший вес чем все остальные. Ключевые слова в теге <meta> также увеличивают вес слова в документе, но только если само слово находится на странице.
Помимо вышеперечисленных способов, на релевантность слова влияют частота его использования в заголовках (<h1>, <h2> ...), в атрибуте alt, во всплывающих подсказках (тег <acronym>) и процент встречаемости этого слова в документе, т. е. как часто вы его используете. Но при этом необходимо сохранить смысл документа, иначе Яндекс может посчитать это слово спамом.
Rambler
Является лучшим рубрикатором на сегодняшний день. Удобен тем, что все ресурсы разбиты на разделы, подразделы и т. д. Многие из них участвуют в рейтинге Top100, что позволяет определить популярность того или иного ресурса.
Считается, что основополагающим фактором для продвижения сайта в Rambler является хороший контент и посещаемость, измеряемая с помощью установленного на сайте счетчика. Таким образом, высокие позиции в рейтинге может занимать сайт хорошо раскрученный, качественно и давно зарекомендовавший себя в интернете, с большой посещаемостью.
Рамблер как и Яндекс русскоязычный и сканирует сайты, находящиеся в следующих доменах первого уровня:
• .ru, .su, .ua, .by, .kz, .kg, .uz, .ge
Роботы рамблера при сканировании игнорируют поля <meta name="keywords"...> и все другие поля <meta...>, кроме <meta name="robots"...>. Это связано с тем, что поисковая система рамблер старается индексировать документ таким, какой он есть (то есть таким, каким его видит пользователь).
Достаточно удачная архитектура продукта позволяет "Рамблер" иметь для поисковика количество серверов в 2 раза меньшее, чем у "Яндекса".


