Московский Государственный Институт Электроники и Математики
(Технический Университет)
Курсовая работа
Тема
«Поисковые системы интернета»
Выполнил: Л
Группа с-35
Москва 2009
Введение
Всемирная сеть очень важна и полезна практически для любого! Каждый пользователь Интернета может найти в нем массу разнообразной и интереснейшей информации, а также использовать все богатейшие возможности сети. Для меня решающими обстоятельствами в выборе темы «поисковые системы интернета», для своей курсовой работы, стала во-первых достаточная известность мне этой темы, в силу частого посещения мной всемирной сети, а также актуальность темы на сегодняшний день. Ресурсы Интернета давно перестали быть просто игрушкой, превратившись в незаменимый инструмент для повседневной работы людей многих профессий. Быстрый рост информации в сети сделали его океаном разнообразнейших данных, важность которых растет пропорционально их объему. По оценке экспертов объем информации, передаваемой по каналам Интернет, удваивается каждые полгода. Ежедневно в сети появляются миллионы новых документов, и естественно, что без систем поиска они в подавляющем своем большинстве остались бы не востребованными, вообще не были бы не кем найдены, и все то огромное количество информации оказалось бы никому не нужным. Возникла необходимость создания таких средств, которые позволили бы легко ориентироваться в информационных ресурсах глобальных сетей, быстро и надежно находить нужные сведения. В интернете появились специальные поисковые средства. Еще несколько лет назад бытовало такое мнение: в Интернете есть все, но найти там ничего невозможно. Однако с появлением и быстрым развитием поисковых каталогов, поисковых машин, и всевозможных поисковых программ ситуация изменилась, и теперь в Сети срочно понадобившуюся информацию иногда можно найти быстрее, чем в книге, лежащей на столе. Наиболее популярным и используемым способом поиска в Интернете является использование поисковых систем. Что же такое поисковая система? Поисковая система – портал, осуществляющий поиск, сбор и сортировку информации в сети Интернет. Поисковые системы это инструмент, позволяющий пользователю глобальной сети в кратчайшие сроки найти интересующую его информацию. Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. Получая результат, пользователь оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?
Постановка задачи
1. Разобраться, как устроены поисковые системы интернета (в чем различие).
2. Как работают механизмы поиска (из чего состоят, алгоритм составления поискового запроса).
3. Найти наиболее быстрый способ поиска информации.
Как устроены поисковые системыКак системы
Большинство пользователей только в общих чертах представляют себе, как работает поисковая машина. Поэтому рассмотрим основы понятия и устройстсво поисковых систем (они же поисковые машины, или поисковики).
Главный элемент структуры современного интернета - это поисковые машины или поисковики. Разных поисковиков очень много, но среди них есть главные, наиболее известные и посещаемые. В мировом интернете сейчас доминирует (Google). В российском же, а точнее, в русскоязычном интернете (рунете) наиболее популярный поисковик - "Яндекс". В два раза по количеству поисковых запросов в сутки от Яндекса отстаёт Рамблер, потом следует "русский" Гугл, затем, совсем далеко от лидеров, следует Апорт.
Почему именно поисковики заняли в интернете самое важное место?
Потому что они упорядочивают хаос. Ведь сайты и их страницы "разбросаны" в интернете без какого-либо порядка, без первой или последней страницы, без способа перехода к следующей странице. Читать весь интернет подряд - невозможно.
Поиск информации и поисковые машины
За века, прошедшие со времени изобретения книг, человечество придумало только три основных способа поиска информации в большом количестве страниц. И каждый из нас встречался с ними ещё до своего первого выхода в интернет. В интернете используются эти же способы для поиска нужной страницы, просто они автоматизированы и выполняются специальными программами. Эти способы - оглавление, ссылки и предметный указатель.
Ссылки
Второй привычный нам способ поиска - это ссылки в тексте на нужные страницы книги. Чтобы найти нужный текст, читатель книги должен открыть указанную страницу и найти в её тексте интересующий фрагмент.
В интернете идею отсылок читателя со страницы на страницу превратили в автоматические ссылки на страницы, на которых пользователь просто щёлкает кнопкой мыши. Ссылки в интернете называется гипертекстовыми ссылками ("гипер" - потому, что ссылка уводит за пределы текста, на другую страницу).
Ссылки - это основной, "корневой" принцип интернета, а ведь, по сути, это старая идея, просто автоматизированная текстовая ссылка.
Ссылки в каталогах и на обычных сайтах чаще всего расставляются вручную - веб-мастер размечает специальными пометками фрагмент текста и присоединяет к нему адрес соответствующей страницы. Конечно, часто ссылки расставляются и автоматически при формировании веб-страницы.
Как работают поисковые машины
Поисковая машина - это программа, которая составляет и хранит предметный указатель интернета, а также и находит в нём заданные ключевые слова. Для этого программа составляет так называемый "индекс". Вот из каких этапов состоит процесс составления индекса и поиска по нему.
Сбор адресов страниц в интернете
Чтобы составить индекс по страницам, сначала нужно решить, какие страницы нам нужны. Таким образом, нужно сначала составить список страниц - набор адресов тех страниц, по которым будет составляться индекс.
Поскольку сайты и их страницы беспорядочно разбросаны в интернете, поисковой машине нужно с чего-то начать. Обычно разработчики поисковой машины загружают в неё какой-то начальный список адресов страниц сайтов (взяв его, например, из какого-нибудь каталога). Затем поисковая машина (её составная часть - так называемый "поисковой робот") собирает все гипертекстовые ссылки с каждой из заданных страниц на другие страницы и добавляет все найденные в ссылках адреса к своему первоначальному набору адресов.
Таким образом внимание на тот очевидный факт, что малоизвестные страницы, на которые никто не ссылается, имеют очень мало шансов автоматически попасть в индекс поисковой машины! Дело в том, что вручную разработчики поисковика не смогут добавить их в начальный список адресов (из-за того, что они мало известны), а по ссылкам поисковому роботу до них добраться трудно - из-за малого количества этих ссылок. Возможно, поисковой робот и доберётся до них когда-нибудь, но далеко не в первую очередь. А страница, на которую нет вообще ни одной ссылки, "своим ходом" не попадёт в индекс поисковика никогда, если не предпринимать специальных усилий. Конечно, владелец сайта может сам добавить новый адрес страницы в индекс поисковика вручную, используя средства регистрации новых веб-страниц, которые есть во всех поисковых машинах.
Поведение роботов поисковых систем на сайте
Чем отличается поведение роботов поисковых систем от поведения обычного пользователя?
1. Управляемость. Прежде всего "интеллигентный" робот должен запросить с сервера файл robots. txt с инструкциями по индексации.
2. Выборочное выкачивание. При запросе документа работ чётко указывает типы запрашиваемых данных, в отличие от обычного браузера, готового принимать всё подряд. Основные работы популярных поисковиков в первую очередь будут запрашивать гипертекстовые и обычные текстовые документы, оставляя без внимания файлы стилей оформления CSS, изображения, видео, ZIP-архивы и т. п. В настоящее время также востребована информация в форматах PDF, Rich Text, MS Word, MS Excel и некоторые другие.
3. Непредсказуемость. Невозможно отследить или предсказать путь робота по сайту, поскольку он не оставляет информации в поле Refer - адрес страницы, откуда он пришёл; робот просто запрашивает список документов, казалось бы, в случайном порядке, а не в самом деле в соответствии со своими внутренним списком или очередью индексации.
4. Скорость. Небольшое время между запросами разных документов. Здесь речь идёт о секундах или долях секунды между запросами двух разных документов. Для некоторых роботов есть даже специальные инструкции, которые указывают в файле robots. txt, по ограничению скорости запроса документов, чтобы не перегрузить сайт. Как может выглядеть HTML-страница в глазах робота, мы не знаем, но можем попытаться себе это представить, отключая в браузере отображение графики и стилевого оформления. Таким образом, можно сделать вывод, что поисковые роботы закачивают в свой индекс HTML-структуру страницы, но без элементов оформления и без картинок.
Управление роботами
Как же веб-мастер может управлять поведением поисковых роботов на своём сайте? Не существует инстранций, куда можно пожаловаться на робота, на соблюдающего правила исключений, можно лишь запретить доступ к сайту уже с помощью настроекк веб-сервера или сетевых интерфейсов для IP-адресов, с которых "интеллигентный" робот отсылал свои запросы. Однако роботы крупных поисковых систем соблюдают правила исключений, более того, вносят в них свои расширения. Управлять посещениями поисковых роботов можно и косвенно, например робот поисковой системы Гугл чаще будет повторно забирать те документы, на которые много ссылаются других сайтов.
Выводы
Роботы - необходимая и очень важная составная часть поисковых систем. Если представить поисковую систему как "чёрный ящик", где выдача результатов поиска - это "выход" системы, то поисковые робты - это "вход", на который поступают документы. Если грамотно подавать свои страницы на этот "вход", управляя поведением поискового робота, можно добиться лучших результатов индексации - переодичности, полноты и лучшего ранжирования.
Поиск информации в Интернете
Сеть Интернет растет очень быстрыми темпами, поэтому найти нужную информацию среди сотен миллиардов Web-страниц и сотен миллионов файлов становится все сложнее. Для поиска информации используются специальные поисковые системы, которые содержат постоянно обновляемую информацию о местонахождении Web-страниц и файлов на сотнях миллионов серверов Интернета.
Поисковые системы содержат тематически сгруппированную информацию об информационных ресурсах Всемирной паутины в базах данных. Специальные программы-роботы периодически "обходят" Web-серверы Интернета, читают все встречающиеся документы, выделяют в них ключевые слова и заносят в базу данных Интернет-адреса документов.
Большинство поисковых систем разрешают автору Web-сайта самому внести информацию в базу данных, заполнив регистрационную анкету. В процессе заполнения анкеты разработчик сайта вносит адрес сайта, его название, краткое описание содержания сайта, а также ключевые слова, по которым легче всего будет найти сайт.
Поиск по ключевым словам. Поиск документа в базе данных поисковой системы осуществляется с помощью введения запросов в поле поиска.
Запрос должен содержать одно или несколько ключевых слов, которые являются главными для этого документа. Например, для поиска самих систем поиска в Интернете можно в поле поиска ввести ключевые слова "российская система поиска информации Интернет" .
|
Поиск по ключевым словам в системе Google |
Через некоторое время после отправки запроса поисковая система вернет список Интернет-адресов документов, в которых были найдены заданные ключевые слова. Для просмотра этого документа в браузере достаточно активизировать указывающую на него ссылку.
|
Результат поиска по ключевым словам |
Если ключевые слова были выбраны неудачно, то список адресов документов может быть слишком большим (может содержать десятки и даже сотни тысяч ссылок). Для того чтобы уменьшить список, можно в поле поиска ввести дополнительные ключевые слова или воспользоваться каталогом поисковой системы.
Одной из наиболее полных и мощных поисковых систем является Google (www. google. ru), в базе данных которой хранятся 8 миллиардов Web-страниц и каждый месяц программы-роботы заносят в нее 5 миллионов новых страниц. В Рунете (российской части Интернета) обширные базы данных, содержащие по 200 миллионов документов, имеют поисковые системы Яndех (www. yandex. ru) и Rambler (www. rambler. ru).
Поиск в иерархической системе каталогов. В базе данных поисковой системы Web-сайты группируются в иерархические тематические каталоги, которые являются аналогами тематического каталога в библиотеке.
Тематические разделы верхнего уровня, например: Интернет, Компьютеры, Наука и образование и т. д., содержат вложенные каталоги. Например, каталог Интернет может содержать подкаталоги Поиск, Почта и др.
|
Тематические каталоги поисковой системы Апорт |
Поиск информации в каталоге сводится к выбору определенного каталога, после чего пользователю будет представлен список ссылок на Интернет-адреса наиболее посещаемых и содержательных Web-сайтов. Каждая ссылка обычно аннотирована, т. е. содержит короткий комментарий к содержанию документа.
Наиболее полный многоуровневый иерархический тематический каталог русскоязычных Интернет-ресурсов имеет поисковая система Апорт (www. aport. ru). Каталог содержит подробную аннотацию содержания Web-сайтов и указание на их географическое положение.
Поиск файлов. Для поиска файлов на серверах файловых архивов существуют специализированные поисковые системы, в том числе поисковая система FileSearch (www. filesearch. ru). Для поиска файла необходимо ввести имя файла в поле поиска, и поисковая система выдаст Интернет-адреса серверов файловых архивов, на которых хранится файл с заданным именем.
Поиск информации в русскоязычной части Интернета с помощью наиболее поисковых систем: Google, Rambler, Апорт, Яндекс и файловой поисковой системы Research можно производить с использованием интегрированной поисковой системы Gogle. ru (рис. 6.24). Для этого достаточно ввести ключевые слова в строку поиска, с помощью переключателей установить тип необходимой информации и щелкнуть по кнопке с названием поисковой системы Gogle. ru. Для этого достаточно ввести ключевые слова в строку поиска, с помощью переключателей установить тип необходимой информации и щелкнуть по кнопке с названием поисковой системы.
|
Интегрированная поисковая система Gogle. ru |
Способы поиска в Интернете
Три способа поиска в Интернете
Интернет в целом и Всемирная паутина, в частности, предоставляют абоненту доступ к тысячам серверов и миллионам Web-страниц, на которых хранится невообразимый объем информации. Как не потеряться в этом "информационном океане"? Для этого необходимо научиться искать и находить нужную информацию в сети.
Как уже было сказано, существуют три основных способа поиска информации в Интернете.
1. Указание адреса страницы. Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа.
2. Передвижение по гиперссылкам. Это наименее удобный способ, так как с его помошыо можно искать документы, только близкие по смыслу текущему документу. Если текущий документ посвящен, например, музыке, то, используя гиперссылки этого документа, вряд ли можно будет попасть на сайт, посвященный спорту.
3. Обращение к поисковому серверу (поисковой системе). Использование поисковых серверов - наиболее удобный способ поиска информации. В настоящее время в русскоязычной части Интернета популярны следующие поисковые серверы:
Yandex;
Rambler;
Апорт.
Существуют и другие поисковые системы. Например, эффективная система поиска реализована на сервере почтовой службы mail. ru.
Поисковые серверы
Наиболее доступным и удобным способом поиска информации во Всемирной паутине является использование поисковых систем. При этом поиск информации можно осуществлять по каталогам, а также по набору ключевых слов, характеризующих отыскиваемый текстовый документ.
Рассмотрим использование поисковых серверов более подробно. Поисковый сервер содержит большое количество ссылок на самые различные документы, и все эти ссылки систематизированы в тематические каталоги. Например: спорт, кино, автомобили, игры, наука и др. Причем эти ссылки устанавливаются сервером самостоятельно, в автоматическом режиме путем регулярного просмотра всех появляющихся во Всемирной паутине Web-страниц. Кроме того, поисковые серверы предоставляют пользователю возможность поиска информации по ключевым словам. После ввода ключевых слов поисковый сервер начинает просматривать документы на других Web-серверах и выводить на экран ссылки на те документы, в которых встретились указанные слова. Обычно результаты поиска сортируются по убыванию специального рейтинга документов, который показывает, насколько полно заданный документ отвечает условиям поиска или насколько часто он запрашивается в сети.
Язык запросов поисковой системы
Группа ключевых слов, сформированная по определенным правилам - с помощью языка запросов, называется запросом к поисковому серверу. Языки запросов к разным поисковым серверам очень похожи. Подробнее об этом можно узнать, посетив раздел "Помощь" нужного поискового сервера. Рассмотрим правила формирования запросов на примере поисковой системы Яndex.
Синтаксис оператора | Что означает оператор | Пример запроса |
пробел или & | Логическое И (в пределах предложения) | лечебная физкультура |
&& | Логическое И (в пределах документа) | рецепты && (плавленый сыр) |
| | Логическое ИЛИ | фото | фотография | снимок | фотоизображение |
+ | Обязательное наличие слова в найденном документе | +быть или +не быть |
( ) | Группирование слов | (технология | изготовление) (сыра | творога) |
~ | Бинарный оператор И НЕ (в пределах предложения) | банки ~ закон |
~~ | Бинарный оператор И НЕ (в пределах документа) | путеводитель по Парижу ~~ (агентство | тур) |
/(n m) | Расстояние в словах (минус (-) - назад, плюс (+) - вперед) | поставщики /2 кофе музыкальное /образование вакансии ~ /+1 студентов |
" " | Поиск фразы | "красная шапочка" Эквивалентно: красная /+1 шапочка |
&&/(n m) | Расстояние в предложениях (минус (-) - назад, плюс (+) - вперед) | банк && /1 налоги |
Чтобы получить лучшие результаты поиска, необходимо запомнить несколько простых правил:
1. Не искать информацию только по одному ключевому слову.
2. Лучше не вводить ключевые слова с прописной буквы, так как это может привести к тому, что не будут найдены те же слова, написанные со строчной буквы.
3. Если в итоге поиска вы не получили никаких результатов, проверьте, нет ли в ключевых словах орфографических ошибок.
Современные поисковые системы предоставляют возможность подключения к сформированному запросу семантического анализатора. С его помощью можно, введя какое-либо слово, выбрать документы, в которых встречаются производные от этого слова в различных падежах, временах и пр.
Заключение
По итогам сделанной мной работы я могу заключить что; поисковые системы уже давно стали неотъемлемой частью Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.
По моему мнению, самой лучшей иностранной поисковой системой является Google, так как для меня основное значение имеет точность и полнота предоставляемых данных. Но можно заключить также что, каждая поисковая система будь то Российская или зарубежная предоставляет различные возможности поиска, из различных баз данных, поэтому сказать точно какой именно лучше пользоваться было бы не правильно. Поэтому для удобства поиска и полноты информации следует пользоваться несколькими поисковиками вводя в них нужные запросы. По моему мнению, из многих Российских поисковиков выделяются Яндекс и Рамблер, для них характерно постоянное обновление баз данных что, обеспечивает именно актуальность и точность предоставляемой информации.






