Лабораторная работа

Поисковые сервисы

Оборудование: компьютер с выходом в Интернет.

Цель: познакомиться с понятием и принципом работы поисковых сервисов, а так же с возможностями для поиска и фильтрации информации, которыми обладают поисковые сервисы.

Ход работы

Поисковые системы - это полностью автоматизированные интерактивные сервисные службы, осуществляющие поиск информации в Интернете по введенному пользователем текстовому запросу. Рассмотрим подробнее принцип действия поисковых машин.

Создав и разместив в сети Интернет какой-либо веб-сайт, разработчик регистрирует его адрес в поисковой системе, иными словами - вносит URL стартовой странички этого сайта в поле на поисковом сервере, предназначенное для регистрации новых поступлений.

Вслед за этим специальная программа поисковой машины, называемая роботом (от англ. spider - паук), просматривает данный документ, проходит по всем обнаруженным на нем гиперссылкам и вносит информацию об обнаруженных страницах в базу данных поисковой системы, которая носит название индекса. Этот процесс называется индексацией веб-страниц. Как правило, индекс поискового сервера содержит только адреса веб-страниц и краткую «аннотацию», поясняющую их содержимое, почерпнутую из текста индексируемых документов.

Спустя определенное время робот автоматически проводит переиндексацию, чтобы удалить из базы данных устаревшие и недействительные ссылки.

Пользователь, обращаясь к услугам поисковой машины, просто вводит в поле текстового запроса ключевые слова или некую ключевую фразу, характеризующую предмет его интересов, после чего нажимает кнопку Искать. По данной команде поисковый сервер передает управление другой программе, которая называется поисковым механизмом. Эта программа сравнивает введенные пользователем ключевые слова с содержимым индекса, выявляя возможные соответствия.

НЕ нашли? Не то? Что вы ищете?

1.  С чего начать простой поиск?

1.1.  Откройте страницу поисковой системы: в поле Адрес браузера введите http://*****

1.2.  В поле запроса введите Мария Семенова, нажмите Искать.

1.3.  На экране файл отчета, содержащий ссылки на web-страницы, соответствующие словосочетанию Мария Семенова. Формат ссылок в таком отчете следующий:

http://*****/istiki/uip/img/Yandex-1.png

·  1 - номер ссылки по порядку

·  Мария Семенова : Волкодав из рода Серых Псов … - ссылка на web-страницу

·  Мы рады представить вашему вниманию сайт, посвященный Марии Семёновой - описание сайта.

·  www. ***** · 34 КБ - адрес web-страницы

·  Рубрика: Фантастика и фэнтези - рубрика в каталоге Яндекса

·  Еще с сайта 685 - ссылка на другие страницы с этого сайта.

·  В верхней части отчета Яндекс показывает общее количество найденных страниц - 111578.

1.4.  Откройте найденную страницу: выберите Мария Семенова: Волкодав из рода Серых Псов: Валькирия: Викинги, МП, выберите Открыть в новой вкладке.

1.5.  Теперь по другому: выберите Сохраненная копия, МП, выберите Открыть в новой вкладке, откроется тот же документ, но с выделенными словами запроса.

1.6.  Выберите рубрика: Фантастика и фэнтези, нажмите МП, выберите Открыть в новой вкладке, откроется тематический каталог. Каталоги удобны тем, что содержат уже упорядоченную систему.

http://*****/istiki/uip/img/Yandex-2.png

Внизу страницы браузера отображаются количество страниц в файле отчета, перемещаться по которому можно нажимая цифры 1,2 и т. д. Еще ниже располагаются сведения о методе сортировки. По умолчанию результаты поиска сортируются по релевантности, то есть на первом месте стоит документ наиболее соответствующий запросу. Можно выбрать другой метод сортировки. В самом низу окна располагаются ссылки для повторения запроса в региональной базе данных, город можно выбрать из списка. Также имеется поиск в каталоге Яндекса.

2.  С чего начать сложный поиск?

Сложный поиск нужно начинать с определения ключевых слов. Нас интересует адрес фирмы, которая продала бы и смонтировала отопительный котел средней мощности, например фирмы Mora. Поскольку мы находимся в Магнитогорске, то нас интересует именно фирмы в Магнитогорске. Получаем следующие ключевые слова: Отопительный котел Mora, Магнитогорск. Заметьте, средней мощности мы не пишем, если точно не знаем. Если мы это укажем, то при строго заданном запросе поисковая система скорей всего не найдет ни одного сайта с таким содержанием, потому, что редко в прайс-листах используют такие заголовки. Ведь обычно прайс-листы содержат в. ZIP файлах, которые недоступны для поиска.

2.1.  Введите Отопительный котел Mora Магнитогорск, нажмите Искать.

Результат будет не самым эффективным. Почему? Потому что по умолчанию поисковик настроен на максимальные возможности поиска и без использования синтаксиса поисковая система выдаст все сайты, где находится хотя бы одно из указанных слов. Необходимо использовать возможности синтаксиса.

3.  Поиск по словам и словоформам

Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос идти то в результате поиска будут найдены ссылки на документы, содержащие слова идти, идет, шел, шла и т. д.

3.1.  В поле запроса Яндекса введите Медведев, нажмите Искать, найдены документы содержащие МедведевУ, МедведевА, Медведев и т. п.

Если вы набрали в запросе слово с большой буквы, будут найдены только слова с большой буквы (если это слово не первое в предложении). В противном случае будут найдены как слова с большой, так и с маленькой буквы.

По умолчанию поиск учитывает все формы заданного слова согласно правилам русского языка. Однако существует возможность поиска по точной словоформе, для этого перед словоформой надо поставить восклицательный знак '!'.

3.2.  В поле запроса Яндекса введите !Медведева, нажмите Искать, по такому запросу будут найдены все документы, содержащие словоформу Медведева.

4.  Логические операторы

Если вы хотите, чтобы слова из запроса обязательно были найдены, поставьте перед каждым из них +.

4.1.  В поисковой форме введите частные объявления продажа гараж нажмите Искать. Запрос выдаст много ссылок на сайты с разнообразными частными объявлениями.

4.2.  В поисковой форме введите частные объявления продажа +гараж нажмите Искать. Такой запрос покажет объявления о продаже именно гаража.

Если вы хотите исключить какие-либо слова из результата поиска, поставьте перед каждым из них -. Знак минус надо писать через пробел от предыдущего и слитно с последующим словом.

4.3.  В поисковой форме введите частные объявления продажа - гараж нажмите Искать. Результат: ссылки на документы о продаже, в которых нет слова гараж.

Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа. Тот же самый эффект произведет употребление символа &. Оператор «логическое И», обозначающийся знаком &, позволяет перечислять слова, которые должны встречаться в пределах одного предложения искомого документа.

Например, при запросах лечебная физкультура и лечебная & физкультура, результатом поиска будет список документов, в которых в одном предложении содержатся и слово лечебная, и слово физкультура. Эквивалентно запросу +лечебная +физкультура.

4.4.  В поисковой форме введите лечебная & физкультура нажмите Искать

Оператор логическое ИЛИ, обозначающийся символом |, позволяет искать документы, в тексте которых содержится только одно из перечисленных слов. Удобно при поиске синонимов.

4.5.  В поисковой форме введите фото | фотография | фотоснимок | снимок | фотоизображение нажмите Искать. Результат: документы, содержащие хотя бы одно из перечисленных слов.

Символ ~, как правило, описывает действие, аналогичное действию знака минус, то есть исключает из искомого документа отмеченные подобным образом слова.

4.6.  В поисковой форме введите банки ~ закон нажмите Искать. Будут найдены все документы, содержащие слово банки, рядом с которым (в пределах предложения) нет слова закон.

Удвоение какой-либо команды означает, что данное условие необходимо применять не к одному предложению, а ко всему документу в целом. Одинарный оператор (&, ~) ищет в пределах абзаца, двойной (&&, ~~) в пределах документа.

4.7.  В поисковой форме введите рецепты && (плавленый сыр) нажмите Искать. В результате будут найдены документы, в которых есть и слово рецепты и словосочетание «плавленый сыр», причем «плавленый сыр» должен быть в одном предложении.

4.8.  В поисковой форме введите Компьютеры ~~ цена нажмите Искать. Результат: документы со словом компьютеры, но без слова цена.

Логические операторы языка запросов можно комбинировать. Для этих целей служат символы открывающей и закрывающей скобки. Например, запрос музыка & (beatles | Rolling Stones) означает, что, пользователь ищет документы, содержащие либо слова музыка и beatles, либо слова музыка и Rolling Stones.

4.9.  В поисковой форме введите легковые & автомобили &&Mercedes ~~запчасти. То есть пользователю нужны документы, в которых встречаются слова легковые и автомобили в пределах одного предложения, слово Mercedes в пределах всего текста и ни разу не встречается слово запчасти.

5.  Операторы контекстной близости

Часто в запросах ищут устойчивые словосочетания. Если поставить их в кавычки, то будут найдены те документы, в которых эти слова идут строго подряд.

5.1.  В поисковой форме введите "красная шапочка" нажмите Искать. Будут найдены документы с это фразой. При этом словосочетание «а шапочка у нее была красная» найдено не будет.

Если между двумя словами поставлен знак /, за которым сразу напечатано число, значит, требуется, чтобы расстояние между ними не превышало этого числа слов.

Например, задав запрос поставщики /2 кофе, вы требуете найти документы, в которых содержатся и слово поставщики и слово кофе, причем расстояние между ними должно быть не более двух слов и они должны находиться в одном предложении. Найдутся страницы, которые содержат, например словосочетания «поставщики колумбийского кофе», «поставщики кофе из Колумбии» и т. д.

5.2.  В поисковой форме введите поставщики /2 кофе нажмите Искать.

Если порядок слов и расстояние точно известны, можно воспользоваться пунктуацией /+n. Так, например, задается поиск слов, стоящих подряд. Запрос синяя /+1 борода означает, что слово борода должно следовать непосредственно за словом синяя.

5.3.  В поисковой форме введите синяя /+1 борода нажмите Искать.

В общем виде ограничение по расстоянию задается при помощи пунктуации вида /(n m), где n минимальное, а m максимально допустимое расстояние. Отсюда следует, что запись /n эквивалентна /(-n +n), а запись /+n эквивалентна /(+n +n).

Запрос музыкальное /(-2 4) образование означает, что музыкальное должна находиться от образование в интервале расстояний от 2 слов слева до 4 слов справа.

5.4.  В поисковой форме введите музыкальное /образование нажмите Искать.

Практически все знаки можно комбинировать с ограничением расстояния. Например, результатом поиска по запросу вакансии ~ /+1 студентов будут документы, содержащие слово вакансии, причем в этих документах слово студентов не следует непосредственно за словом вакансии.

5.5.  В поисковой форме введите вакансии ~ /+1 студентов нажмите Искать.

Когда знаки ограничения по расстоянию стоят после двойных операторов, то употребленные там числа - это расстояние не в словах, а в предложениях. Расстояние в абзацах определяется аналогично расстоянию в словах.

5.6.  В поисковой форме введите банк && /1 налоги нажмите Искать. Это означает, что слово налоги должно находиться в том же самом, либо в соседнем со словом банк предложении.

Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки.

5.7.  В поисковой форме введите (история, технология, изготовление) /+1 (сыра, творога) нажмите Искать. Результат - документы, которые содержат любую из фраз история сыра, технология творога, изготовление сыра, история творога и т. д.

6.  Поиск по параметрам

Можно искать информацию в заголовках (Title), ссылках (Anchor) и адрес (Address). Синтаксис: $имя_зоны (поисковое выражение).

6.1.  Ищет в заголовках документов слово Сегодняшняя газета: в поисковой форме введите $title (Сегодняшняя газета) нажмите Искать.

6.2.  В поисковой форме введите $anchor (Сегодняшняя газета) нажмите Искать. Запрос находит документы, в cсылках внутри которых есть Сегодняшняя газета.

Можно ограничить поиск информации списком серверов или наоборот исключить сервера из поиска (url). Можно также искать документы, содержащие ссылки на определенные URL (link), и файлы картинок (image). Если вы хотите работать не с конкретным URL (image), а со всеми, начинающимися с данной последовательности символов, используйте *. Синтаксис: #имя_элемента="имя_файла (URL)".

6.3.  В поисковой форме введите (Сегодняшняя газета) ~~ #url="www. *" нажмите Искать. По запросу будут искаться упоминания Сегодняшняя газета везде, кроме ее собственного сервера www. .

6.4.  В поисковой форме введите #link="www. " нажмите Искать. Покажет все документы, которые сослались на сервер компании.

6.5.  В поисковой форме введите #image="tort*" нажмите Искать. Система выдаст ссылки на документы с изображениями тортов (хотя, возможно, найдется и портрет черепахи Тортиллы).

Можно также искать по ключевым словам (keywords), аннотациям (abstract) и подписям под изображениями (hint). Синтаксис: #имя_элемента=(поисковое выражение).