Министерство образования Российской Федерации

Государственное образовательное учреждение

высшего профессионального образования

«Самарский Государственный Технический Университет»

Кафедра электротехнического и инженерно – педагогического образования

,

Эт методичка лоха

Методические указания к лабораторным работам по курсу

«Телекоммуникации и сети»

Самара 2004 г.

УДК 681.3.06

Телекоммуникации и сети:/, .

Самар. гос. техн. ун-т. Самара, 20с.

Методические указания к лабораторным работам по курсу «Телекоммуникации и сети» рассматривают вопросы работы в глобальной сети Интернет.

Рекомендуется для студентов, изучающих информационные технологии студентам специальность 5404 «Профессиональное обучение», а также аспирантам и преподавателям работающим и осваивающим системы автоматизированного поиска информации в глобальной сети.

Табл.8 Илл. 52. Библиограф.: 4 назв.

Печатается по решению редакционно-издательского совета Самарского государственного технического университета.

ISBN -5

© ,

© Самарский государственный технический университет 2004г.

1. Информационно-поисковые системы.

Информационно-поисковые системы (ИПС) – это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации – текстов (документов) или данных (фактов). Информационно-поисковыми системами являются любые определенным образом организованные хранилища информации. Причем, информационно-поисковые системы могут быть и неавтоматизированными. Главное - это целевая функция: хранение и поиск информации.

НЕ нашли? Не то? Что вы ищете?

В зависимости от объекта хранения и типа запроса различают три вида информационного поиска: документальный, фактографический и информационно-логический.

Документальными называются ИПС, в которых реализуется поиск по запросам в массиве документов или текстов с последующим представлением пользователю подмножества всех документов (текстов), которые удовлетворяют его запросу. На запрос: скорость света - будут выданы все документы, в которых имеется словосочетание «скорость света».

Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научные, технические, экономические и т. д.) и на запрос: скорость света - будет выдано численное значение скорости (кМ/Сек.).

Таким образом, документальные и фактографические ИПС отличаются степенью предварительной интеллектуальной обработки материала.

В информационно-логических ИПС возможен ответа на запросы, для которых в базах данных нет ответа в явном виде. Для этого используется экстралингвистическая база знаний, порождающая ответ на запрос алгоритмическим образом из имеющейся информации. Ответ может использоваться непосредственно, либо для дальнейшего поиска. Системы такого типа разрабатываются давно, но практического успеха пока не имеют.

2. Типы информационно поисковых систем.

Рассмотрим классификацию информационно поисковых систем по их внутренним характеристикам и свойствам:

1.  По степени автоматизации информационных процессов:

1.1.  Ручные;

1.2.  Механизированные;

1.3.  Автоматизированные;

2.  По типу данных:

2.1.  Документальные;

2.2.  Фактографические;

2.3.  Информационно логические;

3.  По типу языка:

3.1.  Классификационные;

3.2.  Дескрипторные;

3.3.  Вербальные;

4.  По типу критерия смыслового содержания (критерий выдачи):

4.1.  С количественными критериями (в основе лежат арифметические, алгебраические, статистические функции, определяющие соответствие ПОЗ и ПОД);

4.2.  С логическими критериями (применяется аппарат булевой алгебры в процессе поиска).

5.  По режиму работы:

5.1.  Ретроспективные (выдают ответ исходя из всей информации находящейся в базе информации);

5.2.  Избирательное распространение информации (выдают информацию только по новым поступлениям или по поступлениям за определенный срок).

6.  По способу хранения первичных документов:

6.1.  Двухконтурный (документы хранятся как в машине, так и на различного рода материальных неэлектронных носителях);

6.2.  Одноконтурный (документы хранятся в машине в виде поисковых образов ПОД).

Как правило, на практике мы встречаемся с комбинацией этих признаков, например сводный каталог электронных библиотек, справочники телефонов «Вся Самара и Самарская область».

3.  Индексирование.

Индексирование одно из важнейших понятий информационного поиска. Процесс выбора и присвоения документам и запросам или их частям индексов – лексических единиц ИПЯ - называется индексированием. В соответствии со стандартами (Гост 14.407-75, 14.409 «Требования к ИПЯ, требования к ИПС технологического назначения») под индексированием понимают процесс описания их смыслового содержания средствами ИПЯ с целью обеспечения высоких показателей их поиска. Процесс индексирования, т. е. выбор дескрипторов для включения в ПОД и ПОЗ, определяется специальными инструкциями, называемыми методиками индексирования. Процесс индексирования в отечественных разработках базируется на разработках ВИНИТИ (Всесоюзный институт научной и технической информации) в соответствии, с которыми процесс индексирования включает в себя шесть основных операций:

1.  Анализ содержания документа и выбор из текста номинативных лексических единиц, существенных с точки зрения его содержания;

2.  Формирование перечня ключевых слов, используемых в процессе свободного координатного индексирования;

3.  Нормализация ключевых слов по форме и содержанию при помощи словарей ипя, используемых при контролируемом индексировании;

4.  Избыточное индексирование – введение в под дополнительных лексических единиц, связанных по смыслу с исходными ключевыми словами и выбираемых из словаря ИПЯ;

5.  Введение в под грамматических средств (указателей роли и связи);

6.  Заполнение рабочего листа предмашинного формуляра под или его ввод в компьютер.

Практически с самого начала развития информационно поисковых систем предпринимались попытки автоматизации процедур индексирования. В этой области накоплен достаточно большой теоретический и практический опыт. Существуют и практически работают системы (Скобки, Yandex, АИДОС, CAS).

4. Информационный поиск в Internet.

Интернет – это огромная компьютерная сеть (в дальнейшем Сеть), состоящая из тысяч меньших сетей, разбросанных по всему миру. Интернет возник из ARPANET сети Министерства обороны США.

Для размещения информации до конца 1980–х годов использовался (используется) сервис, получивший название FTP по имени механизма обмена информацией (протокол FTP). В настоящее время FTP – архивы превратились в огромные многопрофильные хранилища данных.

Значительное влияние на развитие сети оказали протоколы транспортного и межсетевого обмена TCP (Transfer Control Protocol) и IP (Internet Protocol).

Важной вехой в распространении информации в сети стало рождении системы телеконференций Usenet (зародилась из электронной доски объявлений и обзавелась собственным протоколом NNTP - News Network Transfer Protocol). В настоящее время это огромная электронная система оперативных сообщений, разделенная на части по интересам ее пользователей. Каждая группа новостей имеет свое название с иерархической структурой, например:

1.  Наука (sci),

2.  Группа новостей посвященных биологии (sci.biology) и т. д.

Другим важным средством обмена информацией в Интернет является электронная почта. С появлением стандарта MIME электронная почта получила возможность посылать не только простые текстовые сообщения, но и текст с вложениями от программных, до аудио, видео и графических файлов.

До появления компьютерных сетей существовали информационные системы и центры (SNT International, ВИНИТИ, ВНТИЦ, ВНИИГПЭ) накапливающие научную, техническую, юридическую информацию. Эти ресурсы стали доступны в Интернет после появления механизма доступа Telnet (удаленный терминал).

Основные протоколы, используемые в Интернет, не обеспечены достаточными встроенными функциями поиска, не говоря уже о миллионах серверах, находящихся в ней. Протоколы HTTP и более простой FTP, используемые в Интернет, хороши лишь в отношении навигации, которая рассматривается как средство просмотра страниц, но не их поиска. Из-за быстрого роста информации, доступной в Сети, навигационные методы просмотра достигли предела эффективности и функциональных возможностей.

Нужную информацию невозможно получить сразу, так как в Сети сейчас находятся миллиарды документов, их количество возрастает согласно экспоненциальной зависимости. Количество изменений (преобразований, кодировок, индексаций), которым эта информация подвергается при хранении в Сети, огромно и, самое главное, они происходят за очень короткий промежуток времени.

Основная проблема заключается в том, что единой, полной функциональной системы обновления и занесения подобного объема информации с обеспечением одновременного доступа всех пользователей Интернет, никогда не было. Для обеспечения пользователей удобными средствами поиска были созданы информационные поисковые системы, структурирующие накопленную в сети Интернет информацию.

5. Поисковые системы, механизмы поиска.

Поисковые системы обычно содержат три компонента:

1. Агент (паук или кроулер или робот), который перемещается по сети Интернет и собирает информацию;

2. Поисковая база данных, которая содержит всю информацию, собираемую пауками;

3.  Поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Средства поиска и структурирования информации в Сети, называют поисковыми механизмами.

Эти специальные программы занимаются поиском Веб-сайтов и страниц в Сети, извлекают гипертекстовые ссылки, автоматически индексируют их и используют для построения базы данных.

Веб-сайты – все информационные ресурсы Интернет, просмотр которых обеспечивается программами.

Агент (разновидности - Паук, Кроулер, Робот) – система, обеспечивающая сканирование Интернет и поддержание инвертированного файла в актуальном состоянии. Этот программный комплекс является основным источником информации о состоянии ресурсов сети. Для обхода веб-сайтов используется теория графов. Обход дерева графов осуществляется тремя способами:

1.  Случайный выбор URL – адреса;

2.  Обход с наиболее популярных веб-узлов;

3.  На основе системы имен или кодов стран (в этом случае выделяется дополнительная программа робот).

Поисковая база данных – специальным образом организованная база (индекс), включающая инвертированный файл, состоящий из лексических единиц проиндексированных веб-документов, лексем, определяющих их позицию в документах и на сайте в целом.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных.
 

Подпись:Для определения порядка, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако, основные принципы определения релевантности следующие:

1.  Количество слов запроса в текстовом содержимом документа (т. е. в html-коде).

2.  Тэги, в которых эти слова располагаются.

3.  Местоположение искомых слов в документе.

4.  Удельный вес слов, относительно которых определяется релевантность, в общем, количестве слов документа.

5.  Эти принципы применяются всеми поисковыми системами.

6.  Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Существует много сайтов, живущих максимум месяц. Если сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.

7.  Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его пользователю, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки на первые предложениями, содержащимися в документе или заголовок документа вместе со ссылкой. При заполнении базы данных сотрудники базы могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они помещают свою информацию. Эти данные передаются базе данных.

Поисковая система – подсистема поиска, обрабатывающая поисковые предписания пользователя, поиск в базе и выдачу результатов поиска;

Клиент – программа просмотра информационных ресурсов (Opera, Netscape Navigator, Internet Explorer);

Пользовательские интерфейсы – экранные формы общения пользователя с поисковым аппаратом.

Каждый поисковый механизм имеет собственный набор правил сбора документов. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Другие игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют ссылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать, прежде всего, наиболее популярные страницы.

5.1. Агенты и кроулеры, роботы.

Агенты - самые "интеллектуальные" из поисковых средств, кроме собственно функций поиска они могут:

1.  Выполнять транзакции от Вашего имени;

2.  Искать cайты специфической тематики и возвращать списки cайтов, отсортированных по индексу цитируемости или посещаемости;

3.  Обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы;

4.  Программироваться для извлечения информации из уже существующих баз данных.

Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Агенты извлекают и индексируют различные виды информации. Индексация может осуществляться различными способами:

1.  Индексирование отдельных слов во встречающемся документе;

2.  Индексирование только наиболее важных 100 слов в каждом;

3.  Индексирование размера документа и число слов в нем;

4.  Индексирование названия, заголовка и подзаголовка.

Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Пауки – это программы, осуществляющие общий поиск информации в Сети. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию, просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры - это программы просматривающие заголовки и возвращающие только первую ссылку.

Роботы могут программироваться так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Роботы могут использоваться для выполнения множества полезных задач, таких как статистический анализ, обслуживание гипертекстов, исследования ресурсов или зазеркаливания страниц.

Зазеркаливание - популярный механизм поддержания FTP архивов. Зеркало рекурсивно копирует полное дерево каталогов по FTP, и затем регулярно перезапрашивает те документы, которые изменились. Это позволяет распределить загрузку между несколькими серверами, успешно справиться с отказами сервера и обеспечить более быстрый и более дешевый локальный доступ, так же как и автономный доступ к архивам.
 

Лабораторная работа № 1

Обзор и анализ информационно поисковой системы Yandex.

(4 часа)

1.  Описать информационную потребность, относящуюся к электротехнической тематике или тематике учебного процесса в ВУЗе.

2.  Сформулировать поисковые запросы (не менее 3х).

3.  Привести описание интерфейса поисковой системы, ее типа (классификационная, вербальная, смешанная). Для смешанных определить преимущественное значение типов поиска.

4.  Определить тип доступных документов (текст, FTTP архивы, видео и т. д.).

5.  Привести описание и анализ результатов выполнения поисковых запросов.

6.  Определить глубину поиска;

7.  Ввести ограничения на условия поиска (по месту, дате, стране и т. д. не менее 3х).

8.  Представить и проанализировать результаты поиска.

9.  Ввести логические функции при проведении поиска (в тех системах, где эти функции существуют).

10.  Представить и проанализировать результаты поиска.

11.  Привести сравнительную оценку результатов поиска с информационной потребностью.

Подготовить подробный отчет о проделанной работе с пояснением выбранных опций и настроек (Отчет сопровождается включение экранных диалоговых окон Print Screen Æ Paint Æ Save as file…Æ Word Æ Вставка рисунок Æ из файла).

Лабораторная работа № 2

Обзор и анализ информационно поисковой системы Rambler.

(4 часа)

1.  Описать информационную потребность, относящуюся к электротехнической тематике или тематике учебного процесса в ВУЗе..

2.  Сформулировать поисковые запросы (не менее 3х).

3.  Привести описание интерфейса поисковой системы, ее типа (классификационная, вербальная, смешанная). Для смешанных определить преимущественное значение типов поиска.

4.  Определить тип доступных документов (текст, FTTP архивы, видео и т. д.).

5.  Привести описание и анализ результатов выполнения поисковых запросов.

6.  Определить глубину поиска;

7.  Ввести ограничения на условия поиска (по месту, дате, стране и т. д. не менее 3х).

8.  Представить и проанализировать результаты поиска.

9.  Ввести логические функции при проведении поиска (в тех системах, где эти функции существуют).

10.  Представить и проанализировать результаты поиска.

11.  Привести сравнительную оценку результатов поиска с информационной потребностью.

Подготовить подробный отчет о проделанной работе с пояснением выбранных опций и настроек (Отчет сопровождается включение экранных диалоговых окон Print Screen Æ Paint Æ Save as file…Æ Word Æ Вставка рисунок Æ из файла).

Лабораторная работа № 3

Обзор и анализ информационно поисковой системы Yahoo!

(4 часа)

1.  Описать информационную потребность, относящуюся к электротехнической тематике или тематике учебного процесса в ВУЗе..

2.  Сформулировать поисковые запросы (не менее 3х).

3.  Привести описание интерфейса поисковой системы, ее типа (классификационная, вербальная, смешанная). Для смешанных определить преимущественное значение типов поиска.

4.  Определить тип доступных документов (текст, FTTP архивы, видео и т. д.).

5.  Привести описание и анализ результатов выполнения поисковых запросов.

6.  Определить глубину поиска;

7.  Ввести ограничения на условия поиска (по месту, дате, стране и т. д. не менее 3х).

8.  Представить и проанализировать результаты поиска.

9.  Ввести логические функции при проведении поиска (в тех системах, где эти функции существуют).

10.  Представить и проанализировать результаты поиска.

11.  Привести сравнительную оценку результатов поиска с информационной потребностью.

Подготовить подробный отчет о проделанной работе с пояснением выбранных опций и настроек (Отчет сопровождается включение экранных диалоговых окон Print Screen Æ Paint Æ Save as file…Æ Word Æ Вставка рисунок Æ из файла).

Лабораторная работа № 4

Обзор и анализ информационно поисковой системы Апорт.

(4 часа)

1.  Описать информационную потребность, относящуюся к электротехнической тематике или тематике учебного процесса в ВУЗе..

2.  Сформулировать поисковые запросы (не менее 3х).

3.  Привести описание интерфейса поисковой системы, ее типа (классификационная, вербальная, смешанная). Для смешанных определить преимущественное значение типов поиска.

4.  Определить тип доступных документов (текст, FTTP архивы, видео и т. д.).

5.  Привести описание и анализ результатов выполнения поисковых запросов.

6.  Определить глубину поиска;

7.  Ввести ограничения на условия поиска (по месту, дате, стране и т. д. не менее 3х).

8.  Представить и проанализировать результаты поиска.

9.  Ввести логические функции при проведении поиска (в тех системах, где эти функции существуют).

10.  Представить и проанализировать результаты поиска.

11.  Привести сравнительную оценку результатов поиска с информационной потребностью.

Подготовить подробный отчет о проделанной работе с пояснением выбранных опций и настроек (Отчет сопровождается включение экранных диалоговых окон Print Screen Æ Paint Æ Save as file…Æ Word Æ Вставка рисунок Æ из файла).

Лабораторная работа № 5

1.  Обзор и анализ информационно поисковой системы Google

(4 часа)

1.  Описать информационную потребность, относящуюся к электротехнической тематике или тематике учебного процесса в ВУЗе..

2.  Сформулировать поисковые запросы (не менее 3х).

3.  Привести описание интерфейса поисковой системы, ее типа (классификационная, вербальная, смешанная). Для смешанных определить преимущественное значение типов поиска.

4.  Определить тип доступных документов (текст, FTTP архивы, видео и т. д.).

5.  Привести описание и анализ результатов выполнения поисковых запросов.

6.  Определить глубину поиска;

7.  Ввести ограничения на условия поиска (по месту, дате, стране и т. д. не менее 3х).

8.  Представить и проанализировать результаты поиска.

9.  Ввести логические функции при проведении поиска (в тех системах, где эти функции существуют).

10.  Представить и проанализировать результаты поиска.

11.  Привести сравнительную оценку результатов поиска с информационной потребностью.

Подготовить подробный отчет о проделанной работе с пояснением выбранных опций и настроек (Отчет сопровождается включение экранных диалоговых окон Print Screen Æ Paint Æ Save as file…Æ Word Æ Вставка рисунок Æ из файла).

Лабораторная работа № 6

Обзор и анализ информационно поисковой системы Refer.ru.

(4 часа)

1.  Описать информационную потребность, относящуюся к электротехнической тематике или тематике учебного процесса в ВУЗе..

2.  Сформулировать поисковые запросы (не менее 3х).

3.  Привести описание интерфейса поисковой системы, ее типа (классификационная, вербальная, смешанная). Для смешанных определить преимущественное значение типов поиска.

4.  Определить тип доступных документов (текст, FTTP архивы, видео и т. д.).

5.  Привести описание и анализ результатов выполнения поисковых запросов.

6.  Определить глубину поиска;

7.  Ввести ограничения на условия поиска (по месту, дате, стране и т. д. не менее 3х).

8.  Представить и проанализировать результаты поиска.

9.  Ввести логические функции при проведении поиска (в тех системах, где эти функции существуют).

10.  Представить и проанализировать результаты поиска.

11.  Привести сравнительную оценку результатов поиска с информационной потребностью.

Подготовить подробный отчет о проделанной работе с пояснением выбранных опций и настроек (Отчет сопровождается включение экранных диалоговых окон Print Screen Æ Paint Æ Save as file…Æ Word Æ Вставка рисунок Æ из файла).

Эт методичка лоха

Лабораторная работа № 7

Обзор и анализ информационно поисковой системы Mail.ru.

(4 часа)

1.  Описать информационную потребность, относящуюся к электротехнической тематике или тематике учебного процесса в ВУЗе..

2.  Сформулировать поисковые запросы (не менее 3х).

3.  Привести описание интерфейса поисковой системы, ее типа (классификационная, вербальная, смешанная). Для смешанных определить преимущественное значение типов поиска.

4.  Определить тип доступных документов (текст, FTTP архивы, видео и т. д.).

5.  Привести описание и анализ результатов выполнения поисковых запросов.

6.  Определить глубину поиска;

7.  Ввести ограничения на условия поиска (по месту, дате, стране и т. д. не менее 3х).

8.  Представить и проанализировать результаты поиска.

9.  Ввести логические функции при проведении поиска (в тех системах, где эти функции существуют).

10.  Представить и проанализировать результаты поиска.

11.  Привести сравнительную оценку результатов поиска с информационной потребностью.

Подготовить подробный отчет о проделанной работе с пояснением выбранных опций и настроек (Отчет сопровождается включение экранных диалоговых окон Print Screen Æ Paint Æ Save as file…Æ Word Æ Вставка рисунок Æ из файла).

В качестве примера оформления лабораторной работы рассмотрим “Обзор и анализ информационно-поисковой системы Yandex”

1.  В качестве информационной потребности данной работы выступает поиск лекций по экономической теории.

2.  В Интернет обращаются за определенной информацией. Чтобы открыть нужную Web-страницу, надо иметь либо ее адрес, либо другую страницу со ссылкой на нее. Если нет ни того ни другого, обращаются к поисковым системам. Поисковая система представляет собой специализированный Web-узел. Поисковые системы классифицируются по методам поиска.

Специальные программы-роботы круглосуточно сканируют пространство Интернет на предмет обнаружения новых документов. Новые документы просматриваются, выдаются ключевые слова и краткое содержание. Выявленная информация размещается в БД поисковой системы, упорядочивается (индексируется) и классифицируется по темам. При поступлении запроса на поиск от пользователя поисковая система находит ответ в своей БД и выдает пользователю ранжированный по релевантности список адресов серверов с анатациями, на которых “по мнению поисковой системы” находится искомая информация. Из вышесказанного следует, что индексные поисковые системы – это системы, в которых все операции производятся автоматизировано (например, www. *****, www. *****).

Поисковый индекс обеспечивает поиск по заданным ключевым словам. В результате поиска формируется набор гиперссылок на Web-странице, содержащие указанные термины. Поисковые индексы предоставляют грандиозную широту поиска.

Яndex - это полнотекстовая вербальная ИПС (информационно-поисковая система) с использованием избыточного индексирования с учетом морфологии русского языка. ИПС подразумевает предварительную обработку текста, в том числе составление некоторого индекса, по которому затем происходит поиск. ИПС может быть организована как БД (база данных) с текстовыми полями. Другой вариант организации ИПС - работа с внешними текстами. В этом случае тексты остаются "как есть" - то есть файлами в файловой системе, страницами на сервере или полями какой-то БД, а не затягиваются внутрь системы.

Полнотекстовый поиск - поиск по текстовым документам различных форматов. Это могут быть текстовые поля баз данных, тексты стандартных форматов - txt, doc, html, rtf, xls. Под текстом подразумевается набор слов (выделенную по некоторым правилам последовательность букв), чисел и марок (смеси букв и цифр или букв разных алфавитов).

Система с учетом морфологии языка умеет для всех слов этого языка делать анализ, то есть понимать, формой какого слова они являются. Каждое слово языка в начальной форме имеет парадигму - совокупность всех своих словоформ, полученных при изменении слова по числам, падежам, родам и временам.

При вводе адреса www. ***** в адресную строку окна Microsoft Internet Explorer загружается начальная страница информационно-поисковой системы Yandex с разнообразными гиперссылками, закладками и поисковой строкой:

Режим простого поиска заключается в том, что в строку поиска вводится одно слово или их совокупность (словосочетание) в том виде, в котором оно слышится или произносится пользователем на самом деле. В результате такого поиска поисковая система по заданному запросу находит ответ в своей БД и выдает пользователю ранжированный по релевантности список всех адресов серверов, на которых “по мнению поисковой системы” находится искомая информация (где употребляется хотя бы одно из введенных пользователем слов). При этом могут быть найдены адреса серверов с совершенно посторонней (ненужной) информацией.

Строгий поиск требует ввода в строку поиска кроме самих слов специальных символов и знаков, которые позволяют поисковой системе более точно находить именно те документы, которые необходимы пользователю, и выдавать их для просмотра в удобной для пользователя последовательности. В результате поиска пользователь получает в распоряжение группу адресов серверов с конкретной информацией на конкретную тему без лишней информации.

Глубина поиска – количество найденных документов по заданному запросу. Если документов много – большая глубина поиска (плохо), если документов мало – малая глубина поиска (хорошо).

3.  Формирование простых поисковых запросов и поисковых запросов с вводом логических функций:

Первый запрос – экономическая теория:

Результат поиска:

Результат поиска: страниц — 196046, сайтов — не менее 1480
Статистика слов: экономическая — , теория — 6277848
Запросов за месяц: экономическая — теория — 139796

В данном случае система находит документы, в которых в одном предложении встречаются все слова “экономическая” и “теория”. Результат поиска самый большой. Причем будут найдены слова как с большой, так и с маленькой буквы.

Второй запрос – “экономическая теория”:


Результат поиска:

Результат поиска: страниц — 130955, сайтов — не менее 628
Статистика слов: !экономическая — 1 !теория — 2982444
Запросов за месяц: экономическая — теория — 139796

В данном случае система находит документы, содержащие цельное словосочетание “экономическая теория”, т. е. где слово “экономическая” и слово “теория” идут строго подряд. Результат поиска существенно уменьшился.

Третий запрос – экономическая /+1теория лекции:

Результат поиска:

Результат поиска: страниц — 1773, сайтов — не менее 565
Статистика слов: экономическая — , теория — 6 лекции — 2588135
Запросов за месяц: экономическая — теория — лекции — 58314

В данном случае система находит документы, в которых в одном предложении встречаются все слова данного запроса с учетом того, что слово “теория” идет строго после слова “экономическая”, причем слово “лекции” может и не присутствовать в одном предложении с двумя первыми словами. Результат поиска существенно уменьшился.

Четвертый запрос – лекции /+2экономическая /+1теория:

Результат запроса:

Результат поиска: страниц — 608, сайтов — не менее 241
Статистика слов: лекции — 2 экономическая — , теория — 6619622
Запросов за месяц: лекции — 58314, экономическая — теория — 139796

В данном случае система находит документы, содержащие в одном предложении все слова “лекции”, “экономическая” и “теория”, причем расстояние между первым и вторым словом не превышает 2-х слов, а второе и третье слова идут строго подряд. Результат поиска существенно уменьшился.

Пятый запрос - $title лекции /+2“экономическая теория”:

Результат поиска:

Результат поиска: страниц — 18, сайтов — не менее 12
Статистика слов: лекции — 2 экономическая — , теория — 6618821
Запросов за месяц: лекции — 2 экономическая — , теория — 6618821

В данном случае система осуществляет поиск в заголовках документов, содержащих в одном предложении все слова “лекции”, “экономическая” и “теория”, причем расстояние между первым и вторым словом не превышает 2-х слов, а второе и третье слова идут строго подряд. Результат поиска существенно уменьшился.

Шестой запрос - $anchor лекции /+2“экономическая теория”:

Результат поиска:

Результат поиска: страниц — 15, сайтов — не менее 7
Статистика слов: лекции — экономическая — 5 теория — 2372475
Запросов за месяц: лекции — экономическая — 5 теория — 2372475

В данном случае система осуществляет поиск в тексте ссылок, содержащих в одном предложении все слова “лекции”, “экономическая” и “теория”, причем расстояние между первым и вторым словом не превышает 2-х слов, а второе и третье слова идут строго подряд. Результат поиска существенно уменьшился.

Вывод: в результате длительного поиска лекций по экономической теории количество всех найденных документов (среди которых также найден необходимый материал, удовлетворяющий информационную потребность данной лабораторной работы) сведен к минимуму, т. е. достигнута малая глубина поиска.

4.  Формирование поисковых запросов с вводом ограничений на условия поиска:

В качестве поискового запроса возьмем – лекции /+2экономическая /+1теория.

Вызываем расширенный поиск, нажав на “+” возле кнопки поиска, и задаем поочередно ограничения на условия поиска (для примера зададим ограничения на словарный фильтр и дату соответственно):

¨  Обязательно – все формы – в предложении; дата – последние 2 года:

Результат поиска: страниц — 158, сайтов — не менее 85
Статистика слов: лекции — 2 экономическая — , теория — 6789521
Запросов за месяц: лекции — 58314, экономическая — теория — 139796

¨  Обязательно – все формы – в предложении; дата – последний год:

Результат поиска: страниц — 115, сайтов — не менее 60
Статистика слов: лекции — 2 экономическая — , теория — 6789521
Запросов за месяц: лекции — 58314, экономическая — теория — 139796

¨  Обязательно – все формы – в заголовке; дата – последние 6 месяцев:

Результат поиска: страниц — 90, сайтов — не менее 47
Статистика слов: лекции — 2 экономическая — , теория — 6618292
Запросов за месяц: лекции — 58314, экономическая — теория — 139796

¨  Обязательно – все формы – в заголовке; дата – последний месяц:

Результат поиска: страниц — 31, сайтов — не менее 17
Статистика слов: лекции — 1 экономическая — 7 теория — 3563727
Запросов за месяц: лекции — 58314, экономическая — теория — 139796

¨  Обязательно – все формы – в заголовке; дата – последние 2 недели:

Результат поиска: страниц — 14, сайтов — не менее 11
Статистика слов: лекции — экономическая — 4 теория — 2041511
Запросов за месяц: лекции — 58314, экономическая — теория — 139796

¨  Обязательно – все формы – в документе; дата – последний год:

Результат поиска: страниц — 115, сайтов — не менее 60
Статистика слов: лекции эт плохая методичка — 2 экономическая — , теория — 6789521
Запросов за месяц: лекции — 58314, экономическая — теория — 139796

¨  Обязательно – все формы – в документе; дата – последний месяц:

Результат поиска: страниц — 31, сайтов — не менее 17
Статистика слов: лекции — 1 экономическая — 7 теория — 3563727
Запросов за месяц: лекции — 58314, экономическая — теория — 139796

¨  Обязательно – все формы – в документе; дата – последние 2 недели:

Результат поиска: страниц — 14, сайтов — не менее 11
Статистика слов: лекции — экономическая — 4 теория — 2041511
Запросов за месяц: лекции — 58314, экономическая — теория — 139796

Вывод:

в результате разнообразного расширенного поиска лекций по экономической теории количество всех найденных документов (среди которых также найден необходимый материал, удовлетворяющий информационную потребность данной лабораторной работы) постоянно изменялось в связи с вводом и периодическими изменениями ограничений на условия поиска.

5.  Перечень логических функций, используемых при проведении поиска в данной лабораторной работе:

Знаки “+” и “-”. Если хотим, чтобы слова из запроса обязательно были найдены, ставим перед каждым из них “+”. Если хотим исключить какие-нибудь слова из результата поиска, ставим перед каждым из них “-”.

Несколько набранных слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа.

Часто в запросах пишут устойчивые словосочетания. Если поставить их в кавычки, то будут найдены те документы, в которых эти слова идут строго подряд.

Если между двумя словами поставлен знак '/', за которым сразу напечатано число, значит, требуется, чтобы расстояние между ними не превышало этого числа слов.

Если все слова в тексте перенумеровать по порядку их следования, то расстояние между словами a и b - это разница между номерами слов a и b. Таким образом, расстояние между соседними словами равно 1 (а не 0), а расстояние между соседними словами, стоящими "не в том порядке", равно -1. То же самое относится и к предложениям.

Если порядок слов и расстояние точно известны, можно воспользоваться пунктуацией '/+n'. Так, например, задается поиск слов, стоящих подряд.

В общем виде ограничение по расстоянию задается при помощи пунктуации вида '/(n m)', где 'n' минимальное, а 'm' максимально допустимое расстояние. Отсюда следует, что запись '/n' эквивалентна '/(-n +n)', а запись '/+n' эквивалентна '/(+n +n)'.

Когда знаки ограничения по расстоянию стоят после двойных операторов, то употребленные там числа - это расстояние не в словах, а в предложениях. Расстояние в абзацах определяется аналогично расстоянию в словах.

Для разработки Web-страниц используется структурированный язык HTML, определяющий структуру документа, или его разметку. Документ содержит контейнеры разного уровня, что позволяет вести поиск информации в Internet, не зная адреса. При поиске информации пользователь может задать уровень документа (зону) или отдельный элемент, содержащий поисковое выражение:

$title (выражение)

поиск в заголовке

$anchor (выражение)

поиск в тексте ссылок

Эт методичка лоха