В системах рассматриваемого класса строится индекс по всем встречающимся в документах словам и словосочетаниям, кроме стоп-слов. При этом для построения индекса слова, выделенные из текста документа, приводятся сначала к «каноническому виду» с помощью поддерживаемых в системе словарей и средств грамматического разбора. Пользовательский запрос также подвергается грамматическому разбору, в процессе которого из запроса также выделяются встречающиеся в его тексте слова и словосочетания. Документ считается релевантным, если какие-либо слова или словосочетания из запроса встречаются с точностью до грамматических форм в тексте документа. Иногда используется более жесткий критерий релевантности – вхождение в текст документа всех названных в запросе слов и словосочетаний и т. д.

Булевские модели поиска. В системах текстового поиска широко используются булевские модели поиска. Пользователь может формулировать запрос в виде булевского выражения с использованием операторов И, ИЛИ, НЕТ. Термы булевского выражения могут быть различными в разных вариациях булевских моделей поиска. Это может быть, например, условие вхождения данного слова или словосочетания (с точностью до грамматических форм) в текст документа в булевском расширении контекстной модели поиска. В булевском расширении модели поиска по классификаторам, термами выражения могут быть условия принадлежности документа данному классу классификатора. В булевской модели поиска с использованием Дублинского ядра термом может быть равенство, описывающее тот факт, что некоторый элемент метаданных для рассматриваемого документа имеет заданное в запросе значение.

НЕ нашли? Не то? Что вы ищете?

Критерием релевантности данного документа запросу в булевских моделях поиска является истинность булевского выражения, заданного в запросе. 

Векторные модели поиска. Наиболее широкое применение в развитых системах текстового поиска имеют векторные модели поиска.

В векторных моделях предполагается, что документы и запросы представляются векторами. В простейшем случае координаты вектора соответствуют термам текста - словам или словосочетаниям, принадлежащим словарю системы, который представляет общеязыковую лексику или лексику предметной области. Каждому терму из такого словаря сопоставляется свое измерение в векторном пространстве. Размерность векторов, представляющих документы и пользовательские запросы, в точности равна количеству измерений в этом пространстве.

Координате вектора присваивается некоторое ненулевое значение в том и только в том случае, когда соответствующий ей терм принадлежит данному документу или запросу. Поскольку размер словаря может быть очень большим, а документы или тексты запросов содержат существенно меньшее количество содержащихся в нем термов, такие вектора оказываются очень разреженными. Поэтому нужно использовать какую-либо технику сжатого их представления.

Для оценки степени релевантности документа запросу (меры их близости) в векторных моделях поиска используются какие-либо векторные функции, аргументами которых выступают представляющие их вектора. Например, можно использовать в качестве такой меры косинус угла между вектором документа и вектором запроса или их скалярное произведение. Важно заметить, что поскольку ненулевые координаты этих векторов соответствуют только термам, входящим в текст документа и текст запроса, на значение функции – меры в обоих этих случаях оказывают влияние только термы, общие для документа и запроса.

Для повышения управляемости векторных моделей поиска часто усложняют эти модели. Вводятся веса термов, характеризующие их значимость. Значения этих весов используются в качестве координат вектора документа, если его текст включает соответствующий терм. Таким образом, вхождения различных термов в текст документа оказывают различное влияние на значение функции близости документа и запроса. Существуют разные подходы к выбору указанных весов. Чаще всего для  этой цели используют произведение частоты вхождения терма в данный документ и частоты его вхождения во все документы коллекции в целом.

Различия между конкретными векторными моделями поиска сводятся именно к различным способам назначения весов термов и выбора мер близости. Векторные модели позволяют ранжировать результирующее множество документов запроса.

Контрольные вопросы

Что такое модель поиска?

Назовите простейшие модели поиска.

Опишите модели дескрипторного поиска.

Как можно охарактеризовать модели поиска, основанные на наборе элементов метаданных Дублинского ядра?

Какой критерий релевантности документов используется в моделях поиска, основанных на классификаторах?

Каковы особенности моделей контекстного поиска?

Что такое «стоп-слово»?

Какими возможностями обладают булевские модели поиска?

Сформулируйте принципы векторной модели.

Какова роль словарей в векторной модели поиска?

Как назначаются веса термам в векторной модели?

9.6. Состояние разработок и новые требования

Системы текстового поиска в последние годы стали активно использоваться в самых различных областях деятельности. Если первоначально они разрабатывались, главным образом, как инструмент для библиотечного дела, то в настоящее время они нашли применение в корпоративной среде. Особенно интенсивно они начали развиваться с появлением глобального информационного пространства Веб.

Круг проблем в области текстового поиска. В настоящее время проблематика текстового поиска стала довольно обширной. Она включает различные вопросы теории информационного поиска; статистические и логические модели поиска; методологию проведения экспериментов, тестирования и оценки систем; аспекты реализации методов текстового поиска, связанные с интеграцией с базами данных, с поиском в среде Веб, со сжатием данных, с эффективностью обработки запросов; обработку естественного языка; методы классификации и кластеризации текстовых документов; приложения информационного поиска в электронных библиотеках; глубинный анализ текстов; технологии индексирования и поиска мультимедийной информации; интерфейсы «человек-компьютер» и т. д. Во всех перечисленных направлениях имеются значительные достижения.

Расширение функциональных возможностей текстовых систем. Разработчики систем текстового поиска уделяют большое внимание не только совершенствованию механизмов выполнения их базовых функций, но и  развитию ряда дополнительных возможностей, позволяющих существенным образом увеличить эффективность поиска, повысить управляемость системы, обеспечить более комфортные условия для работы пользователя. Приведем некоторые такие возможности.

Повышение точности поиска. В формулировке пользовательского запроса не все термы могут быть равнозначными. Некоторые системы текстового поиска позволяют пользователю придать веса используемым в запросе термам с тем, чтобы охарактеризовать их значимость в запросе. Эта информация используется при вычислении оценок релевантности документов информационным потребностям пользователя, и тем самым существенно повышается точность поиска.

Ранжирование результирующих документов запроса. В силу рассмотренных ранее причин системы текстового поиска не могут гарантировать строгого удовлетворения информационных потребностей пользователя в результате выполнения поисковых запросов. Количество результирующих документов обычно бывает значительным. Поэтому очень важно упорядочить документы, выдаваемые системой пользователю, таким образом, чтобы в начале списка находились документы, которые, вероятно, в большей мере представляют интерес для пользователя. Операция такого рода называется ранжированием документов. Развитые системы текстового поиска обладают механизмами, обеспечивающими такую возможность. В зависимости от реализуемой ими модели поиска, предусматривается упорядочение множества документов, выдаваемых в результате обработки пользовательского запроса, по некоторым оценкам их релевантности запросу или вероятности удовлетворения информационных потребностей пользователя.

Обратная связь релевантности. Важной функцией, позволяющей повысить эффективность поиска требуемых пользователю документов, является обратная связь релевантности. Дело в том, что результаты обработки запроса могут не удовлетворять пользователя. Во многих системах текстового поиска пользователю предоставляется возможность в таких случаях уточнить запрос. Для этого он может дать оценку релевантности полученных документов – указать, какие из них он считает релевантными или не релевантными.

Поскольку количество результирующих документов может быть довольно большим, пользователю предлагается оценить хотя бы несколько первых документов в ранжированном списке, т. е. тех документов, которым система назначила наивысшие оценки степени релевантности. Система может использовать термы этих документов для формирования нового, расширенного запроса, который, скорее всего, будет точнее выражать информационные потребности пользователя.

Такой итерационный процесс обработки запроса и модификации его с помощью анализа данных, полученных на основе обратной связи пользователя с системой, может повторяться до тех пор, пока пользователь не будет удовлетворен результатами поиска. Обратная связь релевантности используется в системах, основанных на различных моделях поиска. 

Автоматическое расширение пользовательских запросов. Имеется в виду расширение представления запроса, первоначально предложенного системе пользователем. Эта возможность также служит для повышения эффективности поиска. Исходное представление запроса может пополняться за счет: синонимов термов, содержащихся в запросе, если система располагает тезаурусом, поддерживающим отношение синонимии; термов, которые находятся с термами запроса в некоторых других семантических отношениях, определенных тезаурусом предметной области, например, представляют часть понятия, соответствующего некоторому терму запроса, и т. п.; термов результирующих документов, оцененных пользователем как релевантные или не релевантные, в системах, обеспечивающих обратную связь релевантности; часто встречающихся орфографически-ошибочных форм некоторых термов запроса и т. д.

Автоматическое индексирование документов. Исследования, проведенные еще на ранних стадиях развития систем текстового поиска, показали, что автоматическое индексирование документов не уступает по качеству ручному индексированию. Поэтому в современных развитых системах используется автоматическое индексирование.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99