Системы текстового поиска оказали значительное влияние на формирование специфического класса информационных систем, называемых системами управления документами, которые широко используются в настоящее время во многих крупных коммерческих компаниях и в других организациях. В таких системах важная роль отводится не только методам обработки естественного языка, созданным для работы с текстовыми документами, но и организации групповой разработки документов, их хранения, распространения и, конечно же, технологиям текстового поиска.
Развитие технологий текстового поиска в последние годы довольно интенсивно продолжается благодаря активным исследованиям и разработкам, проводимых во многих странах. Сформировалась индустрия коммерческого программного обеспечения для систем текстового поиска. Такие системы разрабатываются и широко используются и в нашей стране.
Контрольные вопросыВ какой период времени начали формироваться технологии текстового поиска?
Каково происхождение понятия «информационно-поисковая система»?
На какие две категории раделялись информационно поисковые системы?
Какие системы назывались фактографическими ИПС?
Какова судьба этого направления в развитии информационно-поисковых систем?
Какие системы называются документальными ИПС?
На каких принципах основаны дескрипторные ИПС?
Какие условия были необходимы для создания технологий полнотекстового поиска?
Какие новые возможности обеспечиваются системами полнотекстового поиска?
Когда, кем и для каких целей был учрежден цикл конференций TREC?
Каким образом трансформировались функциональные возможности документальных ИПС под влиянием развития систем текстового поиска и информационных потребностей пользователей?
В связи с чем наряду с понятием «информационно-поисковая система» стало использоваться понятие «система текстового поиска»?
Какие задачи решает обработка естественного языка?
Какие инструментальные средства используются в современных системах текстового поиска?
9.2. Основные понятияКак уже отмечалось, технологии текстового поиска имеют дело с информацией, представленной на естественных языках. Содержательное разнообразие такой информации довольно велико - это могут быть статьи, опубликованные в газетах и журналах, разнообразные технические руководства, отчеты, книги, диссертации, письма, законодательные акты и пр.
Основная единица информации в системах текстового поиска называется документом. Документ – это не юридическая сущность, а содержательно законченная идентифицируемая уникальным образом единица информации, представленная на каком-либо естественном языке. В ранних ИПС документ рассматривался как атомарная (неделимая) единица. Для системы он выступал как "черный ящик". В более развитых системах содержание документа доступно системе для обработки и анализа.
Полнотекстовые системы текстового поиска оперируют электронными документами, т. е. документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерный лингвистический анализ и обработка текстовых документов возможны лишь в случае, если программно доступны отдельные элементы текстового документа. Поэтому совершенно недостаточно просканировать текстовый документ на бумажном носителе и сохранить полученное его факсимиле в памяти компьютера в виде графического файла какого-либо формата. Необходимо иметь документ в оцифрованном виде, т. е. в таком формате, что каждая литера текста этого документа программно доступна. Система может, таким образом, оперировать элементами содержания оцифрованного документа. Представление текстового документа в оцифрованном виде может быть создано, например, с помощью:
ввода содержания документа с клавиатуры с использованием какого-либо текстового редактора;
сканирования его с бумажного носителя и использования программы распознавания оптических символов
(Optical Character Recognition, OCR);
генерации текста программным путем распознавателями голоса или какими-либо другими способами.
Совокупность хранимых в системе документов по-разному называется в разных системах. В последнее время для этой цели часто используется термин коллекция. Каждая система текстового поиска, вообще говоря, может поддерживать несколько различных коллекций документов.
Далее, документы хранятся в системе текстового поиска для того, чтобы удовлетворять информационные потребности пользователей. Представление информационных потребностей пользователя в форме, воспринимаемой программным обеспечением системы текстового поиска, называется пользовательским запросом (или просто запросом). Необходимым компонентом содержания пользовательского запроса является описание тех свойств, которыми обладают документы, интересующие пользователя. Это описание естественно назвать критерием поиска.
Следует подчеркнуть, что единицей гранулярности поиска, т. е. наименьшей единицей информации, которая может выдаваться пользователю в результате обработки заданного им запроса, в большинстве систем текстового поиска является именно документ, а не какая-либо его порция. Как правило, в результате обработки пользовательского запроса система выдает множество результирующих документов, удовлетворяющих заданному в запросе критерию.
Критерии поиска в пользовательских запросах могут иметь различную форму. Например, это может быть набор термов (слов или словосочетаний), содержащихся в требуемых документах или термов, соединенных символами булевских операторов. В последнем случае булевский оператор интерпретируется как условие одновременного (оператор «И») вхождения связываемых им слов в документ, альтернативного вхождения (оператор «ИЛИ») или отсутствия вхождений (оператор «НЕ») следующего за ним терма. В более сложных случаях роль критерия поиска может выполнять предложение на естественном языке или даже пример документа, удовлетворяющего информационным потребностям пользователя. Анализируя такой документ, система выделит термы для формирования некоторого “внутреннего” вида этого пользовательского запроса.
Хранящиеся в системе документы, которые соответствуют пользовательскому запросу, называются релевантными.
Релевантность документа не обязательно должна оцениваться в терминах двузначной логики («да-нет»). В некоторых развитых системах используются более тонкие оценки, которые вычисляются как значения специально подобранной числовой функции (функции релевантности), принимающей значения в интервале [0, 1]. В таких случаях уместно говорить о степени релевантности документа, понимая ее как значение этой функции. Некоторые системы текстового поиска выдают пользователю множества документов, полученных в результате обработки запросов, упорядочивая документы по убыванию степени релевантности. Такое упорядочение найденных документов называют их ранжированием. Пользователь более эффективно может анализировать ранжированное множество результирующих документов запроса. С большой вероятностью, наиболее интересующие его документы из числа найденных находятся в начале выводимого списка документов.
В силу различных причин, связанных, в частности, с трудностями автоматизации понимания естественного языка, а также с неточностью отображения информационных потребностей пользователя в запросе, в результате обработки пользовательского запроса могут быть найдены документы, не соответствующие информационным потребностям пользователя. Такое явление называется информационным шумом.
Важными характеристиками качества поиска в системах текстового поиска являются полнота и точность поиска. Полнота поиска определяет соотношение количества релевантных документов, выдаваемых в результате обработки пользовательских запросов, и фактически имеющихся в системе релевантных документов. Для количественной оценки точности поиска может служить доля релевантных документов во множестве результирующих документов запроса.
Контрольные вопросыС какой информацией имеют дело системы текстового поиска?
Что такое документ в системах текстового поиска?
В чем заключается различие между электронным и оцифрованным документом?
Каким образом создаются оцифрованные документы?
Что такое коллекция документов?
Что представляет собой пользовательский запрос в системе текстового поиска?
Что описывает критерий поиска в пользовательском запросе?
Какой вид могут иметь критерии поиска в пользовательских запросах?
Какова единица гранулярности поиска в системах текстового поиска?
Какие документы называются релевантными?
Что такое степень релевантности документа?
Для каких целей используются функции релевантности?
В чем заключается ранжирование результирующих документов и для каких целей оно осуществляется?
Что такое информационный шум в системах текстового поиска?
Как можно оценить полноту и точность поиска?
9.3. Принципы текстового поискаРассмотрим теперь основные принципы построения современных систем текстового поиска. Разнообразие используемых здесь технологий вызвано различиями подходов, используемых для представления смысла хранимых в системе документов на естественных языках, информационных потребностей пользователей и критериев релевантности документов пользовательским запросам.
Источники сложности современных систем текстового поиска. В отличие от технологий ранних информационно-поисковых систем, развитые современные технологии текстового поиска обеспечивают поиск интересующих пользователя документов на основе их информационного содержания, а не только по наборам дескрипторов или значениям каких-либо атрибутов, ассоциированных с этими документами (год издания, автор, издательство и т. п.). Эти атрибуты могут, в частности, быть уникальными идентификаторами документов и не зависеть от их содержания.
Основные проблемы технологий текстового поиска связаны со сложностью однозначной автоматической интерпретации содержания текстов документов и формулировок информационных потребностей пользователей на естественном языке. Высказывания на естественном языке часто обладают двусмысленностью и избыточностью. Необходимо учитывать синонимию и омонимию терминов, многообразие грамматических форм элементов языка. Смысловые связи между словами в предложении часто представляются в неявной форме. Динамична лексика естественных языков, довольно часто во многих предметных областях появляются новые понятия и термины.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 |


