Для выполнения указанных функций в большинстве систем рассматриваемого класса используются комплексы средств лингвистической поддержки. Такой комплекс может включать различные словари, тезаурусы, онтологические спецификации предметной области системы.
Системные словари. В системах текстового поиска, имеющих дело с обработкой естественного языка, могут поддерживаться словари общеязыковой лексики и лексики предметной области. Такие словари служат для морфологического анализа текста, для обеспечения отождествления слов в различных грамматических формах в процессе поиска, а также для построения некоторых видов представлений документов и запросов.
Тезаурусы. Важную роль в анализе и формировании формализованного представления текстовых документов играют специальные словари, называемые тезаурусами. Тезаурус представляет собой словарь основных понятий языка, обозначаемых отдельными словами или словосочетаниями, с определенными семантическими связями между ними.
Тезаурус может быть общеязыковым (например, тезаурус русского языка) или ориентированным на какую-либо предметную область. Лексика тезауруса включает множество слов и/или множество фраз. Виды поддерживаемых семантических связей между ними могут быть зависимыми или независимыми от конкретной предметной области. Обычно поддерживаются такие связи для синонимов, омонимов, антонимов, связи вида «целое-часть», «род-вид», “используется для”, “работает в” и т. д.
В настоящее время существует два способа создания тезаурусов – ручной и автоматический. Тезаурус, созданный вручную, может быть универсальным, независимым от конкретной коллекции документов.
К сожалению, разработка тезауруса вручную является весьма дорогостоящим, кропотливым и трудоемким делом, требующим значительного времени. Поэтому на практике часто используют автоматическое создание тезаурусов. Методы решения этой задачи начали исследоваться еще в 60-х годах. Автоматическое создание тезаурусов осуществляется обычно на основе заданных коллекций текстовых документов. Поэтому такие тезаурусы предназначены для работы именно с этими коллекциями.
В системах, использующих тезаурус, он позволяет, например, при поиске по ключевым словам расширять запрос, включая в него синонимы первоначально заданных пользователем ключевых слов и обеспечивая тем самым более полный поиск. Тезаурусы также часто используются для ручного или автоматического индексирования документов.
Онтологии. Для адекватной интерпретации содержания текстовых документов и поисковых запросов, представленных на естественном языке, система должна располагать контекстом, который определяет основные понятия предметной области и различного рода семантические связи между ними, иначе говоря, спецификацией концептуализации предметной области системы. Выраженная явным образом такая спецификация называется онтологией предметной области.
Онтологии получили в последние годы широкое распространение в разнообразных информационных системах, основанных на знаниях, в инженерии знаний, в решении проблем семантической интеграции информационных ресурсов и т. д.
Онтология предметной области может поддерживаться в системе с различной степенью формализованности. В простейшем случае она представляется в виде некоторого вербального описания. Тогда оно предназначено для использования человеком на стадии индексирования документов и при формулировке запросов. В более сложном случае онтология представляется в формализованном виде на языках представления знаний, допускающих логический вывод. Такие системы называют интеллектуальными.
Еще на ранней стадии развития систем текстового поиска начали использовать представление онтологий в форме иерархических классификаторов. Такие описания на каждом иерархическом уровне поддерживают отношение эквивалентности на множестве классифицируемых сущностей, обеспечивающее его разбиение на попарно непересекающиеся классы. При этом сущности соседних уровней иерархии обычно находятся в отношении “целое-часть” или “род-вид”.
В последние годы все более широкое распространение получает весьма вырожденный вариант онтологии предметной области, определенной в виде набора элементов метаданных Дублинского ядра (Dublin Core, DC). Привлекательность такого подхода связана с его простотой, что, конечно же, оборачивается ограниченностью его возможностей.
Дублинское ядро - это набор элементов метаданных, смысл которых описан вербально и зафиксирован в спецификации определяющего его стандарта. В терминах значений этих элементов можно описывать содержание различного рода текстовых документов и документов, представленных в иных средах. Такое описание будет однозначно пониматься всем сообществом, использующим DC для представления документов и пользовательских запросов.
Первоначальная версия Дублинского ядра, которая включала 13 элементов, была предложена на состоявшемся в 1995 году в Дублине (США) симпозиуме, организованном Online Computer Library Center (OCLC) и National Center for Supercomputing Applications (NCSA) для описания информационных ресурсов библиотечных систем, в частности, информационных ресурсов Веб и т. п. Развитие Дублинского ядра поддерживается специально учрежденной для этой цели организацией - Инициативой по метаданным Дублинского ядра (Dublin Core Metadata Initiative, DCMI).
Текущая версия спецификаций Дублинского ядра DC 1.1 была принята в качестве стандарта DCMI в 1999 г. Она включает 15 элементов метаданных. В настоящее время ведется работа как по уточнению этого состава набора элементов метаданных, так и по введению факультативных атрибутов (квалификаторов) для этих элементов метаданных, которые в конкретных областях применения уточняли бы их содержание и игнорировались в случае, когда приложение с ними «незнакомо». Некоторый предварительный список квалификаторов был принят в качестве стандарта DCMI в 2000 г. Он включает квалификаторы двух категорий: квалификаторы, которые уточняют семантику элементов метаданных ядра, и квалификаторы, определяющие способ кодирования значений его элементов, что позволяет адекватным образом их интерпретировать. На основе спецификаций DC 1.1 в 2001 г. был принят национальный американский стандарт ANSI/NISO Z39.85-2001.
Другой способ описания онтологии предметной области системы текстового поиска, который довольно широко применяется в системах текстового поиска, – это представление ее в форме тезауруса предметной области системы.
Для формального описания онтологий в развитых системах используются языки логики первого порядка. Они допускают возможности логического вывода. Довольно широкое распространение получил для представления онтологий язык указанной категории KIF (Knowledge Interchange Format), разработанный в начале 90-х гг. в Лаборатории систем знаний (KSL) Стэнфордского университета.
Одной из последних разработок, посвященных созданию средств формального описания онтологий, является стандарт языка определения онтологий для информационных ресурсов Веб - Web Ontology Language. Работу над этим стандартом ведет Рабочая группа по онтологиям для Веб консорциума W3C. Указанный язык, несомненно, найдет применения в интеллектуальных системах поиска информационных ресурсов в среде Веб второго поколения.
Контрольные вопросыКакие задачи решаются в системах текстового поиска с помощью обработки естественного языка?
Какие средства лингвистической поддержки используются в системах текстового поиска и для чего?
Для каких целей используются лексические словари в системах текстового поиска?
Что такое тезаурус, и для каких целей он используется?
Какие подходы используются для создания тезаурусов?
Для чего нужна онтология предметной области?
Какие средства используются в настоящее время для описаний онтологий?
Что такое Дублинское ядро?
Приведите пример формального языка описания онтологий.
9.5. Модели поискаНаиболее развитые технологии текстового поиска обеспечиваются в настоящее время полнотекстовыми системами. Как уже было показано, существуют различные подходы к построению таких систем. Эти различия связаны не только с разнообразием форм информационных потребностей пользователей, но и, главным образом, с различием применяемых способов представления полнотекстовых документов и пользовательских запросов в системе.
Понятие модели поиска. Ключевым понятием, характеризующим технологию поиска в той или иной конкретной системе, является модель поиска. Под моделью поиска понимается сочетание: способа представления документов; способа представления поисковых запросов; вида критерия релевантности документов.
Разнообразие функциональных возможностей различных систем текстового поиска связано именно с различием реализованных в них моделей поиска.
Простейшие модели поиска. Во многих системах используются простейшие модели поиска. К их числу относятся, например, рассмотренные выше модели поиска дескрипторных ИПС и систем, использующих Дублинское ядро.
Другим примером простейших моделей поиска являются модели, основанные на классификаторах. В модели, основанной на классификаторах, документы представляются идентификаторами классов в иерархической структуре классификатора, к которым относится данный документ. Представление запроса в простейшем случае также представляет собой идентификатор какого-либо класса из заданного классификатора. Критерием релевантности документа является условие, что класс документа совпадает с классом в представлении запроса или является его подклассом.
В более сложном случае в моделях поиска, основанных на классификаторе, допускается указание в запросе нескольких классов классификатора. При этом релевантными считаются документы, принадлежащие какому либо из указанных в запросе классов. Такая модель поиска близка к рассматриваемой далее булевской модели.
Модели контекстного поиска. Несколько более сложный характер имеют модели контекстного поиска. Применение этих моделей стало возможным, когда достаточно высокой производительности достигли процессоры вычислительных машин и вырос объем их внешней памяти прямого доступа. В моделях контекстного поиска используется представление документа как совокупности всевозможных встречающихся в его тексте слов и словосочетаний, не считая так называемых стоп-слов. Стоп-слова – это служебные слова (предлоги, союзы и т. п.), которые встречаются практически в любом документе. Поиск документов, содержащих такие слова, привел бы к выдаче полной коллекции документов в ответ на запрос.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 |


