Именно этим и объясняются сложности решения вопроса о том, соответствует ли рассматриваемый документ информационным потребностям пользователя. Указанные трудности вызваны отсутствием какой-либо регулярной структуры у текстовых документов на естественном языке. Поэтому данные, представляющие информационные ресурсы такой природы, называют неструктурированными. Для управления данными такой природы необходимо использовать иную, чем в системах баз данных, технику управления данными, хотя некоторые элементы управления данными, используемые в системах баз данных, применимы и для систем текстового поиска.
Представления документов. Коллекции документов, хранимых в системах текстового поиска могут быть довольно крупными. Довольно большой объем могут иметь и содержащиеся в документах тексты. Поэтому нереально рассчитывать на то, что система текстового поиска сможет анализировать полные тексты хранимых документов в процессе обработки пользовательских запросов, даже если эта система базируется на очень мощном компьютере. Производительность такой системы была бы не слишком высока.
Выход из положения заключается в том, чтобы в процессе обработки запроса работать не с самими документами, а с некоторыми структурированными представлениями их содержания, которые называют представлениями документов. В некоторых публикациях их называют также представителями документа. Использование представления документа вместо непосредственно самого документа позволяет избежать трудоемкого процесса просмотра и анализа полного его содержания на стадии поиска и вместе с тем использовать преимущества структурированного представления для повышения эффективности поиска.
В современных системах текстового поиска используются различные подходы к построению представлений хранимых документов. От характера используемых представлений документов существенным образом зависит качество поиска – его точность, полнота, производительность и другие характеристики. Поскольку введенные в систему текстовые документы остаются, как правило, неизменными на протяжении всего времени их существования в системе, построение представления каждого имеющегося в системе документа можно осуществлять однократно на этапе его ввода в систему.
Индексирование документов. Представление документа обычно конструируется на основе множества свойств (атрибутов) этого документа. В простых системах текстового поиска эти атрибуты вообще не являются какими-либо компонентами содержания документа. Они служат некоторыми внешними характеристиками данного документа и совсем не обязательно, чтобы они идентифицировали его уникальным образом. Это может быть регистрационный номер документа в архиве, дата его регистрации, название организации - получателя документа, указание места его хранения и прочее. В качестве таких внешних атрибутов документов могут также использоваться рубрики классификаторов документов или элементы метаданных Дублинского ядра (см. далее). В системах контекстного полнотекстового поиска атрибуты представления документа - это термы, извлеченные из его содержания - слова, словосочетания и т. п., или значения каких-либо специально подобранных функций, вычисленные на основе этих извлеченных термов.
В любом случае ассоциированные с документом атрибуты называются его индексирующими свойствами. Они используются для построения в системе текстового поиска вспомогательной структуры данных, позволяющей по их значениям или по значениям некоторой функции, использующей их в качестве аргументов, эффективным образом (без полного просмотра содержания документов и без полного их перебора) обнаруживать в системе документ или документы, которым эти атрибуты соответствуют и при необходимости осуществлять быстрый доступ к таким документам. Такая вспомогательная структура данных называется индексом, а процесс назначения документу указанных атрибутов - индексированием документа.
В ранних системах текстового поиска использовалось простейшее представление документов, которое имело большую популярность благодаря его простоте, хотя и не могло обеспечить высокого качества поиска. В качестве такого представления служила совокупность слов или словосочетаний лексики предметной области системы, характеризующая содержание данного документа. Эти слова и словосочетания называются дескрипторами. Представление документа в дескрипторных системах называется поисковым образом документа. ИПС, в которых используется рассматриваемый подход, называются дескрипторными системами. Такие системы используются до настоящего времени. Индексирование документа в них сводится к назначению для него совокупности дескрипторов.
Индексирование документов в системах текстового поиска может осуществляться на основе их названий, аннотаций или полного текста. Оно может производиться вручную авторами документов или экспертами в предметной области системы, подготавливающими документы к вводу в систему, или автоматически системными механизмами на основе анализа документа.
Методы представления и индексирования документов в современных развитых системах текстового поиска используют довольно трудоемкие вычислительные процедуры. Поэтому они могут быть реализованы только автоматически.
Представление пользовательских запросов. Формирование формализованных представлений смысла пользовательских запросов является другой важной задачей систем текстового поиска. Точно так же, как в процессе поиска система оперирует представлениями документов вместо самих документов, она использует вместо заданного пользователем запроса его представление, которое конструируется в процессе обработки этого запроса. Представление запроса строится на основе тех же принципов, что и представления документов в данной системе, поскольку иначе их невозможно было бы сопоставлять.
Например, в дескрипторных системах текстового поиска в качестве представления запроса также используется совокупность дескрипторов, характеризующих содержание запроса. В таких системах представление запроса называется поисковым образом запроса.
Критерии релевантности документов. В процессе обработки пользовательского запроса системе необходимо оценивать релевантность очередного рассматриваемого документа. Для решения этого вопроса его представление должно сопоставляться по некоторому критерию релевантности (критерию близости) с представлением запроса. Вид критерия близости зависит от подхода, используемого в системе для представления документов и запросов. В дескрипторных системах обычно используются теоретико-множественные критерии. Например, документ признается релевантным, если множество дескрипторов поискового образа запроса является подмножеством множества дескрипторов поискового образа документа. Другие варианты критерия – указанные множества дескрипторов равны или их пересечение не пусто. В продвинутых системах текстового поиска используются более сложные критерии близости.
Общие принципы текстового поиска. Современные системы текстового поиска используют довольно широкий спектр подходов к представлению и индексированию хранимых документов, к представлению пользовательских запросов, к оценке релевантности документов. Однако как в простых, так и в продвинутых системах используются некоторые общие принципы организации поиска. Эти общие принципы заключаются в следующем.
При вводе документа в систему осуществляется индексирование документа и строится его представление, которое будет далее выступать заместителем этого документа в процессе функционирования системы и при обработке запросов. Поскольку представление документа в достаточной мере формализовано, исключается необходимость анализа его полного текста каждый раз при обработке запросов. Представление документа остается неизменным в течение всего периода существования документа в системе.
Далее, на основе индексирующих свойств конкретных документов система формирует и поддерживает индекс для каждой коллекции хранимых в ней документов, а также обеспечивает его актуализацию при пополнении коллекции или, что случается сравнительно редко, при исключении документов из коллекции.
При поступлении в систему пользовательского запроса для него также строится соответствующее представление. Метод его построения аналогичен используемому для построения представлений документов.
Наконец, собственно поиск заключается в том, что каким-либо эффективным образом (не прямым перебором, а обычно с помощью рациональным образом организованного индекса документов коллекции) осуществляется сопоставление представления запроса с представлениями хранимых в системе документов по принятому в системе критерию близости. В некоторых случаях для этих целей вводится специальная метрика. Результаты обработки запроса представляются в виде множества найденных релевантных документов.
Хотя на практике используются различного рода представления документов и пользовательских запросов, указанные общие принципы текстового поиска остаются неизменными в различных системах.
Контрольные вопросыЧем вызваны главные сложности систем текстового поиска?
Какие свойства естественных языков порождают трудности в решении проблемы автоматической интерпретации смысла высказываний на этих языках?
Для чего служат представления документов и представления пользовательских запросов в системах текстового поиска?
Какова роль индексов коллекций документов в системах текстового поиска?
Как используются критерии релевантности документов при текстовом поиске?
Приведите примеры критериев релевантности для дескрипторных ИПС.
Сформулируйте общие принципы текстового поиска.
9.4. Средства лингвистической поддержкиПри обработке полнотекстовых документов в системах текстового поиска приходится иметь дело со средствами обработки естественного языка. Эти средства представляют собой довольно сложный и важный функциональный компонент таких систем.
Средства обработки естественного языка в системах текстового поиска позволяют выделять из анализируемых текстовых документов и пользовательских запросов термы (слова, словосочетания или фразы) – носители их содержания, выявлять зависимости между этими термами, принимать во внимание их концептуальные связи в контексте данной предметной области, строить на этой основе представления документов, трансформировать поисковые запросы пользователей в удобную для реализации поиска форму.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 |


