Мультиязыковой поиск. Некоторые системы текстового поиска позволяют осуществлять поиск в коллекциях, содержащих документы, представленные на нескольких естественных языках. Одной из сложных проблем, которые при этом возникают, является идентификация языка, на котором представлен обрабатываемый документ или его фрагменты. 

Кросс-языковой поиск. Существуют такие системы текстового поиска, в которых возможны ситуации, когда информационные потребности пользователя определены на одном языке, а множество документов коллекции, в которой должен осуществляться поиск, представлено на другом языке. Эта задача пока еще является в значительной мере исследовательской, хотя она уже довольно часто встречается на практике, например, в системах международных организаций, транснациональных компаний или какой-либо организации в стране, где существует несколько государственных языков. 

Основная проблема кросс-языкового поиска состоит в сопоставлении документа и пользовательского запроса, представленных на разных языках. Для ее решения необходимо использовать перевод документов, перевод запросов либо перевод того и другого вместе. При этом используются разные подходы – пословный перевод по двуязычному словарю, «ручной» перевод с поддержкой компьютера, автоматический машинный перевод полного документа или части документа.

Текстовый поиск в системах баз данных.  Интеграция ресурсов баз данных и коллекций текстовых документов, а также использование инструментария систем баз данных для реализации систем текстового поиска уже давно востребованы практикой разработки информационных систем.

НЕ нашли? Не то? Что вы ищете?

Вместе с тем, информационные ресурсы, которыми оперируют системы баз данных, часто включают наряду со структурированными данными также и связанные с ними текстовые документы. Поэтому необходимость текстового поиска возникает и в среде традиционных систем баз данных. В связи с указанными причинами традиционные СУБД стали оснащаться механизмами текстового поиска по содержанию документов.

Технологии текстового поиска поддерживаются в настоящее время многими реляционными и объектно-реляционными серверами баз данных, например, СУБД  DB2 компании IBM, Oracle компании Oracle Corporation, SQL Server 7.0 и SQL-сервер 2000 компании Microsoft Corporation. 

Нужно заметить, однако, что в большинстве таких СУБД механизмы текстового поиска не обеспечивают реализации продвинутых моделей поиска, которые обсуждались выше. Чаще всего дело ограничивается поддержкой булевской модели поиска, иногда с расширением запросов, с механизмами полнотекстового индексирования и с некоторыми другими дополнительными возможностями.

Поиск текстовых ресурсов в Веб. С ростом объема информационных ресурсов Веб проблема использования технологий текстового поиска в этой среде становится все более актуальной. Навигационный доступ к информационным ресурсам Веб не обеспечивает достаточно оперативного доступа к ним.

При реализации технологий текстового поиска в Веб учитываются специфика Веб как среды поиска, особенности поддерживаемых в ней информационных ресурсов, а также поведения пользователя при взаимодействии с Веб.

Ранние поисковые системы Веб, называемые также поисковыми машинами Веб, обеспечивали простейший контекстный поиск. Позднее стали появляться реализации булевских моделей поиска. В последние годы интерес к проблемам текстового поиска в Веб значительно вырос. Разными коллективами проводятся многочисленные и разнообразные исследования в этой области.

В настоящее время существует целый спектр систем текстового поиска для Веб. Среди них имеются системы универсальные и ориентированные на определенные предметные области, системы международного и национального масштаба. К их числу относятся крупнейшая многоязыковая поисковая система AltaVista, системы Yahoo, Google, поисковая система по русским страницам Веб Yandex и многие другие. Они различаются областью действия – составом сканируемых Веб-серверов, организацией пользовательских интерфейсов, функциональными возможностями механизмов поиска. Все они поддерживают различные версии булевской модели поиска. Некоторые системы обеспечивают ранжирование результирующего множества документов. Система AltaVista реализует некоторое подобие обратной связи релевантности. Эта система предоставляет пользователю гистограмму, характеризующую статистику найденного множества документов по классам. Пользователь может отобрать интересующие его классы. Далее поиск повторяется в рамках идентифицированного таким способом подмножества информационных ресурсов, доступных системе.

Весьма серьезных новых достижений в развитии систем текстового поиска в среде Веб можно ожидать в связи с интенсивными разработками платформы XML -  технологической платформы Веб нового поколения.  Важно заметить, что системы текстового поиска в Веб, основанные стандартах на платформе XML, обеспечивают уменьшение гранулярности поиска. Объектами поиска при этом вовсе не обязательно должны быть полные документы. Поисковая система может выдавать по запросам пользователей интересующие их фрагменты документов. Кроме того представление текстовых информационных ресурсов Веб средствами XML позволяет использовать различные средства описания их семантики и на этой основе существенно снизить уровень информационного шума при обработке пользовательских запросов. 

Новые требования к системам текстового поиска. Новые условия применения и открывшиеся новые возможности выдвигают новые требования к системам текстового поиска. Перечислим главные из них:

Обеспечение способности систем тестового поиска эффективно работать с очень большими коллекциями документов;

Разработка методов существенного улучшения представления смысла документов и пользовательских поисковых запросов;

Обеспечение возможностей для совместной обработки текстовых документов с документами иной природы – статическими изображениями, аудио, видео и др.;

Разработка эффективных методов поиска не только в статических коллекциях, но и в потоках документов;

Создание методологии оценки систем, построение тестовых коллекций, проведение экспериментов.

В последние годы создателями технологий текстового поиска сделано очень многое для того, чтобы используемые системы удовлетворяли этим требованиям.

Контрольные вопросы

Как можно охарактеризовать круг проблем текстового поиска?

Какие дополнительные функциональные возможности обеспечиваются развитыми современными системами текстового поиска?

Какие модели текстового поиска реализованы в ряде коммерческих серверов баз данных?

Почему проблема текстового поиска в Веб стала актуальной?

Охарактеризуйте обеспечиваемые в настоящее время возможности текстового поиска в Веб. Какие модели поиска реализуются в известных поисковых машинах Веб?

Какие важнейшие требования предъявляются к дальнейшему развитию систем текстового поиска?

Литература для дополнительного чтения

, , Стрелков индексирования и поиска изображений и видеоданных на основании визуального содержания //Сборник трудов Второй Всероссийской конференции “Электронные библиотеки: перспективные методы и технологии, электронные коллекции”, 26-28 сентября 2000 г., Протвино.

, Котов информационно-поисковые системы.  – М.: Советское радио, 1968.

, Лукашевич и автоматическое концептуальное индексирование в университетской информационной системе РОССИЯ //Сборник трудов Третьей Всероссийской конференции “Электронные библиотеки: перспективные методы и технологии, электронные коллекции”, Петрозаводск, 11-13 сентября 2001 г.

, Лагутин документы в корпоративных сетях. - М.: Анкей - Экотренд, 1999.

  Электронные библиотеки – развитие продолжается. МАИК “Наука/Интерпериодика”, Программирование. – 2002. - №4.

Когаловский технологий баз данных. – М.: Финансы и статистика, 2002. – 800 с.

Когаловский технологии информационных систем. – М.: АйТи-пресс - ДМК, 2002 (в печати).

Королев выборки нужного слова из словаря. В сб. “Вычислительная техника”, ИТМ и ВТ АН СССР, 1958.

, Некрестьянов систем текстового поиска. МАИК «Наука/Интерпериодика», Программирование. – 2002. - № 4.

Курбаков и поиск информации в автоматическом словаре. – М.: Радио и связь, 1968.

, , Черный информатики. - М.: Наука, 1968.

истемы текстового поиска для Веб. МАИК «Наука/Интерпериодика», Программирование. – 2002. - № 4.

Попов с ЭВМ на естественном языке. – М.: Наука, 1982.

втоматическая обработка, хранение и поиск информации.
/Пер. с англ., под ред. . - М.: Советское радио, 1973. – 560 с.

роцессор запросов Microsoft SQL Server. СУБД. – 1998. - № 3, с. 37-56.

ANSI/NISO Z39.85-2001. Dublin Core Metadata Element Set. National Information Standards Organization, 2001. http://www. niso. org/standards/resources/Z39-85.pdf.


Глава 10. Технологии Веб

Глобальная гипермедийная распределенная информационная система World-Wide Web, функционирующая в среде Интернет и часто называемая в отечественной литературе «Всемирной паутиной», является одним из крупнейших научно-технических достижений последнего десятилетия XX века, основой ряда новых информационных технологий, имеющих весьма значимые социально-экономические последствия.

Идеи проекта, реализованного первоначально для использования в CERN (Европейский центр ядерных исследований, Женева) в конце 80-х годов, в короткие сроки воплотились в беспрецедентно интенсивно развивающуюся открытую бесконечно масштабируемую распределенную гипермедийную систему с прозрачными для пользователя распределением и неоднородностью ресурсов, обеспечивающую окрытые возможности публикации и свободный доступ к большинству информационных ресурсов в любой момент времени. Количество пользователей и объем представленных в ней информационных ресурсов продолжают чрезвычайно быстро наращиваться.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99