Учебно-методический комплекс (стр. 6 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

9. Информационный поиск.

Основные понятия информационного поиска. Ключевое слово, дескриптор, координатное индексирование. Информационно-поисковый язык, информационно-поисковые системы. Документальный и фактографический информационный поиск. Термин, терминология, терминоведение, терминография. Типы терминологических словарей. Многозначные слова в терминологических словарях. Словарь-тезаурус, его роль в поиске информации.

Ко всем потокам ввода-вывода (которые могут быть связаны как с файлами, так и с папками, сокетами и FIFO) можно получить доступ через так называемые файловые дескрипторы. Файловый дескриптор - это неотрицательное целое число. Когда создается новый поток ввода-вывода, ядро возвращает процессу, создавшему поток ввода-вывода, его файловый дескриптор. В Windows для получения дескриптора файла его необходимо открыть функцией Create File. Затем полученный дескриптор (или handle) можно использовать для работы с этим файлом. Если это драйвер, то дескриптор будет использоваться в функции DeviceIoControl. Информационный поиск (ИП) (англ. Information retrieval) - процесс поиска неструктурированной документальной информации и наука об этом поиске.

Сначала системы автоматизированного информационный поиск, или информационно-поисковые системы (ИПС), использовались лишь для управления информационным взрывом в научной литературе. Многие университеты и публичные библиотеки стали использовать ИПС для обеспечения доступа к книгам, журналам и другим документам. Широкое распространение ИПС получили с появлением сети Интернет. У русскоязычных пользователей наибольшей популярностью пользуются поисковые системы Google, Яндекс и Рамблер. Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех таких, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные. Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам. В общем случае поиск информации состоит из четырех этапов: определение (уточнение) информационной потребности и формулировка информационного запроса; определение совокупности возможных держателей информационных массивов (источников); извлечение информации из выявленных информационных массивов; ознакомление с полученной информацией и оценка результатов поиска. Полнотекстовый поиск - поиск по всему содержимому документа. Пример полнотекстового поиска - любой интернет-поисковик, например www. yandex. ru, www. . Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы. Поиск по метаданным - это поиск по неким атрибутам документа, поддерживаемым системой - название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам - диалог поиска в файловой системе (например, MS Windows). Поиск по изображению - поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Xcavator, Retrievr, PolarRose, Picollator Online by Recogmission. Методы поиска. Адресный поиск. Процесс поиска документов по чисто формальным признакам, указанным в запросе. Для осуществления нужны следующие условия: наличие у документа точного адреса; обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы. Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище. Семантический поиск. Процесс поиска документов по их содержанию. Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса. Составление поискового описания, в котором указывается дополнительное условие поиска. Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске - с точки зрения содержания. При семантическом поиске находится множество документов без указания адресов. В этом принципиальное отличие каталогов и картотек. Библиотека - собрание библиографических записей без указания адресов. Документальный поиск. Процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя. Два вида документального поиска. Библиотечный, направленный на нахождение первичных документов. Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей. Фактографический поиск. Процесс поиска фактов, соответствующих информационному запросу. К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения. Документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты. Фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации. Информационный поиск как наука. Информационный поиск - большая междисциплинарная область науки, стоящая на пересечении когнитивной психологии, информатики, информационного дизайна, лингвистики, семиотики, и библиотечного дела. ИП рассматривает поиск информации в документах, поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы. Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой. В настоящее время ИП - это бурно развивающаяся область науки, популярность которой обусловлено экспоненциальным ростом объемов информации, в частности в сети Интернет. ИП посвящена обширная литература и множество конференций. Одной из наиболее известных является TREC, организованной в 1992 Министерством обороны США совместно с Институтом Стандартов и Технологий (NIST) с целью консолидации исследовательского сообщества и развития методик оценки качества ИП.

НЕ нашли? Не то? Что вы ищете?

10. Системы машинного перевода.

Основные этапы разработки систем машинного перевода. История машинного перевода. Возникновение идеи машинного перевода (МП). Первые опыты. Роль вычислительной техники в появлении идеи МП. Основные этапы развития идеи МП. Три периода в развитии МП. Перевод с использованием способов кодирования смысла. Языки-посредники. Автоматический анализ и синтез для МП. Морфологический, синтаксический, лексический, семантический уровни анализа и синтеза текста для МП, достигнутые результаты и проблемы осуществления качественного машинного перевода. Лексический анализ и словари для МП. Словарь оборотов. Контекстологический словарь для алгоритмического разрешения лексической многозначности. Современное состояние и перспективы развития машинного перевода. Современные системы МП практического использования в России и за рубежом. Машинный перевод как часть технологии компьютерной обработки текста. Статистический машинный перевод - (Statistical machine translation - SMT) - разновидность машинного перевода, где перевод генерируется на основе статистических моделей, параметры которых являются производными от анализа двуязычных корпусов текста (text corpora). Статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Статистический машинный перевод противопоставляют системам машинного перевода, основанным на правилах Rule-Based Machine Translation (RBMT) и на примерах Example-Based MT (EBMT). Первые идеи статистического машинного перевода были опубликованы Уорреном Уивером (Warren Weaver), в 1949 году. «Вторая волна» - начало 1990-х, IBM. «Третья волна» - Google, Microsoft, Language Weaver, Яндекс. Разработчики систем машинного перевода для улучшения качества вводят некоторые «сквозные» правила, тем самым превращая чисто статистические системы в Гибридный машинный перевод. Добавление некоторых правил, то есть создание гибридных систем, несколько улучшает качество переводов, особенно при недостаточном объёме входных данных, используемых при построении индекса машинного переводчика.

11. Автоматическая обработка звучащей речи.

Ментальное и физическое представление речевого сигнала: основные характеристики и принципиальные различия. Характер связи между ментальным и физическим представлениями. Основные методы автоматического распознавания речи: динамическое программирование, скрытые марковские цепи, нейроподобные сети. Подробная характеристика одного из этих методов. Лингвистический подход к автоматическому распознаванию речи. Метод чтения динамических спектрограмм как основа построения базы знаний (экспертная система) для лингвистического декодирования речевых сигналов.

Запись речевого сигнала (РС). Основные требования к записывающей технике (микрофон, магнитофон, компьютерная запись) и условиям записи. Цифровое кодирование РС: дискретизация и амплитудное квантование, контролируемые параметры и установки. Оптимальные режимы оцифровки РС. Основные акустические параметры речи, их физические и перцептивные характеристики, единицы измерения (антропоморфная ориентация). Компьютерные методы обработки речевого сигнала во временной области. Редактирование, монтаж сигнала и другие операции. Комплексная акустическая параметризация РС – ключевые понятия. Методы получения амплитудной информации, тональной (частота основного тона), автосегментация и длительность звуковых единиц речи. Контролируемые установки и режимы компьютерного анализа указанных акустических параметров. Компьютерные методы получения спектральной информации (Фурье-преобразование, кепстральный анализ, линейное предсказание, цифровая фильтрация). Цифровые спектральные срезы и динамические спектрограммы. Контролируемые параметры и установки спектрального анализа речи. Комплексная акустическая параметризация речевого сигнала с помощью компьютера. Примеры конкретных акустических процессоров: основные принципы работы, устройство и функциональные возможности. Современные речевые технологии. Речевые корпуса (базы данных). Речевые корпуса как основа развития речевых технологий на современном этапе, краткая история разработок в этой области. Основные типы речевых корпусов и их применение. Технологические этапы создания баз данных, компьютерный и интеллектуальный инструментарий. Краткая характеристика акустико-фонетической базы TIMIT (американский английский) и RUSPEECH (русский). Горячие точки в сфере создания речевых корпусов на современном этапе развития. Автоматический синтез речи. Основные направления разработок в области автоматического синтеза речи: генерация звучащего текста, «Текст-Речь» системы, ресинтез. Блок-схема прототипического синтезатора речи по произвольному тексту («Текст-Речь» система). Основные структурные элементы и задачи разработки. Лингвистическое обеспечение в «Текст-Речь» системах. Фонетически ориентированные алгоритмы обработки текста в целях его фонетизации, автоматические транскрипторы и кодировщики, алгоритмы акустической параметризации. Принципы формирования акустических инвентарей. Основные методы автоматической генерации речевого сигнала: артикуляторный синтез, параметрический синтез (формантный; на основе акустико-статистических моделей звуковых единиц), конкатенативный (компилятивный) синтез. Современные гибридные модификации. Проблема оценки качества синтезированной речи: разборчивость и естественность. Автоматическое распознавание речи (АРР). Возможность чисто фонетического распознавания (без использования лингвистической информации более высоких уровней). Лингвистический (экспертный) подход к распознаванию речи. Метод чтения динамических спектрограмм как основа построения базы знаний для лингвистического декодирования речевых сообщений. Математическая база современных технологий распознавания речи: распознавание по спектральным эталонам с использованием алгоритмов динамического программирования (ДП=DTW); вероятностно-статистические методы распознавания на основе скрытых марковских моделей (СММ=HMM), нейроподобные сети (МСП=MLP). Речевые и текстовые корпуса как основа построения акустической и грамматической моделей языка.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы