ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ФАКУЛЬТЕТ ИСКУССТВ

Направление 230700 «Прикладная информатика»

Магистерская программа «Инженерия гуманитарных знаний»

АВТОРЕФЕРАТ

АВТОМАТИЗАЦИЯ ВЫБОРА ПАРАМЕТРОВ
ДЛЯ ЛИНГВИСТИЧЕСКИ АДЕКВАТНОГО ИЗВЛЕЧЕНИЯ КОЛЛОКАЦИЙ

ВЫПУСКНАЯ КВАЛИФИКАЦИОНАЯ РАБОТА

магистра прикладной информатики

Научный руководитель:

д. ф. н., доцент кафедры междисциплинарных

исследований в области языков и литературы

Рецензент:

к. ф. н., доцент кафедры прикладной лингвистики

Санкт-Петербург

2013

Большую часть словарного состава любого языка представляют коллокации, фразеологические обороты, неоднословные целостности, т. е. выражения, особенность толкования которых обусловлена совместной встречаемостью слов в них входящих.
В последние десятилетия интерес к проблеме коллокаций значительно возрос. Появление корпусов текстов, которые позволяют исследователям работать с большим количеством контекстов словоупотреблений, а также развитие информационных технологий позволяет по-новому взглянуть на изучение слова в его контексте. Кроме того, интерес к изучению коллокаций подогревается практической значимостью информации о сочетаемостных предпочтениях слов.

В настоящее время существует несколько программных средств для работы
с коллокациями, поддерживающих русский язык. Очевидно, что они заточены под решение конкретных задач, например: простой поиск коллокаций, получение различных статистических данных о сочетаемостных предпочтениях слов
на предопределенном корпусе текстов, поддержка лексикографических исследований
и др. В зависимости от задач, стоящих перед программами, в них реализован различных круг функциональных возможностей, что в ряде случаев либо существенно ограничивает, либо очень усложняет работу исследователя. Иными словами, существующие программы представляют собой 2 крайности: простой интерфейс
с ограниченным функционалом или реализация широкого круга возможностей при перегруженном и непонятном (для исследователя без серьезной подготовки) интерфейсе.

НЕ нашли? Не то? Что вы ищете?

Кроме того, ни одно исследование в настоящее время не обходится
без статистической оценки. Что касается задачи извлечения коллокаций,
то теоретическая база для этого прекрасно разработана — имеется большое количество различных статистических метрик. Однако использование одних статистических методов дает не вполне однородные результаты, требующие дальнейшей обработки, инструментарий для которой отсутствует. Кроме того, не всегда однозначен даже сам вопрос о выборе той или иной метрики (не говоря уж о порогах и дополнительных параметрах анализа), адекватной задачам и материалу исследования, что диктует необходимость разработки и применения методики сравнения выборок и их оценки.

Иными словами, требуется под новым углом взглянуть на программные средства
для извлечения коллокаций, а также на саму задачу в целом; сконцентрировать внимание не на получении большего объема различных статистических данных, а на их анализе.

Цель данной выпускной квалификационной работы — разработка и программная реализация методики извлечения коллокаций из коллекций текстов разных функциональных стилей.

Для достижения поставленной цели необходимо было решить следующие задачи:

·  провести сопоставительный анализ разных статистических мер и параметров на тестовых выборках;

·  разработать методику извлечения коллокаций;

·  проанализировать существующие программные решения для извлечения коллокаций;

·  разработать программу для извлечения коллокаций;

·  провести исследования на материале коллекций текстов разных функциональных стилей (с сопоставлением разных статистических мер
и параметров);

·  оценить соответствие получаемых списков коллокаций теоретическим
и прикладным лингвистическим задачам (т. е. дать оценку лингвистической адекватности используемых методик извлечения).

Результатом выпускной квалификационной работы является программная реализация методики извлечения коллокаций, которая включает в себя предварительную обработку текстовой коллекции пользователя (в том числе, возможность производить морфологический анализ), статистический анализ
и сравнение списков выдач. Созданная программа ориентирована на ученых-лингвистов, не имеющих серьезного технического образования, и предназначена
для проведения широкого круга исследований, решения различных задач.

Актуальность исследовательской части и программной реализации методики выделения коллокаций (включающей в себя статистический анализ и сравнение списков выдач) несомненна, т. к. задача извлечения и описания коллокаций в текстах разных функциональных стилей высоко востребована в различных областях теоретической и прикладной лингвистики.

В частности, результаты исследований коллокаций могут быть использованы
при решении широкого круга задач обработки естественного языка:

·  информационный и фактографический поиск;

·  машинный перевод;

·  синтез и распознавание речи;

·  разрешение неоднозначности при автоматическом анализе;

·  составление и пополнение словарей (тематических и функциональных)
и онтологий;

·  теоретические исследования сочетаемости, составных единиц;

·  и др.

Объектом исследования в данной работе является сравнение методов извлечения коллокаций и оценка лингвистической адекватности списков коллокаций, полученных на коллекциях текстов разных функциональных стилей.

Предметом исследования в данной работе выступают списки коллокации, извлеченные из корпусов текстов разных функциональных стилей (в частности, научного, новостного и художественного).

В ходе работы были изучены (как в теории, так и на практике) различные методы извлечения коллокаций, проанализирована функциональность нескольких сервисов извлечения биграмм (как подмножества коллокаций). В рамках выпускной квалификационной работы была предложена комплексная методика извлечения коллокаций, позволяющая не только извлекать из пользовательских текстов коллокации (в частности, биграммами и триграммами), но и проводить оценку лингвистической адекватности выбранных методов путем сопоставления списков выдач и экспериментов с информантами.

Методика исследования

Методика извлечения коллокаций, разработанная в рамках данной работы, представляет собой комбинацию вычислительных методов, сравнительного анализа
и экспериментов с информантами.

Структура работы

Структура выпускной квалификационной работы представлена введением, тремя главами и заключением.

Во введении излагается актуальность выбранной темы.

Первая глава «Обзор современной ситуации в области извлечения коллокаций» посвящена проблеме извлечения коллокаций. Основными задачами первой главы были рассмотрение вопроса о необходимости изучения сочетаемостных предпочтений слов, обзору различных подходов и представлений о понимании природы единиц больших,
чем слово, а также существующих программных решений для извлечения коллокаций.

Во второй главе, которая называется «Программная реализация методики извлечения коллокаций», подробно рассказывается о разработке программы
для извлечения устойчивых сочетаний. В данной главе рассматриваются предпосылки
и основные задачи, поставленные перед созданной программой. Представлено исчерпывающее описание работы программы.

В третьей главе представлены результаты исследования коллокаций, для извлечения которых была применена методика, разработанная в рамках выпускной квалификационной работы.

В заключении подводятся общие итоги, рассматривается вопрос о соответствии результатов поставленным целям и задачам.

Результаты выпускной квалификационной работы прошли апробацию на ведущих международных и всероссийских конференциях в области теоретической и прикладной лингвистики и лингвистических технологий:

·  XXXI международной конференции AESLA: «Коммуникация, Познание, Кибернетика» (г. Ла Лагуна, Тенерифе, Испания, 2013 г.);

·  научной конференции «Глагольные и именные категории в системе функциональной грамматики» (г. Санкт-Петербург, Россия, 2013 г.);

·  XLII международной филологической конференции (г. Санкт-Петербург, Россия, 2013 г.);

·  международной конференции «Понимание в коммуникации. Человек
в информационном пространстве – 2012» (г. Ярославль, Россия,2012 г.);

·  2-ой всероссийской конференции молодых ученых (в рамках международной конференции «Интернет и современное общество») (г. Санкт-Петербург, Россия, 2012 г.);

·  международной конференции «NEW MEDIA: Changing Media Landscapes» (г. Санкт-Петербург, Россия, 2012 г.);

·  V международной научно-практической конференции «Тексты: проблемы
и перспективы. Аспекты изучения с целью преподавания русского языка
как иностранного» (г. Москва, Россия, 2011 г.);

·  международной конференции «Корпусная лингвистика – 2011» (г. Санкт-Петербург, Россия, 2011 г.);

·  симпозиуме «Creation, Harmonization and Application of Terminology Resources» (в рамках международной конференции «The 18th Nordic Conference
of Computational Linguistics») (г. Рига, Латвия, 2011 г.).

Содержание работы отражено в следующих публикациях автора:

·  Yagunova E., Savina A. The Information Structure of the Domain “Intellectual Technologies and Computational Linguistics”: Text, Corpus, Context // Proceedings of The 2013 International Conference of Artificial Intelligence. – 2013. – ICAI 2013, Vol. 1. (в печати)

·  Крылова И. В., Пивоварова Л. М., Савина А. Н., Ягунова  новостных сегментов российской «снежной революции»: вычислительный эксперимент и интуиция лингвистов // Понимание в коммуникации: Человек
в информационном обществе : сборник научных трудов / под общ. ред. , . — Ярославль : Изд-во ЯГПУ, 2012 — Т.1. — С. 377-382.

·  Савина А. Н., Ягунова  русских СМИ: типичные словосочетания
и конструкции // Тексты: проблемы и перспективы Аспекты изучения с целью преподавания русского языка как иностранного. Материалы V Международной научно-практической конференции. 24-26 ноября 2011 г., Москва. – М.: МГУ, фил. фак, 2011. – С. 243-244.

·  Савина А. Н., Ягунова  коллокаций с помощью экспериментов с информантами // Труды международной конференции “Корпусная лингвистика – 2011”. 27-29 июня 2011г., Санкт-Петербург. – СПб. : СПбГУ, фил. фак., 2011. – С. 303-308.

·  Savina A., Yagunova E. The Experimental Study of Terminology Collocations: Calculations and Experiments with Informants // Proceedings of the Workshop CHAT 2011: Creation, Harmonization and Application of Terminology Resources. – 2011. – NEALT Proceedings Series, Vol. 12. – P. 40-43.