ПРИНЦИПЫ РИТОРИЧЕСКОЙ РАЗМЕТКИ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ
Институт системного анализа ФИЦ ИУ РАН, *****@***ru
Работа посвящена обзору существующих методов представления дискурсивной структуры, а также их дальнейшему практическому применению. Целями исследования является адаптация Теории риторических структур к русскому языку и создание корпуса текстов с дискурсивной разметкой в рамках данной теории.
Ключевые слова: анализ дискурса, дискурсивная структура, теория риторических структур, корпусная разметка.
Введение
Основные разделы лингвистики выделяются соответственно тому уровню языка, которому они посвящены: фонетика, морфология, синтаксис. Эти уровни образуют иерархическую структуру, и чем выше уровень, тем более крупными единицами оперирует соответствующая дисциплина. На вершине этой иерархии находится дискурсивный анализ: он выходит за рамки предложения (единицы синтаксического уровня).
В последнее время возрастает интерес к дискурсивному анализу в области компьютерной лингвистики, так как он может быть применим для решения таких актуальных задач обработки текста, как автоматическое реферирование, извлечение информации, определение жанровой принадлежности текста, генерация текстов, в области машинного перевода и др. Помимо лингвистических задач, возможно, например, медицинское применение дискурсивного анализа – неврологическая диагностика [1].
Теории дискурса
Существует несколько различных подходов к представлению дискурсивной структуры. Наиболее известные из них это – Penn Discourse Treebank [2] и Rhetorical Structure Theory (Теория риторических структур) [3]. Принципиальным отличием теории Penn Tree Bank является то, что для определения дискурсивных связей авторы пользуются лексическим критерием: дискурсивное отношение в их понимании имеет эксплицитное выражение – лексический маркер (чаще всего это союзы и вводные слова). В качестве аргументов отношения может выступать одна или несколько клауз. При этом дискурсивная разметка необязательно представляет собой единое дерево для всего текста.
Однако более перспективной нам представляется Теория риторических структур (ТРС) В. Манна и С. Томпсон, упомянутая выше [3]. Это теория, созданная в 1980-х годах, описывает иерархическую организацию текста. Предполагается, что каждая единица дискурса (в базовом варианте – клауза) связана риторическим (или дискурсивным) отношением по крайне мере с одной другой единицей и является узлом дискурсивного дерева. Внутри отношения дискурсивная единица может выступать в роли ядра (основной части) или сателлита (сопутствующей части). В зависимости от распределения этих ролей отношения делятся на ассиметричные (одноядерные) и симметричные (мультиядерные). Так как авторы ТРС оставляют другим исследователям возможность варьировать список отношений, в разных работах длина списка может существенно различаться (количество отношений может достигать 80-ти), однако базовый набор включает 23 отношения. Приведем некоторые из них: одноядерные – причина, следствие, антитеза, детализация, оценка, обстоятельство, резюме и др., мультиядерные – контраст, сравнение, переформулировка и др. В ТРС риторические отношения определяются на основе функциональных и семантических признаков, поэтому наличие формальных признаков (лексических маркеров) для определения того или иного отношения факультативно.
Принципиальной особенностью ТРС является тот факт, что аргументами отношений могут быть как элементарные дискурсивные единицы, так и единицы более высокого уровня, т. е. другие риторические отношения. Поэтому на разных уровнях иерархии используются одни и те же риторические отношения.
Несмотря на то, что за рубежом уже существует огромное количество исследований в рамках теории риторических структур, для русского языка вопросам построения дискурсивной структуры текста посвящено крайне мало работ. На сегодняшний день едва ли не единственным размеченным корпусом является корпус устных текстов, созданный и его коллегами (корпус детских рассказов о сновидениях) [4]. Однако корпусов письменных текстов с риторической разметкой на русском языке до сих пор не существует.
Риторическая разметка для текстов на русском языке
В данной работе разрабатывается теоретическая основа для дискурсивной разметки текстов на русском языке в рамках Теории риторических структур. В общем варианте анализ риторической структуры текста делится на два этапа: выделение элементарных дискурсивных единиц (ЭДЕ) и установление отношений между ними. Поэтому в исследовании, прежде всего, дается определение ЭДЕ, а так же выделяются критерии ее выделения. Базовым вариантом ЭДЕ является клауза, т. е. предикация, поэтому в качестве отдельной ЭДЕ выделяются все части предложения, содержащие сказуемое, включая однородные сказуемые. Исключением являются придаточные изъяснительные, не входящие в состав предложения с косвенной речью. В некоторых случаях выделение той или иной единицы зависит от ее семантики. Так, как отдельные ЭДЕ выделяются деепричастные обороты и предложные группы со значением: причины, цели, сопутствующих и предшествующих действий.
Следующей задачей исследования является определение списка отношений, так как в различных работах их состав и количество могут существенно различаться. Опираясь на базовую работу Теории риторических структур В. Манна и С. Томпсон [3] и на инструкцию к разметке Л. Карлсона и Д. Марку [5], а также отталкиваясь от собственного пробного опыта разметки, мы выделили следующий список отношений:
· Одноядерные (фон, причина, следствие, вывод, подготовка, условие, уступка, антитеза, детализация, цель, оценка, обоснование, решение, мотивация, источник).
· Мультиядерные (конъюнкция, сравнение, контраст, последовательность, переформулировка).
Все вышеназванные критерии и определения стали основной для разработки инструкции по дискурсивной разметке русскоязычных текстов. В качестве материала для корпуса были выбраны 30 текстов различных жанров из корпуса СинТагРус. Для построения риторических деревьев используется открытый он-лайн разметчик, разработанный А. Зельдесом, Джорджтаунский университет [6].
Кроме того, в рамках данного исследования ведется работа по созданию списка лексических маркеров риторических отношений, а также по выявлению соотношения этих маркеров с конкретными риторическими отношениями.
Заключение
Создание русскоязычного корпуса текстов с риторической разметкой является очень важной и востребованной задачей. На данном этапе работы необходима доработка инструкции по дискурсивной разметке, а также уточнение состава риторических отношений. В дальнейшем этот корпус будет использован при разработке дискурсивного парсера для русского языка. Предполагается, что данный парсер будет работать на основе правил, учитывающих в том числе и дискурсивные маркеры, а также на основе методов машинного обучения. Такой дискурсивный парсер будет использован для решения множества задач обработки текстов на русском языке.
Литература
1. Анализ дискурса в когнитивной перспективе //Дисс.… докт. филол. наук. – 2003.
2. Miltsakaki E. et al. The Penn Discourse Treebank //LREC. – 2004.
3. Mann W. C., Thompson S. A. Rhetorical structure theory: Toward a functional theory of text organization. // Text, 1988, Vol. 8, №. 3, pp.243-281.
4. и др. (ред.). Рассказы о сновидениях: Корпусное исследование устного русского дискурса. – Litres, 2014.
5. Carlson L., Marcu D. Discourse tagging reference manual //ISI Technical Report ISI-TR-545. – 2001. – Т. 54.
6. rstWeb - Browser Annotation of Rhetorical Structure Theory: https://corpling. uis. georgetown. edu/rstweb/info/
PRINCIPLES OF A RHETORICAL ANNOTATION OF TEXTS IN RUSSIAN LANGUAGE
Kobozeva M. V.
Institute for Systems Analysis, FRC CSC RAS, *****@***ru
This paper presents the review of methods of discourse analysis and practical application of them. We describe our attempt to apply of Rhetorical Structure Theory for Russian language and creation of discourse-annotated corpus of texts in the framework of this theory.
Кеу words: organization of discourse, discourse structure, rhetorical structure theory, annotation, corpus.


