81

А. А. Рогов, Г. Б. Гурин, А. А. Котов

*****@

Петрозаводский государственный университет

СИНТАКСИЧЕСКАЯ РАЗМЕТКА В КОРПУСЕ ТЕКСТОВ ПО РУССКОЙ ПУБЛИЦИСТИКЕ XIX ВЕКА «СМАЛТ»

В статье описывается создаваемый в рамках гранта РГНФ №в (рук. А. А. Рогов) синтаксически размеченный корпус текстов публицистики XIX века (http://smalt. *****/corpus/index. phtml), обосновывается выбор теории и параметров разметки, обсуждаются некоторые сложности аннотирования. Эта работа является продолжением разработки морфологически размеченного корпуса публицистических текстов XIX века [1], основу которого в настоящее время составляют тексты В. И. Даля, Ф. М. Достоевского и близких ему публицистов.

Выбор схемы синтаксического аннотирования

Существующие немногочисленные корпусы со встроенной синтаксической разметкой опираются либо на общепринятые классификации традиционной описательной грамматики (Хельсинкский аннотированный корпус русских текстов ХАНКО; http://www. slav. helsinki. fi/hanco/ index. html), либо на доступные узкому кругу специалистов и требующие детального предварительного знакомства классификации Такова, например, разметка в терминах деревьев зависимостей и синтаксических отношений, принятых в теории «Смысл-Текст», используемая в Национальном корпусе русского языка (http://**). Эти пути аннотирования в целом решают разные задачи и имеют свои достоинства и недостатки.

Теория членов предложения не разграничивает различные аспекты его организации. Ее несомненный плюс - это внешне очевидные процедурная простота и доступность (впрочем, простота обманчивая, если учитывать множественность способов морфологического выражения того или иного члена предложения, свойственную русскому языку), позволяющая вполне успешно применять эту теорию в практике средней школы, причем при изучении не только родного, но и иностранного языка. Минусы теории не менее очевидны: это в первую очередь нечеткость и множественность критериев, далеко не всегда бесспорных; во-вторых, ориентация на установление поверхностных синтаксических связей и отношений между членами предложения, которые могут быть не единичны, и тогда, например, возникает принципиально компромиссное понятие дуплексива.

НЕ нашли? Не то? Что вы ищете?

Однако при создании синтаксически размеченного корпуса выбор «меньшего из зол» оказывается неизбежен: тот же принцип простоты и доступности может оказаться приоритетным и базовым. Опора на традиционную «школьную» классификацию существенно облегчает работу с корпусом и расширяет круг потенциальных пользователей до всех, кто получил школьное образование, однако пользователю придется смириться с недостатками традиционного подхода: нечеткостью понятий и, соответственно, разметки, множественностью и некоторой произвольностью синтаксического описания. Такой корпус скорее является удобным источником иллюстраций для преподавателей русского языка, переводчиков, он полезен для редакторов и самого широкого круга заинтересованных лиц.

Классификации, принятые в рамках той или иной научной школы, заведомо осложняют процедуру овладения ресурсом, так как требуют тщательного знакомства с принципами разметки и единицами классификации, однако такое аннотирование в большей степени свободно от противоречий традиционного анализа.

В создаваемом корпусе в основу синтаксической разметки положена идея структурной схемы в понимании Н. Ю. Шведовой и ее последователей, впервые отчетливо заявленная в «Грамматике современного русского литературного языка» [2], позднее наиболее полно отраженная и развитая в «Русской грамматике» [3].

С одной стороны, это обеспечивает достаточно широкий охват потенциальных пользователей, так как знакомство с классификацией синтаксических образцов в терминах структурных схем предполагается стандартными вузовскими курсами синтаксиса на филологических факультетах, эти классификации описываются в целом ряде распространенных учебников, с другой стороны, анализ формы предложения позволяет объективировать и упорядочить, насколько это возможно, систему разметки.

При последовательном применении этой теории на выходе мы должны получить строго упорядоченный и конечный список структурных схем простого предложения, что имеет очевидные преимущества. Насколько нам известно, эта теория до сих пор не применялась для анализа крупного массива текстов, и в процессе работы возникла необходимость более тщательного ее изучения.

Теория структурных схем предложения

Сама теория собственно структурного описания синтаксиса не нова и в последнее время почти не привлекает сколько-нибудь пристального внимания исследователей, воспринимаемая достаточно скептически. Исключением можно считать созданный и содержательный раздел в университетском курсе под ред. [см. 4]. Теория была разработана Пражской школой, которая ввела в научный оборот понятия «модель», «схема», «формула» предложения. Идеи пражцев были развиты на русской почве , и др.

Как справедливо замечает , «спорным уже в чешской синтаксической концепции оказался вопрос, что принадлежит к конститутивным, определяющим, неотъемлемым компонентам формулы предложения» [4: 633]. Бесспорным было включение в состав схему предикативного ядра, но при этом одни полагали, что к конститутивным компонентам схемы также следует относить обстоятельственные и объектные распространители глагола-предиката, без которых он не употребляется, другие считали обязательными только объектные.

Еще одним спорным моментом был вопрос о том, в какой степени при строении формулы (схемы) предложения следует учитывать его лексическое наполнение, неслучайно П. Адамец использовал такое понятие, как охарактеризованные формулы, в которые содержат обязательное указание на лексико-семантический класс глагола.

Следует согласиться с и в том, что учение Пражской школы было в целом компромиссным: «при всех различиях в понимании того, какие элементы входят в структурную схему, а какие - нет, чешские синтаксисты не ограничивают формулу предложения только предикативным минимумом; они учитывают такую особенность формулы предложения, как ее способность служить основанием для построения законченной коммуникативной единицы…» [4: 633]

В русской синтаксической теории спорные моменты не только сохранились, но и привели к созданию принципиально разных концепций. Согласно «Русской грамматике» (1980), «структурная схема простого предложения - это абстрактный синтаксический образец, по которому может быть построено отдельное минимальное относительно законченное предложение» [3: 92]. Обратим внимание: относительно законченное предложение. Фактически структурная схема сводится к предикативному минимуму: «это имеющий свою формальную организацию и свое языковое значение синтаксический образец, по которому может быть построено отдельное нераспространенное (элементарное) предложение. Такие предикативные основы (структурные схемы) предложения являются абстракциями, отвлекаемыми от неограниченного множества конкретных предложений» [3: 85].

Компромиссным, подобным тому, что было в Пражской школе, можно считать введение понятий минимальной и расширенной схемы предложения, между которыми существуют отношения включения. При этом формируется также конечный список минимальных схем, построенный на несколько иных, чем в «Русской грамматике», основаниях, и меньший по объему [подробнее см. 5].

Часто на практике исследователи, использующие понятие структурной схемы, при описании живого языкового материала применяют индуктивный принцип и выстраивают собственный список схем - с большей или меньшей ориентацией на «Русскую грамматику», точнее – на содержащиеся в ней общетеоретические положения. Поэтому создание полного списка структурных схем простого предложения (в корпусе размечаются предикативные клаузы) – отдельная научная проблема, не имеющая пока своего окончательного решения по нескольким причинам.

Во-первых, если говорить о сущности языковой модели вообще, то следует безоговорочно признать: конкретный языковой материал во всем его многообразии всегда будет богаче любой модели и далеко не всегда будет вписываться в ее жесткие рамки. Что неизбежно. В этой связи, как кажется, уместно сослаться на мнение : «Модель всегда является некоторой идеализацией объекта. Реальные явления очень сложны. <…> Идеализация такого рода приводит к огрублению живого явлениями схематизации (ср. метод «словесного портрета»), которую сторонники классического языкознания склонны считать недопустимым насилием над языком. Но без такой схематизации научное описание невозможно; научная концепция того или иного явления «скорее диаграмма, чем картина», и ученый, который стал бы настаивать на внесении в эту диаграмму всех фактов, касающихся данного явления, не смог бы справиться ни с одной научной задачей» [6].

Во-вторых, идея описания синтаксического строя языка на основе перечня абстрактных схем (формул), созданного частью дедуктивным методом, частью на основе интуитивных представлений, при пристальном рассмотрении оказывается несколько ущербной уже потому, что она все же отражает синтаксическую «поверхность» и, как кажется, по своей сути не предполагает глубинного проникновения ни в грамматику, ни в семантику. Используя образное выражение , можно сказать, что структурные схемы все еще напоминают «рентгеновские снимки, которые, "фотографируя" объект, позволяют увидеть в нем что-то, прямому наблюдению недоступное» [7]. (Заметим, что сама так не считает, адресуя эту характеристику первым моделям, которые создавались еще в рамках грамматики непосредственных составляющих). Именно поэтому не следует ожидать от структурной схемы (модели) чего-то особенного.

В-третьих, в концепции и ее последователей «сам объект моделирования понимался… слишком узко <… >. Построенные… структурные схемы не позволяют интерпретировать их как знаки, т. е. соотнести каждую единицу списка с фиксированным содержанием обобщенно-пропозиционного типа» [7]. Заметим, однако, что и ее коллеги из Института филологии Сибирского Отделения РАН вполне успешно разрабатывают концепцию синтаксических моделей (в несколько ином, чем у , понимании) для описания синтаксического строя разносистемных языков Сибири, изначально не ставя перед собой задачи составления закрытого списка.

В-четвертых: наличие закрытого списка схем (при создании корпуса это необходимо) предполагает наличие процедуры соотнесения конкретных синтаксических конструкций с перечнем схем-образцов. Если учесть то разнообразие способов выражения предикативной основы, возможности перифразировки, которые существуют в русском языке, то следует разработать четкие и логичные процедурные правила. Как показывает практика, именно отсутствие этих правил является наиболее слабым, уязвимым местом теории.

Основа синтаксического аннотирования в корпусе

На данный момент мы можем говорить о том, что в научном обороте существуют как минимум три списка структурных схем – различные как количественно, так и качественно: 1) список схем «Русской грамматики» (1980); 2) список «минимальных схем» В. А. Белошапковой; 3) список схем О. А. Крыловой и Е. Н. Ширяева [4]. Последние на основе достаточно убедительного теоретического обоснования значительно переработали и дополнили исходный список свободных структурных схем «Русской грамматики».

Именно эта классификация является на сегодняшний день наиболее полной и точной и с небольшими изменениями и дополнениями была взята за основу разметки настоящего корпуса.

Этот выбор объясняется двумя причинами: во-первых, использование структурных схем для синтаксической разметки в корпусе имеет свою специфику, во-вторых, ситуация изучения вопроса такова, что ни один из существующих списков структурных схем нельзя признать окончательно полным. Таким образом, на выходе мы получили наиболее полный и сбалансированный список структурных схем простого предложения, который будет использован для синтаксической разметки текстов. Окончательный список свободных используемых в разметке корпуса схем таков:

Свободные структурные двухкомпонентные схемы

А. Раздельнопредикативные схемы:

1. Подлежащно-сказуемостные схемы

1а. С координируемыми главными членами

·  N1+Vf: Иван читает газету; Пиши письмо; Ты бы подумал.

·  N1+(сор)+N1: Бог есть любовь.

·  N1+Adj: День сегодня холодный; Старики ворчливы.

·  N1+Part: Брак расторгнут.

1б. С некоординируемыми главными членами.

·  N1+ N2…(Adv): Отец в саду; Сад недалеко.

·  N1+Inf: Мой долг – воспрепятствовать вам; Какая мука — воспитывать!

·  N1+(сор)+Praed: Шахматы — это здорово.

·  Inf+Praed(part): Читать неохота, Курить вредно.

·  Inf+(сор)+N1: Помогать ему – моя обязанность.

·  Inf+Vf3s: Рассчитывать на большее не приходится.

·  Inf+Pronneg: Спорить тут не о чем.

·  Inf+Inf: Курить — здоровью вредить.

2. Неподлежащно-сказуемостные схемы.

·  N2+(не) Vf3s: Беды не случится.

·  N2/N4+(не) Praed(part): Следов не видно, Нарушений не обнаружено, Людей жаль.

·  N4+Vf3s: Ивана укачивает.

·  N2+N1quant (Adv quant): Народу толпа, Ягод полно.

·  N2+нет: Замечаний нет.

·  N3+ Vf3s: Ей не спится.

·  N3+Praed: Мне лень.

·  N2+никого/ничего: Народу никого.

Б. Слитнопредикативные схемы:

·  Praed(part) N4/N2: Жалко девочку, Видно следы, Не видно следов, Не жалко денег, Нажарено пирожков.

·  N1quant(Adv quant) N2: Масса дел.

·  Praed(part) Inf: Время разбрасывать камни, Нужно держаться, Приказано отступать.

·  Pronneg Inf: Не с кем поговорить.

·  Нет N2: Нет денег.

·  Vf3s N2: Прибавилось забот.

·  Vf3s Inf: Придется уступить.

·  Никого/Ничего N2: Никого народу.

·  Ни N2: Ни души.

Свободные структурные однокомпонентные схемы

1. Спрягаемо-глагольные.

·  Vf3s: Холодает.

·  Vfpl3: Звонят.

2. Именные.

·  N1: Ночь.

·  N2: Народу-то!

·  N2 / N4: Чаю! Шампанского! Ваши документы!

·  Adjpl кратк: Нам были рады; Вами недовольны.

3. Инфинитивные.

·  Inf: Стоять смирно!

4. Наречные.

·  Praed(part): Холодно, Занято.

Классификация фразеологизированных схем в разметке не используется. Все единицы такого рода единообразно и получают статус фразеологизированных без дальнейшей детализации. Это связано с тем, что более или менее подробной и полной компромиссной классификации этих типов структур нет: в «Русской грамматике» (1980) их всего 14, а в сводном списке синтаксических фразем М. В. Копотева таких единиц 79 [8]. Однако в планах разработчиков провести разметку и этого массива синтаксических объектов после составления некоей компромиссной классификации.

В ходе разметки данного корпуса были обнаружены многочисленные несовершенства используемой классификации и лежащей в ее основе теории, что потребовало от разметчиков принятия целого ряда частных решений, формализующих процедуру принятия решения и идентификации структурного образца. Полученный в результате выполнения проекта синтаксически размеченный корпус может быть использован при научных изысканиях в области истории, грамматики, лексикографии, а также при изучении соответствующих курсов студентами филологических специальностей. Кроме того, он может быть востребован специалистами по литературе XIX века.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

 А., , Сидоров размеченный корпус по русской публицистике второй половины XIX века // Проблемы компьютерной лингвистики: сборник научных трудов. Вып. 3. Воронеж: Издательско-полиграфический центр Воронежского государственного университета, 2008. С. 209-219. Грамматика современного русского литературного языка. М.: Наука. 1970. Русская грамматика. М.: Наука. 1980. Т. 2. Современный русский язык: Фонетика. Лексикология. Словообразование. Морфология. Синтаксис / Под общ. ред. Л. А. Новикова. СПБ.: Лань. 2003. С. 631-644. Современный русский язык: Учеб. для филол. спец. ун-тов, Под ред. . Изд. 2-е, испр. и доп. М., 1989. С. 632 – 656 Апресян лингвистической модели// Лингвистические модели. Электронный ресурс. Режим доступа: www. mariab.h1.ru/index. files/Yaz/ Apresian/ Apresin2.html Черемисина моделей элементарного простого предложения в тюркских языках Южной Сибири. Электронный ресурс. Режим доступа: www. baikaldivo.ru/library/ etnography/ fold_08/ article_ 05.htm Копотев М. В. Принципы синтаксической идиоматизации. Helsinki: Helsinki University Press. 2008.