КомпьютернЫЙ АНАЛИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ

, *****@***ru

Дальневосточный федеральный университет, г. Уссурийск

Аннотация

В работе приведены результаты статистического анализа пунктуационной системы литературных произведений. Вычиcлены доли пунктуационных знаков в общем объеме текста. Показано, что для отобранных произведений наблюдается достаточно отчетливое разделение на «поэтические» и «прозаические» тексты по величине доли пунктуационных знаков.

Художественные произведения, являясь специфическим типом текстовой информации, трудно поддаются машинной обработке с семантической точки зрения. В частности, одной из проблем является формальное разделение художественных текстов на прозу и поэзию.

Формальный анализ текстовой информации, проводимый с помощью компьютерных технологий в настоящее время приобретает особую актуальность в связи с увеличившимися объемами подобной информации благодаря сети Интернет. В качестве такого формального подхода можно предложить исследование пунктуационной системы анализируемого текста.

Значение и роль пунктуационной системы русского языка находятся в поле внимания различных исследователей. отмечает, что пунктуационная система русского языка, как мощное смысловое и стилистическое средство служит для передачи оттенков смысла и интонации, ритма и стиля [1, с.240]. Интерес представляет исследование, посвященное сравнительному анализу пунктуационных систем английского и русского языков [2]. Изучению знаков препинания как текстообразующих единиц научного текста посвящено исследование [3].

НЕ нашли? Не то? Что вы ищете?

Ранее нами отмечалось влияние пунктуационной системы на адекватность отображения устной речи при помощи письменной [4]. Это связано с тем, что устная речь содержит несколько важных информационных слоев – семантический, интонационный и эмоциональный. Если с отображением семантики письменная речь еще справляется, то с передачей интонаций и эмоций имеются значительные проблемы.

Формирование эмоционального слоя текста связано его модальностью. По мнению , отношение говорящего (пишущего) к действительности, постулируемое как основной признак модальности, в той или иной мере характерно для всякого высказывания…. текстовая модальность особенно рельефно выступает в поэтических произведениях [5, с.113].

Поскольку авторское отношение к тексту, как правило, является эмоциональным, то помимо модальных слов и конструкций в построение эмоционального слоя текста включается пунктуационная система языка.

В анализе художественного текста важной задачей является различение текста поэтического и прозаического. Согласно литературному энциклопедическому словарю поэзия – это стихотворные произведения в их соотнесенности с художественной прозой… специфическое, нередко необъяснимое воздействие на читателя поэзии, позволяющее говорить о ее тайне, во многом определяется этой неуловимостью художественного смысла [6, с.293, с.306]. в своей статье «Разделение поэзии на роды и виды» отмечает, что «Поэзия есть высший род искусства» и «Поэзия говорит не описаниями, а картинами и образами; поэзия не описывает и не списывает предмета, а создает его» [7, с.5]. Проза определяется как прозаические художественные произведения в их соотнесенности (преимущественно противопоставленности) с поэзией [6]. Приведенные определения достаточно размыты и многозначны, что затрудняет их использование, особенно в системах компьютерной обработки информации.

В основу нашего исследования была положена следующая гипотеза: Учитывая, что поэтическое произведение отличается от прозаического большей степенью эмоциональности, а для передачи эмоционального слоя в текстовой информации служит пунктуационная система русского языка, предположим, что чем больше доля пунктуационных знаков в тексте, тем выше вероятность того, что данный текст является поэтическим.

Для анализа нами были выбраны 11 произведений (см. табл.1) [8]. Произведение «Египетские ночи» представляет собой композитный текст, содержащий большие фрагменты «прозаического» и «стихотворного» текстов. Поэтому это произведение анализировалось как по частям («прозаическая» и «стихотворная»), так и в целом.

При проведении анализа вычислялось общее количество знаков в тексте, затем определялось количество заданных пунктуационных знаков. Далее определялась доля пунктуационных знаков как отношение их количества к общему количеству всех знаков в тексте.

Рассматривались следующие пунктуационные знаки: дефис, кавычки, вопросительный знак, двоеточие, точка, запятая, восклицательный знак.

Из полученных результатов следует, что относительно доли пунктуационных знаков рассмотренные 11 произведений можно разбить на две группы:

Группа 1 – усредненные значения доли более 0,3%;

Группа 2 – усредненные значения доли менее 0,3%.

Таблица 1.

Типы произведений .

Название

Вид текста

1

Руслан и Людмила

группа 2

2

Сказка о золотом петушке

группа 2

3

Сказка о мёртвой царевне и о семи богатырях

группа 1

4

Сказка о попе и о работнике его Балде

группа 1

5

Сказка о рыбаке и рыбке

группа 1

6

Сказка о царе Салтане, о сыне его славном и могучем богатыре князе Гвидоне Салтановиче и о прекрасной царевне Лебеди

группа 1

7

Капитанская дочка

группа 2

8

Арап Петра Великого

группа 2

9

Дубровский

группа 2

10

Евгений Онегин

группа 2

11

Египетские ночи (полностью)

группа 2

12

Египетские ночи (прозаческая часть)

группа 2

13

Египетские ночи (стихотворная часть)

группа 2

Согласно нашей гипотезы группу 1 можно отнести к «поэтическим» произведениям, а группу 2 – к «прозаическим» (табл.1).

Из таблицы 1 следует неожиданный вывод, что произведения «Руслан и Людмила» и «Сказка о золотом петушке» следует отнести к прозаическим произведениям. Такой результат свидетельствует либо об ошибочности примененного нами метода, либо о действительной интерпретации данных произведений как прозаических. Доли пунктуационных знаков – точка, запятая, восклицательный знак, практически одинаковы для всех проанализированных произведений. Это означает, что эти пунктуационные знаки не влияют на эмоциональный слой текста. В отношении восклицательного знака подобный результат также представляется неожиданным.

Таким образом, нами показано, что проанализированные 11 произведений можно разделить на две группы – «проза» и «поэзия» по величине доли пунктуационных знаков в тексте.

Литература

1.  Валгина процессы в современном русском языке: Учебное пособие для студентов вузов. М.: Логос, 2003. 304 с., с.240.

2.  Сравнительный анализ употребления знаков препинания в русском и английском языках // [Электронный ресурс]. Режим доступа: http://bibliofond. ru/view. aspx? id=82740. [Дата обращения: 20.10.2015].

3.  Критская препинания как текстообразующие единицы (автоматизация анализа и редактирования в научном тексте). // [Электронный ресурс]. Режим доступа: http:///znaki-prepinaniya-kak-tektoobrazuyuschie-edinitsy-avtomatizatsiya-analiza-i-redaktirovaniya-v-nauchnom-tekste. [Дата обращения: 09.10.2015].

4.  Ким письменности в образовательном процессе // Вестник МГОУ, 2015, №2. –С.70 – 78.

5.  Гальперин как объект лингвистического исследования. –М.: Наука, 1981. – 140 с., с.113

6.  Литературный энциклопедический словарь (под общ. ред. и ). –М., 1987. –752 с., с.293-Поэзия, с.306-Проза

7.  Белинский сочинений в трех томах. Т.2. М.: ОГИЗ, 1948. –932 с., с.5-Поэзия есть высший род искусства, с.32-на две противоположные стороны поэзию и прозу

8.  Пушкин сочинений в 10 тт. –Москва: ГИХЛ, 1959-1962.