КомпьютернЫЙ АНАЛИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ
, *****@***ru
Дальневосточный федеральный университет, г. Уссурийск
Аннотация
В работе приведены результаты статистического анализа пунктуационной системы литературных произведений. Вычиcлены доли пунктуационных знаков в общем объеме текста. Показано, что для отобранных произведений наблюдается достаточно отчетливое разделение на «поэтические» и «прозаические» тексты по величине доли пунктуационных знаков.
Художественные произведения, являясь специфическим типом текстовой информации, трудно поддаются машинной обработке с семантической точки зрения. В частности, одной из проблем является формальное разделение художественных текстов на прозу и поэзию.
Формальный анализ текстовой информации, проводимый с помощью компьютерных технологий в настоящее время приобретает особую актуальность в связи с увеличившимися объемами подобной информации благодаря сети Интернет. В качестве такого формального подхода можно предложить исследование пунктуационной системы анализируемого текста.
Значение и роль пунктуационной системы русского языка находятся в поле внимания различных исследователей. отмечает, что пунктуационная система русского языка, как мощное смысловое и стилистическое средство служит для передачи оттенков смысла и интонации, ритма и стиля [1, с.240]. Интерес представляет исследование, посвященное сравнительному анализу пунктуационных систем английского и русского языков [2]. Изучению знаков препинания как текстообразующих единиц научного текста посвящено исследование [3].
Ранее нами отмечалось влияние пунктуационной системы на адекватность отображения устной речи при помощи письменной [4]. Это связано с тем, что устная речь содержит несколько важных информационных слоев – семантический, интонационный и эмоциональный. Если с отображением семантики письменная речь еще справляется, то с передачей интонаций и эмоций имеются значительные проблемы.
Формирование эмоционального слоя текста связано его модальностью. По мнению , отношение говорящего (пишущего) к действительности, постулируемое как основной признак модальности, в той или иной мере характерно для всякого высказывания…. текстовая модальность особенно рельефно выступает в поэтических произведениях [5, с.113].
Поскольку авторское отношение к тексту, как правило, является эмоциональным, то помимо модальных слов и конструкций в построение эмоционального слоя текста включается пунктуационная система языка.
В анализе художественного текста важной задачей является различение текста поэтического и прозаического. Согласно литературному энциклопедическому словарю поэзия – это стихотворные произведения в их соотнесенности с художественной прозой… специфическое, нередко необъяснимое воздействие на читателя поэзии, позволяющее говорить о ее тайне, во многом определяется этой неуловимостью художественного смысла [6, с.293, с.306]. в своей статье «Разделение поэзии на роды и виды» отмечает, что «Поэзия есть высший род искусства» и «Поэзия говорит не описаниями, а картинами и образами; поэзия не описывает и не списывает предмета, а создает его» [7, с.5]. Проза определяется как прозаические художественные произведения в их соотнесенности (преимущественно противопоставленности) с поэзией [6]. Приведенные определения достаточно размыты и многозначны, что затрудняет их использование, особенно в системах компьютерной обработки информации.
В основу нашего исследования была положена следующая гипотеза: Учитывая, что поэтическое произведение отличается от прозаического большей степенью эмоциональности, а для передачи эмоционального слоя в текстовой информации служит пунктуационная система русского языка, предположим, что чем больше доля пунктуационных знаков в тексте, тем выше вероятность того, что данный текст является поэтическим.
Для анализа нами были выбраны 11 произведений (см. табл.1) [8]. Произведение «Египетские ночи» представляет собой композитный текст, содержащий большие фрагменты «прозаического» и «стихотворного» текстов. Поэтому это произведение анализировалось как по частям («прозаическая» и «стихотворная»), так и в целом.
При проведении анализа вычислялось общее количество знаков в тексте, затем определялось количество заданных пунктуационных знаков. Далее определялась доля пунктуационных знаков как отношение их количества к общему количеству всех знаков в тексте.
Рассматривались следующие пунктуационные знаки: дефис, кавычки, вопросительный знак, двоеточие, точка, запятая, восклицательный знак.
Из полученных результатов следует, что относительно доли пунктуационных знаков рассмотренные 11 произведений можно разбить на две группы:
Группа 1 – усредненные значения доли более 0,3%;
Группа 2 – усредненные значения доли менее 0,3%.
Таблица 1.
Типы произведений .
№ | Название | Вид текста |
1 | Руслан и Людмила | группа 2 |
2 | Сказка о золотом петушке | группа 2 |
3 | Сказка о мёртвой царевне и о семи богатырях | группа 1 |
4 | Сказка о попе и о работнике его Балде | группа 1 |
5 | Сказка о рыбаке и рыбке | группа 1 |
6 | Сказка о царе Салтане, о сыне его славном и могучем богатыре князе Гвидоне Салтановиче и о прекрасной царевне Лебеди | группа 1 |
7 | Капитанская дочка | группа 2 |
8 | Арап Петра Великого | группа 2 |
9 | Дубровский | группа 2 |
10 | Евгений Онегин | группа 2 |
11 | Египетские ночи (полностью) | группа 2 |
12 | Египетские ночи (прозаческая часть) | группа 2 |
13 | Египетские ночи (стихотворная часть) | группа 2 |
Согласно нашей гипотезы группу 1 можно отнести к «поэтическим» произведениям, а группу 2 – к «прозаическим» (табл.1).
Из таблицы 1 следует неожиданный вывод, что произведения «Руслан и Людмила» и «Сказка о золотом петушке» следует отнести к прозаическим произведениям. Такой результат свидетельствует либо об ошибочности примененного нами метода, либо о действительной интерпретации данных произведений как прозаических. Доли пунктуационных знаков – точка, запятая, восклицательный знак, практически одинаковы для всех проанализированных произведений. Это означает, что эти пунктуационные знаки не влияют на эмоциональный слой текста. В отношении восклицательного знака подобный результат также представляется неожиданным.
Таким образом, нами показано, что проанализированные 11 произведений можно разделить на две группы – «проза» и «поэзия» по величине доли пунктуационных знаков в тексте.
Литература
1. Валгина процессы в современном русском языке: Учебное пособие для студентов вузов. М.: Логос, 2003. 304 с., с.240.
2. Сравнительный анализ употребления знаков препинания в русском и английском языках // [Электронный ресурс]. Режим доступа: http://bibliofond. ru/view. aspx? id=82740. [Дата обращения: 20.10.2015].
3. Критская препинания как текстообразующие единицы (автоматизация анализа и редактирования в научном тексте). // [Электронный ресурс]. Режим доступа: http:///znaki-prepinaniya-kak-tektoobrazuyuschie-edinitsy-avtomatizatsiya-analiza-i-redaktirovaniya-v-nauchnom-tekste. [Дата обращения: 09.10.2015].
4. Ким письменности в образовательном процессе // Вестник МГОУ, 2015, №2. –С.70 – 78.
5. Гальперин как объект лингвистического исследования. –М.: Наука, 1981. – 140 с., с.113
6. Литературный энциклопедический словарь (под общ. ред. и ). –М., 1987. –752 с., с.293-Поэзия, с.306-Проза
7. Белинский сочинений в трех томах. Т.2. М.: ОГИЗ, 1948. –932 с., с.5-Поэзия есть высший род искусства, с.32-на две противоположные стороны поэзию и прозу
8. Пушкин сочинений в 10 тт. –Москва: ГИХЛ, 1959-1962.


