МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное агентство по образованию
Федеральное государственное образовательное учреждение
высшего профессионального образования
«Санкт-Петербургский государственный университет»
Филологический факультет
Кафедра информационных систем в искусстве и гуманитарных науках
Специальность
«Прикладная информатика
в области искусств и гуманитарных наук»
Курсовая работа по специализации
«Электронные коллекции в гуманитарной сфере»
Конкорданс акцентуированного корпуса современного русского языка
Студентки 4 курса
Рощиной Александры Сергеевны
Руководитель
доц., к. ф.-м. н.
Санкт-Петербург
2006
АннотацияОтчет 29 с., 3 ч., 2 рис., 2 табл., 5 источников, 2 прил.
КОНКОРДАНСЕР, КОНКОРДАНС, КОРПУС ТЕКСТОВ, СЛОВОФОРМА, РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ, КОРПУСНАЯ ЛИНГВИСТИКА, НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА
Объектом исследования являются тексты, разработанные в рамках проекта «Национальный корпус русского языка».
Цель работы – создание программы-конкордансера для построения конкорданса текстов указанного выше проекта.
В процессе работы строились веб-интерфейсы для взаимодействия с пользователем и шаблоны на языке регулярных выражений для нахождения совпадений в текстах корпуса с запрошенной пользователем словоформой.
В результате была создана программа-конкордансер, позволяющая получить список вхождений запрошенной словоформы (включая контекст найденной словоформы) в тексты корпуса, а также пожанровую и подокументную частотность данной словоформы.
Основные конструктивные и технико-эксплуатационные показатели: высокое качество и наглядность результатов поиска.
Степень внедрения - программа является одной из частей сайта, посвященного упомянутому проекту.
Эффективность программы – в качественной обработке текстового материала корпуса. Программа может быть использована для исследований в области корпусной лингвистики.
Содержание
Введение 6
1 Корпусная лингвистика и создание корпуса 7
1.1 Определения 7
1.2 История создания корпусов 8
1.3 Репрезентативность корпуса 10
1.4 Национальный корпус русского языка 10
2 Конкордансы и конкордансеры 12
3 Описание конкордансера для Национального корпуса русского языка 15
3.1 Общее описание 15
3.1.1 Структура корпуса 15
3.1.2 Интерфейс программы 15
3.1.3 Принцип поиска 16
3.1.4 Вывод результатов 16
3.1.5 Алгоритм работы программы 16
3.2 Комментарии к программе 18
3.2.1 Определение рабочих переменных и констант 18
3.2.2 Обработка запроса пользователя 19
3.2.3 Создание шаблонов поиска 21
3.2.4 Просмотр текстов и сохранение результатов поиска 22
3.2.5 Генерирование результатов поиска и создание протокола запроса 25
Заключение 27
Список использованных источников 28
ример пользовательского запроса 29
ример вывода результатов запроса 30
Определения, обозначения и сокращения
В настоящем отчете о курсовой работе применяют следующие термины с соответствующими определениями:
Англ. | Английский |
ИПС | Информационно-поисковые системы |
Конкордансер | программа построения конкорданса |
Корпус текстов | Некоторое собрание текстов, в основе которого лежит логический замысел и логическая идея (реализована в правилах организации текстов в корпус, в алгоритмах и программах анализа), объединяющая эти тексты. Словоформа - слово, рассматриваемое как представитель определенной лексемы и определенной грамматической формы |
Корпусная лингвистика | Наука, разрабатывающая общие принципы построения лингвистических корпусов данных с использованием современных компьютерных технологий |
РАН | Российская Академия Наук |
Репрезентативность корпуса | Качество, присущее корпусу текстов, определяющее достоверность полученных на нем результатов |
Словарь-конкорданс | Словарь примеров употребления слов в контексте фиксированной длины |
СНГ | Содружество независимых государств |
СПб | Санкт-Петербург |
Текстоформа | Набор знаков «от пробела (знака препинания) до пробела (знака препинания)» при машинной обработке текстов |
В последней четверти XX века возникла и начала бурно развиваться информатика. Новые технологии постепенно проникли во все области человеческой жизни, ознаменовывая переход общества в информационную эру. Традиционная для индустриальной эпохи ориентация на массовое стандартизованное производство товаров, стремление к одинаковости и предсказуемости интересов различных слоев населения сменились на признание индивидуальности и уникальности увлечений людей одной социальной группы, переход на больший в процентном отношении упор на производство услуг, появление новой формы стратификации общества – не на основе доступности значительной денежной массы, а на основе обладания определенным знанием в той или иной предметной области. Таким образом, важная роль отводится возможности авторизованного или свободного доступа к определенному информационному ресурсу как форме представления данных и знаний.
Новая компьютеризированная среда открывает широкие перспективы для исследования огромных массивов информации не вручную, а с помощью высокоскоростных технологий современного вычислительного оборудования.
Внедрение таких технологий создало условия для развития корпусной лингвистики, занимающейся разработкой, созданием и использованием текстовых корпусов – электронных коллекций текстов, подготовленных специально (отобранных и специфически размеченных) для научных исследований. Важной частью работы с корпусом является создания конкорданса для представления всех словоформ, встретившихся в корпусе, и конкордансера – программы, осуществляющей обработку материалов корпуса.
Корпусная лингвистика ставит перед собой проблему описания некоей конкретной языковой системы на основе изучения непосредственной коммуникации людей и фиксирования речевого материала в корпусе текстов, пригодном для дальнейшего эффективного использования другими лингвистическими дисциплинами.
Целью данной курсовой работы было создание программы-конкордансера для построения конкорданса на основе материалов проекта «Национальный корпус русского языка» (руководитель , ответственный исполнитель ).
1 Корпусная лингвистика и создание корпуса 1.1 ОпределенияВ современном обществе все более совершенствуются и усложняются процессы коммуникации между людьми. С возникновением компьютеров появляются такие формы общения, как, например, Интернет. Новые отношения требуют тщательного изучения, для того, чтобы в изменившихся условиях человек не потерял способности адекватно воспринимать окружающий мир и эффективно строить свою речь в рамках своей культурной традиции. Наравне с этим, с появлением вычислительной техники, способной быстро обрабатывать огромные массивы текстовой информации, лингвисты-исследователи получают мощный аппарат для изучения языка и выявления не известных ранее закономерностей. Для изучения же языка лингвистам необходимо иметь для работы доступный и компактный речевой материал, достаточно полно отражающий реальную речевую действительность. То есть возникает потребность в так называемых корпусах текстов, представленных в электронном виде.
Главными целями корпусной лингвистики, по словам В. Рыкова [1], являются:
- лингвистическое описание языковой системы особый способ отражения речевого материала в корпусе текстов, который может использоваться другими лингвистическими дисциплинами
В отличие от традиционной лингвистики, корпусная занимается не изучением языка, а изучением речи во всех ее проявлениях (художественная, научная, разговорная,..), представленной в корпусе специально подобранных текстов. Часто здесь используются вероятностные, статистические и индуктивные методы обработки материала, а не логические рассуждения и дедукция традиционной лингвистики, больше доверяют эмпирически собранным данным, а не процедурам и оценкам, полученным в результате накопления опыта многовековых исследований. Основным рабочим инструментом для корпусной лингвистики представляется корпус, описывающий речевую деятельность в пределах одного или нескольких языков, а также поднимаются вопросы кодирования материалов корпуса для оптимизации последующего поиска в корпусе.
Определение корпуса можно дать, основываясь на четырех основных признаках:
- обязательное размещение на машинном носителе особая разметка, позволяющая применять процедуры электронного поиска (морфологическая, синтаксическая и т. д.) конечный размер репрезентативность (отражение достаточного, в идеале – полного, множества жанров, представленных в языке)
С появлением вычислительной техники корпусная лингвистика начала бурно развиваться. Первым корпусом, обладавшим свойством репрезентативности, был Брауновский Корпус (Brown Corpus), созданный в 1960-е гг. в США в Университете Брауна. В него были включены тексты, опубликованные в США в 1961 году. Объем его составлял 500 фрагментов по 2000 слов в каждом. В соответствии со специальной иерархией жанров были взяты по 5 фрагментов из ежедневной прессы и 2 из еженедельной, фрагменты 4-х детективных рассказов и 20 романов. Первоначальный вариант не содержал никакой особой разметки и был представлен в простом текстовом формате. Авторы корпуса У. Френсис и Г. Кучера опирались на следующие критерии отбора текстов [2]:
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 |


