Структурно-вероятностная модель монгольского языка

(на базе Генерального корпуса современного монгольского языка)

1) О Генеральном корпусе монгольского языка

Создана первоначальная версия корпуса современного монгольского языка[1] (далее ― СМЯ), включающего тексты разных жанров:

― 1) художественную прозу XX в. (романы, повести, рассказы, очерки);

― 2) поэзию XX в.;

― 3) перевод эпоса «Сокровенное сказание» на современный монгольский язык;

― 4) подборку газетных статей (из газеты «Даяар монгол»).

Корпус содержит 966 текстов (длиной 1 155 583 слов). Основные разделы корпуса представлены в Таблице 1.

Таблица 1

том

автор

название

перевод

год

длина тома в словах

1

хрестоматия

Монголын өгүүллэгийн цоморлиг

Антология монгольских рассказов

186215

2

Тунгалаг тамир

Прозрачный Тамир

1967

167163

3

хрестоматия

Монголын шилдэг өгүүллэг

Избранные монгольские рассказы

148251

4

Цаг төрийн үймээн

Тревожные годы

1985

128670

5

Шилмэл Өгүүлэгүүд

Избранные рассказы

93939

6

Д. Намдаг өгүүлэггүүд

Рассказы

78768

7

Заан залуудай

Зан Залудай

1964

62191

8

Д. Нацагдоржийн түүвэр

Избранное

43854

9

Сүмтэй бударын чулуу

Священные камни

1990

40748

10

Монголын нууц товчоо

Сокровенное сказание монголов

1976

40714

11

Цахилж яваа гөрөөс

Скачущая антилопа

1981

28142

12

Багын явдал

Детство

1972

24348

13

хрестоматия

Монголын шилдэг яруу найраг

Избранная монгольская поэзия

18709

14

Түүвэр зохиол

Избранные произведения

17698

15

Алтан замагт буу

Ружье

с золотым затвором

?

16511

16

Адтай Мятав

Смышленый Мятав

1980

6472

17

хрестоматия

Монголын яруу найргийн цоморлиг

Антология монгольской поэзии

5852

18

выборка

Даяар монгол

(газетные статьи)

2009―

2011

47608

итого графических словоформ

1155853

Также были созданы морфологический анализатор, словарь на 63 071 лексему, таблица омонимов; были проведены лемматизация и глоссирование корпуса (в духе Лейпцигских правил глоссирования[2]). На данный момент морфологический анализатор для СМЯ работает под управлением информационной среды StarLing[3]. Разработка находится на экспериментальной стадии: эффективно анализируется 97% текстовых словоформ (соответствующих 89% словоформ, являющихся входами в конкорданс словоформ). Распознание включает в себя лемматизацию (т. е. возведение к той или иной словарной вокабуле) и грамматический разбор (т. е. возведение к той или иной грамматеме), поэтому в нижеприведенной таблице отдельно приведены сведения о доле «хоть как-то» проанализированных словоформ, о доле лемматизированных (лексически размеченных) словоформ, о доле грамматически разобранных (грамматически размеченных) словоформ и о доле полностью проанализированных (и лемматизированных, и грамматически разобранных) словоформ.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4