Структурно-вероятностная модель монгольского языка
(на базе Генерального корпуса современного монгольского языка)
1) О Генеральном корпусе монгольского языка
Создана первоначальная версия корпуса современного монгольского языка[1] (далее ― СМЯ), включающего тексты разных жанров:
― 1) художественную прозу XX в. (романы, повести, рассказы, очерки);
― 2) поэзию XX в.;
― 3) перевод эпоса «Сокровенное сказание» на современный монгольский язык;
― 4) подборку газетных статей (из газеты «Даяар монгол»).
Корпус содержит 966 текстов (длиной 1 155 583 слов). Основные разделы корпуса представлены в Таблице 1.
Таблица 1
том | автор | название | перевод | год | длина тома в словах |
1 | хрестоматия | Монголын өгүүллэгийн цоморлиг | Антология монгольских рассказов | ― | 186215 |
2 | Тунгалаг тамир | Прозрачный Тамир | 1967 | 167163 | |
3 | хрестоматия | Монголын шилдэг өгүүллэг | Избранные монгольские рассказы | ― | 148251 |
4 | Цаг төрийн үймээн | Тревожные годы | 1985 | 128670 | |
5 | Шилмэл Өгүүлэгүүд | Избранные рассказы | ― | 93939 | |
6 | Д. Намдаг өгүүлэггүүд | Рассказы | ― | 78768 | |
7 | Заан залуудай | Зан Залудай | 1964 | 62191 | |
8 | Д. Нацагдоржийн түүвэр | Избранное | ― | 43854 | |
9 | Сүмтэй бударын чулуу | Священные камни | 1990 | 40748 | |
10 | Монголын нууц товчоо | Сокровенное сказание монголов | 1976 | 40714 | |
11 | Цахилж яваа гөрөөс | Скачущая антилопа | 1981 | 28142 | |
12 | Багын явдал | Детство | 1972 | 24348 | |
13 | хрестоматия | Монголын шилдэг яруу найраг | Избранная монгольская поэзия | ― | 18709 |
14 | Түүвэр зохиол | Избранные произведения | ― | 17698 | |
15 | Алтан замагт буу | Ружье с золотым затвором | ? | 16511 | |
16 | Адтай Мятав | Смышленый Мятав | 1980 | 6472 | |
17 | хрестоматия | Монголын яруу найргийн цоморлиг | Антология монгольской поэзии | ― | 5852 |
18 | выборка | Даяар монгол | (газетные статьи) | 2009― 2011 | 47608 |
итого графических словоформ | 1155853 |
Также были созданы морфологический анализатор, словарь на 63 071 лексему, таблица омонимов; были проведены лемматизация и глоссирование корпуса (в духе Лейпцигских правил глоссирования[2]). На данный момент морфологический анализатор для СМЯ работает под управлением информационной среды StarLing[3]. Разработка находится на экспериментальной стадии: эффективно анализируется 97% текстовых словоформ (соответствующих 89% словоформ, являющихся входами в конкорданс словоформ). Распознание включает в себя лемматизацию (т. е. возведение к той или иной словарной вокабуле) и грамматический разбор (т. е. возведение к той или иной грамматеме), поэтому в нижеприведенной таблице отдельно приведены сведения о доле «хоть как-то» проанализированных словоформ, о доле лемматизированных (лексически размеченных) словоформ, о доле грамматически разобранных (грамматически размеченных) словоформ и о доле полностью проанализированных (и лемматизированных, и грамматически разобранных) словоформ.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 |


