Структурно-вероятностная модель монгольского языка (на базе Генерального корпуса современного монгольского языка) (стр. 1 )

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

Структурно-вероятностная модель монгольского языка

(на базе Генерального корпуса современного монгольского языка)

1) О Генеральном корпусе монгольского языка

Создана первоначальная версия корпуса современного монгольского языка[1] (далее ― СМЯ), включающего тексты разных жанров:

― 1) художественную прозу XX в. (романы, повести, рассказы, очерки);

― 2) поэзию XX в.;

― 3) перевод эпоса «Сокровенное сказание» на современный монгольский язык;

― 4) подборку газетных статей (из газеты «Даяар монгол»).

Корпус содержит 966 текстов (длиной 1 155 583 слов). Основные разделы корпуса представлены в Таблице 1.

Таблица 1

том	автор	название	перевод	год	длина тома в словах
1	хрестоматия	Монголын өгүүллэгийн цоморлиг	Антология монгольских рассказов	―	186215
2		Тунгалаг тамир	Прозрачный Тамир	1967	167163
3	хрестоматия	Монголын шилдэг өгүүллэг	Избранные монгольские рассказы	―	148251
4		Цаг төрийн үймээн	Тревожные годы	1985	128670
5		Шилмэл Өгүүлэгүүд	Избранные рассказы	―	93939
6		Д. Намдаг өгүүлэггүүд	Рассказы	―	78768
7		Заан залуудай	Зан Залудай	1964	62191
8		Д. Нацагдоржийн түүвэр	Избранное	―	43854
9		Сүмтэй бударын чулуу	Священные камни	1990	40748
10		Монголын нууц товчоо	Сокровенное сказание монголов	1976	40714
11		Цахилж яваа гөрөөс	Скачущая антилопа	1981	28142
12		Багын явдал	Детство	1972	24348
13	хрестоматия	Монголын шилдэг яруу найраг	Избранная монгольская поэзия	―	18709
14		Түүвэр зохиол	Избранные произведения	―	17698
15		Алтан замагт буу	Ружье с золотым затвором	?	16511
16		Адтай Мятав	Смышленый Мятав	1980	6472
17	хрестоматия	Монголын яруу найргийн цоморлиг	Антология монгольской поэзии	―	5852
18	выборка	Даяар монгол	(газетные статьи)	2009― 2011	47608
итого графических словоформ	1155853

Также были созданы морфологический анализатор, словарь на 63 071 лексему, таблица омонимов; были проведены лемматизация и глоссирование корпуса (в духе Лейпцигских правил глоссирования[2]). На данный момент морфологический анализатор для СМЯ работает под управлением информационной среды StarLing[3]. Разработка находится на экспериментальной стадии: эффективно анализируется 97% текстовых словоформ (соответствующих 89% словоформ, являющихся входами в конкорданс словоформ). Распознание включает в себя лемматизацию (т. е. возведение к той или иной словарной вокабуле) и грамматический разбор (т. е. возведение к той или иной грамматеме), поэтому в нижеприведенной таблице отдельно приведены сведения о доле «хоть как-то» проанализированных словоформ, о доле лемматизированных (лексически размеченных) словоформ, о доле грамматически разобранных (грамматически размеченных) словоформ и о доле полностью проанализированных (и лемматизированных, и грамматически разобранных) словоформ.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4

НЕ нашли? Не то? Что вы ищете?

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Структурно-вероятностная модель монгольского языка (на базе Генерального корпуса современного монгольского языка) (стр. 1 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Структурно-вероятностная модель монгольского языка

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы