Типы ошибок, встречающихся в результатах работы лингвистического процессора арабских текстов


Ошибка

Пример

Причина ошибки

1. Неверное определение леммы – самая распространенная ошибка, встречающаяся при разборе неогласованного текста

предлог Ъбм (“в; на”) переводится как имя собственное “Али”;

глагол ЯуЭум ("течь; капать; просачиваться, проходить, проникать") разбирается как жуЯуЭ ("быть достаточным; хватать");

предлог бц (“для”) разбирается как союз бу (“то”) и т. д.

вариантов разбора может быть несколько, выбор варианта мотивирован работой статистико-вероятностных эвристик

2. Неверное определение породы глагола

глагол в пятой породе КужуЪшуП ("грозить, угрожать") определяется как глагол того же корня в четвертой породе ГужъЪуП ("обещать; давать обещание, обязательство, обязываться; подавать надежды; сулить, предвещать");

глагол в первой породе ИубуЫ ("достигать, доходить") разбирается как глагол того же корня во второй породе ИубшуЫ ("доставлять; доводить; сообщать, извещать")

такой вариант разбора возможен, но чтобы токенизатор выбрал правильный вариант, учитывая контекст, необходимо подключение синтаксического модуля

3. Слово разбирается, а перевод не указывается

союз бцГудшу ("потому что, так как"), перевод не указан

в словаре нет леммы li>an~a, которая приписана токенизатором к данной форме, есть лемма  li>an~a_1

4. Пропуск в разборе целых синтаксических объектов

"ббФеСнд" - "на два месяца; в течение двух месяцев" – при разборе пропускается совсем;

"ИГЫбИнЙ" - "большинством; с перевесом" – при разборе также пропускается;

пропуск синтаксического объекта "жТгбЗБе" - "и его коллеги";

пропущено слово "ЗжИЗн", означающее фамилию (возможно, “Опей” или “Упай”);

Ошибка вызвана противоречием в делегировании граммемы

5. Ошибка при переводе слова, когда лемма определена верно, а перевод дан неправильный

причастие "ЗбгхСъКуИцШуЙ" переведено как "связь, соединение; союз, лига; корпорация, консорциум", а правильный перевод – "связанный";

слово "ЗбгхФуСшцЪхжду" переведено как "закон; правоведение", а правильный перевод - "законовед, юрист; адвокат";

слово "ЪцдъПуЖцРт" переведено как “когда”, а правильный перевод - "тогда, в то время; при этом";

слово "ЗбгцЖуЙ" переведено как “процент”, а правильный перевод - “сто”

неправильный перевод в словаре

6. Ошибка при переводе слова, когда лемма определена верно, а перевод дан неполный

при разборе местоимения РбЯ ("то, тот") не дается перевод  “это, этот”;

при разборе слова "НужЗбун" ("вокруг; в окружности; в обхвате; с начала до конца, напролет") не указан перевод "около, приблизительно"

такой перевод не дается в словаре

7. Пропуск при разборе чисел

числительное "42.8" пропущено при разборе;

числительное "52.8" также пропущено при разборе

отсутствие модуля распознавания чисел

8. Неправильный перевод иностранных слов и имен собственных

"ЗбЯхждъМСцУ" переводится как “Сонгресс”, а правильный перевод - “Конгресс”

внутренняя ошибка словаря

9. Грамматическая ошибка – неправильное определение числа у существительных

"ГужЗОцС" (“концы”) разбирается в единственном числе

"ФхЯхжЯЗр" (“сомнения”) разбирается также в единственном числе

отсутствие в базе соответствия формы ломаного множества лемме

10. Неправильный перевод иностранных имен собственных

"МцнСцнш" (переведено как "карман; вырез (у платья); перен. очаг, гнездо") - неверный выбор леммы, должно быть имя собственное, скорее всего, "Джерри";

"бхжцнУ" (переведено как "знамя; провинция; воен. бригада; бригадный генерал; генерал-майор") - неверный выбор леммы, должно быть имя собственное, скорее всего, "Льюис"

Некорректная обработка имен имен собственных