Типы ошибок, встречающихся в результатах работы лингвистического процессора арабских текстов
Ошибка | Пример | Причина ошибки |
1. Неверное определение леммы – самая распространенная ошибка, встречающаяся при разборе неогласованного текста | предлог Ъбм (“в; на”) переводится как имя собственное “Али”; глагол ЯуЭум ("течь; капать; просачиваться, проходить, проникать") разбирается как жуЯуЭ ("быть достаточным; хватать"); предлог бц (“для”) разбирается как союз бу (“то”) и т. д. | вариантов разбора может быть несколько, выбор варианта мотивирован работой статистико-вероятностных эвристик |
2. Неверное определение породы глагола | глагол в пятой породе КужуЪшуП ("грозить, угрожать") определяется как глагол того же корня в четвертой породе ГужъЪуП ("обещать; давать обещание, обязательство, обязываться; подавать надежды; сулить, предвещать"); глагол в первой породе ИубуЫ ("достигать, доходить") разбирается как глагол того же корня во второй породе ИубшуЫ ("доставлять; доводить; сообщать, извещать") | такой вариант разбора возможен, но чтобы токенизатор выбрал правильный вариант, учитывая контекст, необходимо подключение синтаксического модуля |
3. Слово разбирается, а перевод не указывается | союз бцГудшу ("потому что, так как"), перевод не указан | в словаре нет леммы li>an~a, которая приписана токенизатором к данной форме, есть лемма li>an~a_1 |
4. Пропуск в разборе целых синтаксических объектов | "ббФеСнд" - "на два месяца; в течение двух месяцев" – при разборе пропускается совсем; "ИГЫбИнЙ" - "большинством; с перевесом" – при разборе также пропускается; пропуск синтаксического объекта "жТгбЗБе" - "и его коллеги"; пропущено слово "ЗжИЗн", означающее фамилию (возможно, “Опей” или “Упай”); | Ошибка вызвана противоречием в делегировании граммемы |
5. Ошибка при переводе слова, когда лемма определена верно, а перевод дан неправильный | причастие "ЗбгхСъКуИцШуЙ" переведено как "связь, соединение; союз, лига; корпорация, консорциум", а правильный перевод – "связанный"; слово "ЗбгхФуСшцЪхжду" переведено как "закон; правоведение", а правильный перевод - "законовед, юрист; адвокат"; слово "ЪцдъПуЖцРт" переведено как “когда”, а правильный перевод - "тогда, в то время; при этом"; слово "ЗбгцЖуЙ" переведено как “процент”, а правильный перевод - “сто” | неправильный перевод в словаре |
6. Ошибка при переводе слова, когда лемма определена верно, а перевод дан неполный | при разборе местоимения РбЯ ("то, тот") не дается перевод “это, этот”; при разборе слова "НужЗбун" ("вокруг; в окружности; в обхвате; с начала до конца, напролет") не указан перевод "около, приблизительно" | такой перевод не дается в словаре |
7. Пропуск при разборе чисел | числительное "42.8" пропущено при разборе; числительное "52.8" также пропущено при разборе | отсутствие модуля распознавания чисел |
8. Неправильный перевод иностранных слов и имен собственных | "ЗбЯхждъМСцУ" переводится как “Сонгресс”, а правильный перевод - “Конгресс” | внутренняя ошибка словаря |
9. Грамматическая ошибка – неправильное определение числа у существительных | "ГужЗОцС" (“концы”) разбирается в единственном числе "ФхЯхжЯЗр" (“сомнения”) разбирается также в единственном числе | отсутствие в базе соответствия формы ломаного множества лемме |
10. Неправильный перевод иностранных имен собственных | "МцнСцнш" (переведено как "карман; вырез (у платья); перен. очаг, гнездо") - неверный выбор леммы, должно быть имя собственное, скорее всего, "Джерри"; "бхжцнУ" (переведено как "знамя; провинция; воен. бригада; бригадный генерал; генерал-майор") - неверный выбор леммы, должно быть имя собственное, скорее всего, "Льюис" | Некорректная обработка имен имен собственных |


