Отзыв о магистерской диссертации
«Cнятие омонимии вида наречие/существительное и предлог/существительное при автоматическом переводе русскоязычных текстов»
студентки кафедры математической лингвистики
филологического факультета СПбГУ
Колотиловой Янины Леонидовны
В круге задач, связанных с автоматическим (автоматизированным) переводом текстов с одного языка на другой, особое место занимает проблема различного рода омонимии – как морфологической, так и синтаксической. С точки зрения системы машинного перевода омонимия, т. е. графическое совпадение различных языковых единиц, проявляется на всех уровнях анализа текста – на уровне морфем, форм слов, слов, словосочетаний и предложений. В данный момент не существует общего способа разрешения неоднозначностей данного вида, в связи с чем является целесообразным разработка системы правил снятия омонимии, для каждого языка своих.
Автором работы был реализован набор правил снятия морфологической омонимии вида «наречие/существительное» и «предлог/существительное» на материале корпусов газеты «Коммерсант» (18 млн слов) и Национального корпуса русского языка (более 300 млн слов). Из корпусов были извлечены 4144 контекста, из которых в 433 системой ПРОМТ омонимия была снята неправильно. Автором проведен анализ данных контекстов и предложена система правил, позволяющая снять практически все неоднозначности из данной выборки.
Разработанная система правил легко представима в формальном виде и предназначена для интеграции в систему машинного перевода ПРОМТ, а также в другие системы машинного перевода.
Особо следует отметить безусловную практическую пользу исследования, профессионализм автора в вопросах компьютерной лингвистики, хороший стиль изложения и оформления работы.
В то же время хотелось бы отметить следующие недостатки работы:
1. По какому принципу отбирались омонимы для исследования? "Список омонимов был получен в ходе работы с системой при анализе случаев неправильного анализа входного предложения". В работе в Приложении 2 приводятся лишь 20 омонимов, а как же остальные? Или они верно разбираться ПРОМТом?
2. То же с контекстами - выборка хорошая, но вдруг найдутся другие контексты, где правила не сработают?
3. Каким образом делался перевод контекстов - предложение переводилось ПРОМТ-ом "само по себе" или внутри некоего большого текста? В последнем случае, гипотетически, должно переводиться лучше. Или в данном случае это не существенно?
4. Для нескольких классов у вас указано только правило снятия омонимии на наречие (Существительное в пред. п. /наречие), на предлог (Существительное в род. п. /предлог; Существительное в тв. п./предлог c временным значением), или сформулированы для конкретных омоформ (рядом; типа). А что с остальными?
5. Вопрос по результатам работы - в итоговой таблице (Приложение 2) не указано, на сколько % новые правила улучшили результат разбора данных контекстов, что остается для читателя неизвестным.
Однако указанные недостатки не умаляют высокого качества выполненной работы и могут служить направлением для дальнейшего развития системы.
Ст. преп. кафедры математической лингвистики,
А.
Основные порталы (построено редакторами)
