Ельчанинова Анна. 8 класс. НОУ "Гимназия им. ".
Руководитель: , учитель информатики.
Распознавание руко-печатного текста.
Каждый год девятый и одиннадцатый классы пишут государственные экзамены. В каждом экзамене есть задания, на которые нужно дать краткий ответ в письменной форме. Для этого ученик должен записать нужную информацию в экзаменационном бланке печатными буквами, причем буквы должны соответствовать приведённым в начале теста образцам.
Цель работы:
- Понять, как компьютер распознаёт руко-печатный текст и выяснить, почему так важно писать символы по образцу.
Задачи:
- изучить литературу по теме; узнать принцип работы программ по распознаванию текста; выполнить практическую работу по распознаванию текста; выявить проблемы при распознавании текста программой; сделать выводы.
Все тексты можно разделить на три категории: печатные, рукописные и руко-печатные. Распознавание рукописного текста - самая сложная из этих трёх задач. Чтобы облегчить компьютеру задачу распознавания, в экзаменационных бланках ответов используется руко-печатный текст, то есть текст, написанный от руки печатными символами.
При сканировании бланка ответов получается не текст, а растровая картинка, состоящая из отдельных точек - пикселей. Полученный электронный образ документа хранится в сформированном файле. В таком файле и текст, и цифры, и другие элементы изображения записаны одинаково - как графические изображения, состоящие из точек.
Тексты в памяти компьютера хранятся в виде двоичных кодов. Каждому из 256 знаков компьютерного алфавита соответствует определенный двоичный код. Существует специальная таблица кодировки, которая устанавливает соответствие между двоичными кодами и символами.
Для перевода растрового изображения в символы текста используются специальные программы оптического распознавания символов (OCR — Optical Character Recognition).
Этапы работы программы OCR:
- выделение текстовых областей, строк и разбиение связных текстовых строк на отдельные знакоместа; устранение шумов; нормализация размера; выделение характерных признаков символа сравнение символа с эталоном, хранящимся в памяти.
В современных алгоритмах процесс распознавания основан на выдвижении и проверке гипотез. На основе общих признаков программа выдвигает некоторое количество гипотез о том, что может быть на изображении. Затем эти гипотезы целенаправленно проверяются.
Имеется ряд существенных проблем, связанных с распознаванием рукописных и печатных символов: разнообразие форм начертания символов, искажение изображений символов, вариации размеров и масштаба символов. Для улучшения условий распознавания выполняется предварительная обработка отсканированного образа.
Проведенная с использованием российской программы Abby Fine Reader практическая работа по распознаванию текста показала:
Программа испытывает значительные трудности при распознавании руко-печатного текста в исполнении наших учеников. Качество распознавания текста с разрешением 600 dpi и разрешением 300 dpi существенно не отличаются. Распознавание было затруднено в следующих случаях:- разный наклон букв в пределах одной надписи; наклон всей надписи влево; разный размер букв в пределах одного слова; отступление в написании букв от нормы.
Выводы:
- Программы распознавания текста выполняют распознавание, сравнивая предложенное начертание символов с эталонным. Для правильного распознавания необходимо, чтоб символы как можно точнее соответствовали образцу. Программа с высокой степенью точности распознает текст, написанный с соблюдением требований написания символов. Все проблемы распознавания, возникшие в процессе работы, были связаны с особенностями почерка учеников, в не с работой программы.


