Ельчанинова Анна.  8 класс. НОУ "Гимназия им. ".

Руководитель: , учитель информатики.

Распознавание руко-печатного текста.

Каждый год девятый и одиннадцатый классы пишут государственные экзамены. В каждом экзамене есть задания, на которые нужно дать краткий ответ в письменной форме. Для этого ученик  должен записать нужную информацию в экзаменационном бланке  печатными буквами, причем буквы должны соответствовать  приведённым в начале теста образцам.

Цель работы:

    Понять, как компьютер распознаёт руко-печатный текст  и выяснить, почему так важно писать символы по образцу.

Задачи:

    изучить литературу по теме; узнать принцип работы программ по распознаванию текста; выполнить практическую работу по распознаванию текста; выявить проблемы при распознавании текста программой; сделать выводы.

Все тексты можно разделить на три категории: печатные, рукописные и руко-печатные. Распознавание рукописного текста - самая сложная из этих трёх задач. Чтобы облегчить компьютеру задачу распознавания, в экзаменационных бланках ответов  используется руко-печатный текст, то есть текст, написанный от руки печатными символами.

При сканировании бланка ответов получается не текст, а  растровая картинка, состоящая из отдельных точек - пикселей. Полученный электронный образ документа хранится в сформированном файле. В таком файле и текст, и цифры, и другие элементы изображения записаны одинаково - как графические изображения, состоящие из точек.

Тексты в памяти компьютера хранятся в виде двоичных кодов. Каждому из 256 знаков компьютерного алфавита соответствует определенный двоичный код. Существует специальная таблица кодировки, которая устанавливает соответствие между двоичными кодами и символами.

Для перевода растрового изображения в символы текста используются специальные программы оптического распознавания символов (OCR — Optical Character Recognition).

Этапы работы программы OCR:

    выделение текстовых областей, строк и разбиение связных текстовых строк на отдельные знакоместа; устранение шумов; нормализация размера; выделение характерных признаков символа сравнение символа с эталоном, хранящимся в памяти.

В современных алгоритмах процесс распознавания основан на выдвижении и проверке гипотез. На основе общих признаков программа выдвигает некоторое количество гипотез о том, что может быть на изображении. Затем эти гипотезы целенаправленно проверяются.

Имеется ряд существенных проблем, связанных с распознаванием рукописных и печатных символов: разнообразие форм начертания символов, искажение изображений символов, вариации размеров и масштаба символов. Для улучшения условий распознавания выполняется предварительная обработка отсканированного образа.

Проведенная с использованием российской программы Abby Fine Reader практическая работа по распознаванию текста показала:

Программа испытывает значительные трудности при распознавании руко-печатного текста в исполнении наших учеников. Качество распознавания текста с разрешением 600 dpi и разрешением  300 dpi существенно не отличаются. Распознавание было затруднено в следующих случаях:
    разный наклон букв в пределах одной надписи; наклон всей надписи влево; разный размер букв в пределах одного слова; отступление в написании букв от нормы.
Надписи, выполненные с соблюдением требований ГОСТа, распознаются полностью.

Выводы:

    Программы распознавания текста выполняют распознавание, сравнивая предложенное начертание символов с эталонным. Для правильного распознавания необходимо, чтоб символы как можно точнее соответствовали образцу. Программа с высокой степенью точности распознает текст, написанный с соблюдением требований написания символов. Все проблемы распознавания, возникшие в процессе работы, были связаны с особенностями почерка учеников, в не с работой программы.