Распознавание руко-печатного текста

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

Ельчанинова Анна. 8 класс. НОУ "Гимназия им. ".

Руководитель: , учитель информатики.

Распознавание руко-печатного текста.

Каждый год девятый и одиннадцатый классы пишут государственные экзамены. В каждом экзамене есть задания, на которые нужно дать краткий ответ в письменной форме. Для этого ученик должен записать нужную информацию в экзаменационном бланке печатными буквами, причем буквы должны соответствовать приведённым в начале теста образцам.

Цель работы:

Понять, как компьютер распознаёт руко-печатный текст и выяснить, почему так важно писать символы по образцу.

Задачи:

изучить литературу по теме; узнать принцип работы программ по распознаванию текста; выполнить практическую работу по распознаванию текста; выявить проблемы при распознавании текста программой; сделать выводы.

Все тексты можно разделить на три категории: печатные, рукописные и руко-печатные. Распознавание рукописного текста - самая сложная из этих трёх задач. Чтобы облегчить компьютеру задачу распознавания, в экзаменационных бланках ответов используется руко-печатный текст, то есть текст, написанный от руки печатными символами.

При сканировании бланка ответов получается не текст, а растровая картинка, состоящая из отдельных точек - пикселей. Полученный электронный образ документа хранится в сформированном файле. В таком файле и текст, и цифры, и другие элементы изображения записаны одинаково - как графические изображения, состоящие из точек.

Тексты в памяти компьютера хранятся в виде двоичных кодов. Каждому из 256 знаков компьютерного алфавита соответствует определенный двоичный код. Существует специальная таблица кодировки, которая устанавливает соответствие между двоичными кодами и символами.

Для перевода растрового изображения в символы текста используются специальные программы оптического распознавания символов (OCR — Optical Character Recognition).

Этапы работы программы OCR:

выделение текстовых областей, строк и разбиение связных текстовых строк на отдельные знакоместа; устранение шумов; нормализация размера; выделение характерных признаков символа сравнение символа с эталоном, хранящимся в памяти.

В современных алгоритмах процесс распознавания основан на выдвижении и проверке гипотез. На основе общих признаков программа выдвигает некоторое количество гипотез о том, что может быть на изображении. Затем эти гипотезы целенаправленно проверяются.

Имеется ряд существенных проблем, связанных с распознаванием рукописных и печатных символов: разнообразие форм начертания символов, искажение изображений символов, вариации размеров и масштаба символов. Для улучшения условий распознавания выполняется предварительная обработка отсканированного образа.

Проведенная с использованием российской программы Abby Fine Reader практическая работа по распознаванию текста показала:

Программа испытывает значительные трудности при распознавании руко-печатного текста в исполнении наших учеников. Качество распознавания текста с разрешением 600 dpi и разрешением 300 dpi существенно не отличаются. Распознавание было затруднено в следующих случаях:

разный наклон букв в пределах одной надписи; наклон всей надписи влево; разный размер букв в пределах одного слова; отступление в написании букв от нормы. Надписи, выполненные с соблюдением требований ГОСТа, распознаются полностью.

Выводы:

Программы распознавания текста выполняют распознавание, сравнивая предложенное начертание символов с эталонным. Для правильного распознавания необходимо, чтоб символы как можно точнее соответствовали образцу. Программа с высокой степенью точности распознает текст, написанный с соблюдением требований написания символов. Все проблемы распознавания, возникшие в процессе работы, были связаны с особенностями почерка учеников, в не с работой программы.

НЕ нашли? Не то? Что вы ищете?

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Распознавание руко-печатного текста

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Задачи:

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы