УДК 621.398:651; 62-519:651

А. В. КУЗНЕЦОВ, О. О. БАСОВ

A. V. KUZNECHOV, O. O. BASOV

МЕТОД УСТАНОВЛЕНИЯ СХОЖЕСТИ СОДЕРЖАТЕЛЬНОЙ ЧАСТИ БУМАЖНОГО ДОКУМЕНТА С ЦИФРОВОЙ КОПИЕЙ ЕГО ОРИГИНАЛА

THE MEANS OF RECOGNIZING THE SIMILARITY BETWEEN

THE MAIN CONTENT OF A PAPER DOCUMENT AND CONTENT OF ITS DIGITAL COPY

В статье рассмотрены способы установления подлинности документов, а также представлен метод позволяющий обеспечивать дополнительную гарантию безопасности в современном документообороте, и дающий возможность определять подлинность содержательной части документов без использования специализированного оборудования.

Ключевые слова: Документооборот, подлинность документов, защита документов

The article examines the means of recognizing documents authenticity. The method providing additional security of the modern document circulation is presented in the article. This method affords to identify documents authenticity without using special equipment.

Keywords: Document circulation, authenticity documents, protection documents

Современный документооборот в учреждениях, организациях и на предприятиях в настоящее время носит преимущественно электронный характер, в значительной степени упрощающий обмен информацией среди пользователей посредством компьютерных сетей. Наряду с этим юридической силой по-прежнему обладают лишь документы, представленные на бумаге в виде легко модифицируемых отпечатков, полученных на обычных струйных или лазерных принтерах. Поэтому взаимное соответствие электронных и печатных документов в современном документообороте и история их обращения целиком зависят от воли исполнителей и их добросовестности. В связи с этим особую актуальность приобретает задача установления схожести (а в конечном итоге подлинности) бумажного документа при его получении исполнителем для ознакомления с цифровой копией его оригинала, согласованного, подписанного и утвержденного ответственными лицами оригинала, единожды занесенного в электронную базу данных [1].

В настоящее время для установления подлинности документов используют как традиционные способы защиты документов [2] – водяные знаки, штрих-коды, голограммы, так и более совершенные методы защиты, основанные на применении маркеров подлинности [3] и особых принципов печати, например, пузырьковых принтеров [4].

Процесс маркировки заключается в введении в электронный или бумажный печатный документ заранее подготовленного черно-белого или цветного графического изображения, содержащего текущую идентификационную информацию. Идентификация в данном случае производится путем чтения маркера с помощью специального программного обеспечения и сравнения его с образцом. По результатам сравнения принимается решение о подлинности документа. К основным недостаткам такого метода можно отнести: необходимость применения специализированного оборудования для точного сканирования и распознавания как черно-белых, так и цветных маркеров; в случае применения цветных маркеров – использование принтеров только с новыми картриджами, так как после перезаправки они изменяют цветовой оттенок.

Метод пузырьковой печати подразумевает маркирование документов с помощью специальных принтеров и пузырьковых чернил, автоматически и хаотично генерирующих пузырьки на наносимых оттисках (например, печатях). Достоинством данного метода является невозможность воспроизведения документа злоумышленником, так как нанесенная пузырьковая печать является уникальной и не поддающейся повторению. Основным недостатком является необходимость применения специализированных дорогостоящих программных продуктов и сканеров.

Таким образом, существующие методы и средства защиты документов либо не являются серьезным препятствием для фальсификации информации (содержательной части документа), либо требуют применения специализированного оборудования, которое не всегда выгодно по экономическим соображениям. Широкое распространение обычных (планшетных) сканеров актуализирует задачу исследования методов установления схожести (подлинности) документов без нанесения специальных идентификационных признаков и их применения в качестве дополнительных средств защиты бумажных документов от подделки в оперативном документообороте.

Сущность предлагаемого метода заключается в установлении схожести содержательной части бумажного документа, полученного и отсканированного исполнителем на планшетном сканере, с цифровой копией его оригинала, занесенной в базу данных организации (предприятия) после прохождения документом всех согласований, подписаний и утверждений ответственными лицами (рис. 1), на основе морфологической обработки изображений, представленных в графическом формате.

Рис. 1. Обобщенная схема установления схожести документов

Морфологическая обработка отсканированных документов предусматривает извлечение определенных компонентов изображения, полезных для представления и описания форм объектов, например, выделение абзацев, строк, слов, букв и их заданных конфигураций, нахождение в тексте замкнутых контуров (в таких буквах, как А, О, Ю, Р и т. п.), нахождение в буквах вертикальных и горизонтальных прямых линий без оптического распознавания текста (Optical Character Recognition, OCR).

НЕ нашли? Не то? Что вы ищете?

Рис.2. Схема сравнения содержательной части двух копий документа

Регрессионный анализ указанного множества параметров морфологической обработки в программе Statistica [5] позволил выделить следующее их значимое подмножество:

·  количество строк на странице текста;

·  количество неполных строк (начало и конец абзаца) и их расположение на странице текста;

·  количество слов в каждой строке;

·  количество слов с числом букв менее трех и их расположение на странице текста;

·  количество замкнутых контуров (отверстий) в буквах;

·  количество больших отверстий содержащихся в буквах О, Ю, Д и их расположение на странице текста;

·  количество вертикальных линий.

Значимость указанных независимых переменных определялась относительно коэффициента схожести:

,

где – общее число символов в тексте документа, полученного и отсканированного исполнителем (бумажный документ);

– общее число символов в тексте документа, занесенного в базу данных организации после прохождения документом всех согласований, подписаний и утверждений ответственными лицами (цифровая копия оригинала);

– число символов в тексте бумажного документа, отличающихся от символов текста цифровой копии оригинала.

Полученные результаты свидетельствуют о возможности сравнения содержательной части двух копий документа с использованием следующей схемы (рис. 2). Указанная схема была реализована в среде инженерных расчетов MATLAB [6] c использованием ее приложения Image Toolbox. На различных этапах установления схожести над отсканированными изображениями осуществлялись операции фильтрации от шумов, «дилатация» и «эрозия», направленные на заполнение разрывов в буквах и между слов (рис. 3) [7-8].

При формировании выводов о соответствии содержательной части документа оригиналу в исследовании применялся критерий среднеквадратической ошибки а численные значения (в процентах) формировались на основе экспериментально установленной зависимости

Рис.3. Пример применения операций «дилатация» и «эрозия»: а) выделение строк, б) выделение слов, в) нахождение и закрашивание замкнутых контуров, г) выделение замкнутых контуров из текста

Результаты исследования показывают возможность установления схожести содержательной части бумажного документа с цифровой копией его оригинала с использованием предложенного метода при меньших вычислительных (по сравнению с OCR) и экономических (по сравнению с маркерами подлинности) затратах при приемлемой достоверности Дальнейшее повышение достоверности результатов может быть получено путем уточнения решающего правила, например, применения критерия взвешенной среднеквадратической ошибки, и совместного использования с другими методами защиты и идентификации документов.

Дополнительные исследования [9] показали возможность хранения отсканированных документов в базе хранения оригиналов документов и временном хранилище копий оригиналов в формате JPEG с целью сокращения требуемых объемов памяти при незначительных искажениях цифровых изображений, не ухудшающих результаты работы предложенного метода.

СПИСОК ЛИТЕРАТУРЫ

1.  Кузнецов достоверности документов. «Известия ОрелГТУ. Информационные системы и технологии» №1/51(5

2.  , Как защититься от подделки? (Обзор технологических средств защиты ценных бумаг, документов и фирменных товаров от фальсификации и подделки).

3.  , , Бородина создания уникальных растров. – М.:ИПИ РАН, 2006. – 76с.

4.  Способ заверения и последующего установления подлинности оригиналов бумажных и цифровых документов для доказательств: патент № 000 C2; Российская Федерация: МПК G 06 K 9 / 00 / [и др.]. – № /08; заявл. 19.12.06. – 31 с.: ил.

5.  Statistica 6. Статистический анализ данных. 3-е изд. Учебник – М.: -Пресс», 2007 г. – 512 с.:ил.

6.  Иглин расчеты на базе MATLAB. – СПб.: БХВ-Петербург, 2005. – 640 с.: ил.

7.  Гонсалес Р, Цифровая обработка изображений, Техносфера, 2006.

8.  Гонсалес Р, Вудс Р, Цифровая обработка изображений в среде MATLAB, Техносфера, 2006.

9.  , Басов способа хранения отсканированных документов для последующей обработки и установления схожести с оригиналом. Сборник материалов 7-й Научно практической конференции, Академия ФСО России, 2011.

ФГОУ ВПО «Государственный университет - учебно-научно-производственный комплекс», г. Орел

Соискатель

Тел. +66

E-mail: *****@***ru

К. т.н.,

Академия ФСО

Преподаватель

Тел. +

E-mail: *****@***ru