На пути к бесшовной интеграции электронного архива с системами-источниками комплектования (Часть 1)

Аас1 Кулдар, Кэрберг1 Тарво

Резюме

Перенесение записей и их метаданных из программ управления электронными документами и записями стало важной проблемой для архивов в последние десятилетия. В связи с растущим количеством создаваемых записей, необходимы новые способы для ускорения и повышения эффективности процесса, а также для обеспечения надлежащего качества и легкого понимания для будущих пользователей.

Эта статья представляет решение, примененное Национальным архивом Эстонии, которое направлено ​​на автоматизацию задач повторного использования метаданных записей для архивных целей. Разработанные принципы и инструменты основываются на автоматизированном структурировании метаданных, которое позволяет стандартизировать различные схемы метаданных, используемых в разных организациях, в единую модель метаданных, применяемых в цифровом хранилище. В статье представлен практические опыт реализации данной модели и проблемы, которые дополнительно рассмотрены во второй части настоящей статьи.

Введение

На протяжение десятилетий общепринятой в архивном деле была практика ручного описания и каталогизации записей, полученных от различных организаций. Однако в последние годы стало популярным использование информационно-коммуникационных технологий (ИКТ), в частности, систем электронного управления архивами, в связи с тем, что возросли потребности пользователей и организаций в отношении архивов.

НЕ нашли? Не то? Что вы ищете?

 Пользователи нуждаются в онлайн-доступе к архиву на уровне отдельных элементов, поскольку они уже привыкли к нему в изначальных системах управления архивами.

 Использование ИКТ породило взрывной рост количества записей, создаваемых в архивах, поэтому количество записей, рассчитанных на долгосрочное хранение, постоянно растет.

Именно поэтому архивариусы как частных, так и государственных архивов испытывают потребность в надежном решении, которое упростит традиционную задачу архивного описания и каталогизации электронных записей и метаданных.

Большинство национальных архивов (в т. ч. Национальный Архив Эстонии) пришли к выводу, что наиболее рациональное решение проблемы состоит в поиске методов автоматической обработки изначальных записей с целью ускорения процесса архивирования и улучшения качества архивных метаданных. Однако, при более внимательном рассмотрении вопроса, выделяются многочисленные проблемы, требующие первоочередного решения. Одной из самых главных проблем является плохая доступность стандартов совместимости, связанных с архивным делом, в т. ч. проблема унификации метаданных. Несмотря на то, что национальный стандарт архивных метаданных появился в Эстонии в 2006 г., он не получил широкого распространения. Кроме того, общая система метаданных может применяться только к ограниченному числу записей, и каждая организация, применяющая ее, обычно дополняет ее специфичными элементами, характерными только для этой организации и для этой области. Несомненно, необходимо помнить, что, даже если удастся достичь полной стандартизации архивных метаданных, создаваемых на сегодняшний день, то еще на протяжении 10-20 лет придется иметь дело с обработкой записей, созданных до унификации. И, наконец, всегда остаются частные компании и физические лица, которые, будучи важными поставщиками информации для национальных архивов, не соблюдают ограничения, накладываемые на государственный сектор.

С технической стороны, другую проблему представляет разнообразие программ управления электронными архивами, представленных на рынке Эстонии и применяемых различными организациями. Согласно исследованию, проведенному весной 2011 года, на сегодняшний день существует 11 различных решений, ни одно из которых не удерживает более 1/3 рынка. В сочетании с недостатком технических и семантических стандартов совместимости, это создало такую ситуацию, что каждая из этих систем использует отдельный подход к экспорту записей и метаданных. Поэтому, для каждой из этих программ нужен отдельный способ обработки метаданных и внесения записей в архивные хранилища.

Текущее решение

В 2006 г. Национальные Архивы Эстонии провели анализ потребностей, который выявил следующие требования к программному обеспечению:

 Архивы должны предоставить автономный инструмент, который может быть применен в любой организации и использован архивариусами этих агентств, а также менеджерами по записям.

 Программа должна поддерживать разнообразные методы экспорта структур в формате XML, применяемых различными программами управления электронными архивами.

 Функция импорта данной программы должна быть легко подстраиваемой к изменениям в программах управления электронными архивами.

 Программа должна поддерживать ручную проверку качества и обновление метаданных записей.

 Ядро программы должно основываться на национальном стандарте архивных метаданных, но, в то же время, должна поддерживать импорт дополнительных метаданных, характерных для отдельных организаций и отраслей

 Инструмент должен автоматизировать процесс создания архивных описаний (включая описания одиночных элементов), основанных на уже имеющихся метаданных.

 Инструмент должен поддерживать и автоматизировать идентификацию, описание и извлечение метаданных для различных форматов файлов.

 Инструмент должен поддерживать перевод компьютерного файла в форматы сохранения, принятые Национальным архивом Эстонии.

В 2008 году в соответствии с данными требованиями была разработана программа «Универсальный Архивный Модуль» (UAM)1. Ее последующие обновления были разработаны на основе первых тестов, и инструмент стал официально использоваться в 2010 году. Основные компоненты UAM представлены на Рисунке 1.

Временная база данных

 

Модуль экспорта

 

Ядро UAM

 

Модуль импорта

 

Рисунок 1: Основная архитектура UAM

Модуль импорта

Модуль импорта UAM использует собственную входную схему (XML Schema), которая основывается, главным образом на описаниях стандартов архивных ISAD (G) и ISAAR (CPF). Кроме того, она использует некоторые элементы метаданных, происходящие из Эстонского Национального набора метаданных управления записями, а также позволяет подключать дополнительные неконтролируемые теги. Для обработки шаблонов XML различных структур и семантики, UAM использует движок XSLT, который позволяет администраторам "обучить" UAM распознавать шаблоны, характерные для каждой организации. Стандартизированное преобразование XSLT также доступно для приложений, использующих стандартизированные схемы метаданных управления как средства экспорта записей и метаданных.

Этапа внедрения UAM в организации проходит в две стадии:

 Поставщик ERM-приложения создает структуроне соответствие между элементами метаданных в изначальной системе и входной схемой UAM. В идеале, это действие производится один раз для каждой организации или системы управления записями.

 Менеджеры по записям этой организации создают семантическое соответствие между элементами метаданных в изначальной системе и входной схемой UAM. Это действие производится отдельно для каждой организации или системы управления записями

1 http://rahvusarhiiv. ra. ee/en/universal-archiving-module/

Этот двухэтапный подход должен уменьшить затраты, связанные с необходимостью настраивать каждую новую конфигурацию UAM в организации, и, следовательно, поддерживать оптимальный баланс между затраченными усилиями и улучшением качества.

UAM-Импорт. xsd

 

Временная база данных UAM

 

совместимый

 

совместимый

 

совместимый

 

Импорт

 

Импорт

 

Импорт

 

Экспорт

 

Экспорт

 

Экспорт

 

Экспорт

 

трансформация

 

трансформация

 

трансформация

 

Рисунок 2: Модуль импорта UAM

Ядро UAM и GUI

Ядро UAM отвечает всем соответствующим техническим и архивным требованиям, в первую очередь, правилам проверки архивных метаданных, а также проверяет форматы файлов в простом для использования графическом интерфейсе пользователя (GUI). Пользователь имеет возможность проверить импортируемые метаданные на предмет пропусков, ввести отсутствующие элементы метаданных, определить и описать компоненты импортируемых записей (компьютерные файлы)

и сравнить их со списком допустимых архивных форматов файлов, автоматически создать технические метаданные и, если возможно, UAM также автоматически преобразует несоответствующие файлы в архивный формат. Все действия по изменению метаданных и форматов файлов будут записаны и пользователи смогут создавать отчеты о текущем состоянии работ в любое время. Если необходимые требования для архивных и технических метаданных и форматов файлов удовлетворены, то можно создать Пакет Подачи Информации (SIP) для их передачи в долгосрочное цифровое хранилище Национальных Архивов Эстонии.

Экспортный модуль

Стандартная конфигурация UAM создает пакеты передачи согласно формату XML, определенному

Национальным архивом Эстонии. Пакет передачи состоит из двух различных типов XML-файлов: XML файл архивной структуры и описания передаваемых данных. Обычно в процессе передачи используется только один такой файл содержания2;

 Один XML файл для каждой записи, включая метаданные уровня записи, компьютерные файлы, включенные в запись и технические метаданные о компьютерных файлах3.

Однако, поскольку некоторые организации могут использовать UAM для перевода записей в другие долгосрочные хранилища, движок XSLT может "перевести" исходные XML файлы и экспортировать записи и их метаданные в другие форматы передачи (например, METS4).

Первые результаты

В течение последних двух лет UAM активно используется в передаче записей как электронных, так и бумажных документов (т. е. для ситуаций, когда в UAM создаются только архивные описания без

сопровождающих компьютерных файлов). Отзывы организаций сводятся к следующему:

 Как ни странно, организации видят главное преимущество UAM и сопутствующих ей процедур в возможности и необходимости организации архивов учреждений более детализированным образом. Это означает, что использование UAM заставляет агентства проанализировать все типы записей и их метаданных, а также изменения, которые со временем происходят. Кроме того, они должны сравнить все разные наборы описаний с централизованным стандартом метаданных управления, что, в совокупности, позволяет получить более полное представление состоянии электронных средств управления записями.

 Первоначальное внедрение и настройка UAM все еще занимает достаточно времени

и в этом смысле сравнима с продолжительностью предшествующего ей ручного описания и каталогизации. Тем не менее, организации считают, что инструмент будет иметь значительный эффект во время будущих передач, когда не будет требоваться повтореные установка и настройка.

 Обучаемость UAM считается низкой, что заставляет архивариусов проводить большую

часть времени, настраивая схемы и подготавливая передачу, вместо изучения продукта. Это особенно важно, так как подобный инструмент используется только раз в несколько лет (для каждой передачи), а не на регулярной основе.

 Организации, а также архивариусы в Национального архива Эстонии подчеркивают, что

возможность передачи метаданных каждого элемента является одним из основных преимуществ использования данного инструмента, т. к. это даст возможность создавать онлайн-инструменты для поиска и использовать единичные записи как исследователям, так и учреждениям;

 Отрицательным является то, что, что централизация усилий в области метаданных управления записями не встречает поддержки организаций, т. к. стандартные метаданные не отвечают всем их потребностям, и их довольно дорого встраивать в реальные приложения электронного управления записями от коммерческих провайдеров. Однако определенные надежды возлагаются на европейские программы, такие как DLM Forum MoReq5 , в рамках

2 XML Схема доступна по адресу:

http://rahvusarhiiv. ra. ee/public/Digiarhiiv/UAM/UAM_Eksport_arhiiviskeem_v2.0.xsd

3 XML Схема доступна по адресу: http://rahvusarhiiv. ra. ee/public/Digiarhiiv/UAM/UAM_Eksport_arhivaal_v2.0.xsd

4 http://www. loc. gov/standards/mets/

которых осуществляется поиск других способов стандартизации и передачи.

Для преодоления проблем, описанных в предыдущей главе, Национальный архив Эстонии продолжает исследовать дополнительные инструменты и методы дальнейшего совершенствования возможностей импорта UAM.

Одним из наиболее интересных возможностей, обсуждаемых в настоящее время, является использование семантических аннотаций на основе онтологии управления записями вместо того, чтобы заставлять организации структурировать их метаданные в соответствии с централизованными схемами. Такой подход потенциально поможет учреждениям преодолеть текущие основные проблемы, поскольку семантические аннотации метаданных происходят поверх

описания и не заменяют его, а значит:

 Их потенциально дешевле встроить в системы управления записями;

 Они позволят учреждениям быстрее построить схему метаданных, что позволит им создавать и хранить информацию, необходимую для их повседневной работы;

 Возможно легко использовать несколько онтологий (т. е. онтологию управления записями в сочетании с медицинской или правовой онтологией), что позволит легче архивировать метаданные конкретного типа записей, так что их станет проще использовать и подключать к внешним источникам в процессе долгосрочного хранения.

Тем не менее, в то время как создание онтологий и реализация семантических аннотаций и

Структурирования развиты в сфере баз данных бизнеса, они не так далеко продвинулись в сфере

управление записями. Поэтому необходимо долго работать над онтологией и специфической практикой аннотаций управления записями, прежде чем этот сценарий будет реализован.

Конечно, сама идея не нова. В рамках проекта Clever Recordkeeping Metadata6 в 2006 году была разработана аналогичная система подтверждения концепции метаданных посредника. Тем не менее, выводы проекта подчеркнули среди прочего, что:

"Современным стандартам метаданных учета записей не хватает семантической точности, и каноническго формата для машинной обработки, и оба эти фактора препятствуют их поглощению"

Анализируя сегодняшнее развитие стандартизации управления записями, в особенности, наличие нескольких семантических стандартов совместимости в мире, нельзя не задаться вопросом: не настало ли время, чтобы возродить метаданные CRKM как посредника, причем сделать это усилиями всего международного сообщества в отрасли управлением записями.

5 http://www. dlmforum. eu/

6 http://infotech. monash. edu/research/groups/rcrg/crkm/

7 http://infotech. monash. edu/research/groups/rcrg/crkm/outcomes. html

Другой интересный подход к решению проблемы, описанной в этой статье, представлен в сопроводительной статье «На пути к бесшовной интеграции электронного архива с системами-источниками комплектования (Часть 2)". Если данная статья описывает возможность решения упомянутой проблемы, до поглощения, т. е. за пределами архивов, то Часть 2 посвящена решениям, осуществляющимся внутри архивных хранилищ. Мы верим в то, что будущие решения по передаче, хранению и доступа извлекут выгоду из обоих подходов и, таким образом, смогут предложить разумный уровень стандартизации, поддерживаемый и дополняемый гибкой системой хранения.