VI. МЕТАДАННЫЕ

План

Что такое метаданные?

Необходимость создания метаданных.

Документированные данные – источник метаданных.

Организация метаданных.

Заключение.

Что такое метаданные?

Метаданные – это сведения о данных, являющиеся вспомогательными, справочными при обработке данных.

По мере развития БД все чаще возникают вопросы: что означают эти данные, каков формат данных и их структура, откуда приходят эти данные, как рассчитывается то или иной атрибут.

Чем крупнее БД, чем больше источников данных задействовано, чем шире спектр программного обеспечения, которое планируется использовать для доступа к БД и системе обработки данных, тем насущнее необходимость в применении метаданных. Метаданные дают возможность пользователю увидеть всю историю происхождения данных и понять, как это влияет на процесс анализа и откуда поступает интересуемая информация.

Необходимость создания метаданных

Обмен данными (международный, межведомственный и межкорпоративный) всегда сопровождается сведениями о данных. Во всем этом потоке информации необходимо очень быстро ориентироваться. И здесь имеющиеся бумажные каталоги, списки, справки, полученные с технических носителей и другие, уже не помогают. Во-первых, информация очень быстро изменяется, БД пополняются, корректируются. Во-вторых, объем такой информации также относительно большой, и может оцениваться в сотни мегабайт. В-третьих, метаданные – это основа для перехода на безбумажную технологию обработки информации. Кроме того, пользователей уже не удовлетворяет полное копирование или выборка по нескольким ключевым атрибутам, им требуется тонкая фильтрация данных по определенным значениям атрибутов, которых иногда нет в исходных БД и об этом заранее неизвестно, т. е. для поиска данных необходим предварительный анализ справочной информации. Аналогично и с обработкой данных, пользователи хотят включать в обработку только ту информацию, которая удовлетворяет их критериям, например, данные отдельных ведомств или при наличии достаточного объема, полноты и качества данных.

НЕ нашли? Не то? Что вы ищете?

Для успешного поиска высококачественных данных необходимы разнообразные метаданные – сведения о БД, форматах их хранения, организациях, хранящих данные, программных средствах их обработки и др. Уверенность в поставщике и происхождении данных, возможность быстро найти необходимые сведения, оценить их пригодность для намеченного использования – вот что должны обеспечить пользователю метаданные в первую очередь. Поэтому такие сведения собираются и хранятся в соответствующих базах метаданных.

Метаданные представляют собой объединение достаточно разнородной по целевому назначению и структуре информационной совокупности. Метаданные обладают рядом специфических особенностей, характерных для всех видов справочной информации:

·  одноразовый ввод информации при первоначальной загрузке метаданных с последующим внесением изменений и многократное ее использование в течение достаточно длительного промежутка времени;

·  относительно малая активность обновления справочной информации, как по частоте, так и по объему корректировки;

·  отделение во времени, по источникам, исполнителям процесса обновления от процесса использования, как следствие, необходимость обеспечения совместимости информации, подлежащей редактированию;

·  наличие четких признаков классификации и группирования информации;

·  необходимость централизации общих сведений о данных и децентрализации локальных, детальных сведений о данных.

Состав и точность описания атрибутов объектов метаданных зависит от уровня управления данными, масштаба БД, этапа обработки данных. Справочная информация циркулирует в системе переработки данных каждого учреждения или находящегося в системе сбора, хранения, обмена и обработки данных на международном, национальном, ведомственном и корпоративном уровнях. На каждом из этих уровней нужна своя справочная информация. Так для взаимодействия на международном уровне необходимы сведения о международных соглашениях, БД, предназначенных или переданных в международный обмен, включая сведения о логических единицах сбора и хранения данных, форматах обмена данными, программных средствах их обработки и др. На национальном уровне нужны сведения об организациях, БД, которые они хранят, программных средствах обработки, форматах сбора и обмена на уровне страны, измерительных системах и др. На корпоративном уровне необходима детальная информация по единицам поступления данных в виде сведений об их состоянии (в обработке, на каком носителе и т. п.), о количестве экземпляров объекта по различным атрибутам. Для лиц, принимающих решения, в первую очередь, необходимы сведения об информационной продукции, получаемой на ее основе, и регламенте ее выпуска, а также возможных типах запросов и решаемых задачах, т. е. на разных уровнях управления имеются как справочные сведения одного класса (сведения о БД, источниках данных, форматах), которые можно объединить в одну таблицу (например, сведения о БД, источниках данных), так и специфические для каждого уровня управления данными (например, сведения о соглашениях, конвенциях, законах на международном уровне, сведения об единицах сбора данных на корпоративном уровне).

Для создания баз метаданных необходимо решить следующие задачи:

·  установить необходимую совокупность объектов метаданных и их атрибутов;

·  выделить среди множества атрибутов, составляющих объекты, те, которые отражаются в составе метаданных обязательно.

Состав метаданных и место их образования показано в табл.16.

3. Документированные данные источник
метаданных

БД возникает в результате деятельности организаций. Исполнители проектируют БД, разрабатывают необходимые программные и технологические средства и загружают базу данных. Описание является основным источником информации о БД для ее будущих пользователей. В этом описании дается:

·  формализованное описание БД;

·  источники информации (организации, платформы, проекты);

·  физическая организация данных – формат хранения данных и инфологическая схема для БД;

·  перечень атрибутов с указанием полного и краткого наименований, единиц и методов измерений, пределов изменений;

·  описание методов логического, синтаксического контроля данных;

·  полнота по отношению к исходному носителю или проведенной программе измерений;

Таблица 16

Состав метаданных и место их использования

Технологический этап

Объект

Метаданные

Производство измерений

Методы измерений

Сведения о сетях и методах измерений

Методы определения параметров

Сведения о методах определения параметров

Метрология

Сведения о способах и местах поверки приборов

Средства производства измерений, платформы

Описание платформ

Средства измерений (приборы и оборудование)

Сведения об измерительных средствах

Сбор данных

Виды данных

Сведения о технологиях сбора данных по видам, стандартах форматов передачи данных, описания передаваемых комплектов данных

Сбор оперативных данных по каналам связи, Интернет

Стандарты представления и передачи метаданных

Каталогизация данных

Сведения о логическом содержании данных и физическом их хранении

Описание БД, организаций – поставщиков, владельцев, пользователей, форматов сбора, хранения и обмена данными, проектов, сведения о параметрах, словари стран, учреждений, методов и др.

Накопление данных

Структурные преобразования

Сведения о технологиях, БД

Контроль данных

Сведения о методах контроля данных

Обмен данными

Межведомственный, международный

Сведения о технологиях и форматах данных, описание комплектов данных, сведения о проектах и программах

Процедуры контроля данных

Сведения о методах контроля данных


Продолж. табл.16

Технологический этап

Объект

Метаданные

Хранение и защита данных

Технические носители хранения, средства защиты

Сведения о технологиях

Прикладная обработка

Методы статистической обработки, анализа данных, алгоритмы вычисления

Сведения о методах обработки и анализа данных, программных средствах

Процедуры контроля данных

Сведения о методах контроля данных

Программные инструменты – ОС, офисные средства, СУБД, ГИС и др.

Сведения о программных средствах

Технические, телекоммуникационные средства

Сведения о комплексе технических средств

Моделирование

Модели процессов, прогноза, восстановления данных и др.

Сведения о моделях, методах, форматах выходных данных

Распространение данных

Анализы, бюллетени, ежемесячники, ежегодники, климатические справочники, формы прогнозов

Сведения об экранных формах выдачи (таблицы, графики) исходных данных, формах представления информации (таблицы, графика, текст, звук, издания)

Издания (справочники, атласы, в т. ч. электронные)

Сведения об изданиях

Представление на Web

Список Web – адресов

Использование данных

Методики

Сведения о методах использования данных, объектах, использующих данные

·  описания программ (проектов), в рамках которых получены данные;

·  описание методов измерений и применяемых приборов (измерительных систем);

·  список логических единиц хранения с указанием их количества;

·  описание программных средств создания и обработки БД;

·  перечень публикаций, полученных на основе БД;

·  методы тестирования БД;

·  используемые классификаторы и кодификаторы.

От полноты приводимых сведений зависит понимание других разделов и количество вопросов потенциальных пользователей. Описание данных должно быть достаточно подробным и доступным как программисту, так и ЛПР. Все БД передаются только с соответствующей документацией, включающей описание (полное и формализованное); описание структуры данных; описание метаданных.

Каждая БД сопровождается следующим комплектом метаданных: описанием БД, форматов данных, кодификаторами, используемыми в процессе создания БД, каталогами данных.

Организация метаданных

Метаданные содержат форматированную информацию о БД: имена параметров, коды, свойства, форматы, адреса хранения и т. п. – все, что необходимо информационным технологиям, чтобы найти информационные ресурсы и правильно их обработать. Метаданные позволяют осуществлять поиск исходных данных на нескольких уровнях их физической организации в зависимости от квалификации пользователей, их прав, используемых инструментальных средств поиска информации и т. п.

Верхний уровень – самый доступный, рассчитанный на широкого пользователя. Здесь находятся общие сведения о БД, имеющихся в различных организациях страны и за рубежом; сведения об организациях; проектах; экспертах; информационных ресурсах, имеющиеся на Web и др. При числе документов более 10 по каждому типу метаданных можно использовать динамические средства организации доступа к информации с использованием языка XML. При этом появляется возможность стандартизации представления и поиска метаданных с использованием Web – технологий.

Второй уровень метаданных рассчитан на пользователей – специалистов, которые хотят оценить количество, качество, полноту той или иной БД. Поэтому здесь должны использоваться базы метаданных, представляющие сведения о платформах, методах измерений, используемых приборах, подробные каталоги изученности того или иного района и т. п. Этот уровень метаданных создается в среде СУБД c возможностями выдачи информации на Web в виде динамических страниц.

Третий уровень метаданных предназначен для поиска исходной информации в базах данных и выдачи данных в удобной для профессионального пользователя форме. Эти метаданные в основном предназначены для администратора БД. Создаваемые здесь базы метаданных позволят по логическим характеристикам данных найти их физические адреса хранения или процедуры расчета. Этот уровень метаданных создается в среде СУБД.

Заключение

Рассмотрена необходимость создания и источники метаданных, которыми являются главным образом документированные данные. Определен состав объектов метаданных, главными из которых являются сведения о БД, программных средствах, Web – ресурсах. Описана структура и содержание объектов метаданных, методы представления их в БД. Показано, как эти объекты могут применяться для поиска данных.

Перспективой развития метаданных является интеграция описаний БД различных стран, организаций, систем с подключением дополнительной информации – форматов, библиографии по БД, таблиц содержания и др.

Литература

1., , . Проектирование баз данных справочной океанографической информации. – М.: Гидрометеоиздат, 1986. – 40 c.

2.Вязилов ресурсы по окружающей среде. –
М.: Эдиториал, 2001.

Вопросы для самопроверки

1.Как быстро найти данные в БД?

2.Каким образом можно быстро разобраться в составе и структуре файлов и баз данных?

3.Где находятся источники метаданных?

4.Назовите методы и средства документирования БД.