Н. В. КАРАСЕВА
Московский инженерно-физический институт (государственный университет)
ЗАДАЧИ ПРОЦЕССА «ОЧИСТКИ» ДАННЫХ
И АКТУАЛЬНЫЕ ПОДХОДЫ К ИХ РЕШЕНИЮ
Проблема качества данных в источниках информации. Актуальные подходы к решению задач «очистки» данных на этапах анализа, преобразования и согласования данных в хранилище данных (ХД).
В настоящее время процесс «очистки» данных является одной из приоритетных задач стоящих перед службами автоматизации любой крупной компании при формировании ХД.
Процесс «очистки» данных направлен на согласование данных из различных источников в ХД путем обнаружения и устранения ошибок, а также несоответствий в данных, например, таких как, неточность при вводе информации, несоответствие форматов, пустые значения полей и прочее. При построении ХД интеграции и согласованию подлежит большое количество гетерогенных источников данных и процессу «очистки» должно уделяться основное внимание. В настоящее время существует множество программных средств, предназначенных для решения подобных задач, например, продукты компании Oracle: Carleton PureIntegrate, PureExtract, Warehouse Builder [1]. Однако в большинстве случаев основной объем работ, направленных на «очистку» и преобразование данных, приходиться выполнять с использованием низкоуровневых программных средств, не предназначенных для целей и решения задач «очистки» данных.
При выборе конкретных методов «очистки» данных необходимо учитывать, что процесс обнаружения ошибок и несоответствий должен выполняться на двух уровнях: как в самих источниках данных, так и в процессе их загрузки с последующей интеграцией в ХД. Выбранные методы должны быть реализованы во внешнем инструментарии с целью сокращения рутинных операций, направленных на анализ данных и реализацию в программном коде методов «очистки». Основным фактором, оказывающим влияние на процесс «очистки» является качество данных, при этом, исходя из количества источников данных для ХД, следует выделять два случая:
один источник данных;
множество источников данных.
И в том и другом случаях конкретные методы «очистки» данных зависят от схемы хранения и семантики данных.
Задачи «очистки», возникающие на уровне схемы хранения, напрямую отражаются на элементах данных и решаются с помощью оптимизации схемы хранения. Проблемы, возникающие на уровне семантики данных сложно обнаружить и, именно поэтому, задачи обнаружения ошибок в семантике данных являются основными при «очистке» информации. В случае интеграции множества источников, помимо задачи обнаружения ошибок в данных семантического характера, возникают задачи согласования разрозненных данных между собой, при этом должны решаться вопросы удаления дублирующей информации, приведения данных к единому формату и единой системе классификации и кодирования, объединения дополняющих друг друга по смыслу данных и т. д.
Процесс «очистки» данных состоит из анализа источников данных, определения правил и алгоритмов преобразования, их применения к данным и проверки результатов преобразования. Один из подходов в решении задач «очистки» данных - это использование технологии извлечения знаний (Data Mining), с помощью которой можно находить скрытые закономерности в данных больших объемов и строить модели, отражающие эти закономерности [2]. На основании полученных моделей можно восстанавливать пропущенные значения атрибутов данных или вносить исправления в существующие.
Процессы преобразования данных можно выполнять итерационно, каждый этап итерации может преобразовывать как схему хранения данных, так и семантику элементов данных. Для уменьшения ручного кодирования операций «очистки», следует использовать специализированные инструментальные средства, поддерживающие пользовательский графический интерфейс.
В заключение необходимо отметить, что для решения всех задач «очистки» данных все еще требуется обработка большего объема информации с использованием низкоуровневых программных средств и дополнительного кодирования методов и алгоритмов «очистки», зачастую являющихся уникальными для каждого из случаев формирования ХД.
Список литературы
1. Сахаров построения и реализации информационных систем, ориентированных на анализ данных // СУБД№4.
2. , , Райх данных интеллектуальная обработка информации, М: Издатель 2001.
3. Data Mining, Санкт-Петербург Издатель Питер 2001.


