Задачи процесса «очистки» данных и актуальные подходы к их решению

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

Н. В. КАРАСЕВА

Московский инженерно-физический институт (государственный университет)

ЗАДАЧИ ПРОЦЕССА «ОЧИСТКИ» ДАННЫХ
И АКТУАЛЬНЫЕ ПОДХОДЫ К ИХ РЕШЕНИЮ

Проблема качества данных в источниках информации. Актуальные подходы к решению задач «очистки» данных на этапах анализа, преобразования и согласования данных в хранилище данных (ХД).

В настоящее время процесс «очистки» данных является одной из приоритетных задач стоящих перед службами автоматизации любой крупной компании при формировании ХД.

Процесс «очистки» данных направлен на согласование данных из различных источников в ХД путем обнаружения и устранения ошибок, а также несоответствий в данных, например, таких как, неточность при вводе информации, несоответствие форматов, пустые значения полей и прочее. При построении ХД интеграции и согласованию подлежит большое количество гетерогенных источников данных и процессу «очистки» должно уделяться основное внимание. В настоящее время существует множество программных средств, предназначенных для решения подобных задач, например, продукты компании Oracle: Carleton PureIntegrate, PureExtract, Warehouse Builder [1]. Однако в большинстве случаев основной объем работ, направленных на «очистку» и преобразование данных, приходиться выполнять с использованием низкоуровневых программных средств, не предназначенных для целей и решения задач «очистки» данных.

При выборе конкретных методов «очистки» данных необходимо учитывать, что процесс обнаружения ошибок и несоответствий должен выполняться на двух уровнях: как в самих источниках данных, так и в процессе их загрузки с последующей интеграцией в ХД. Выбранные методы должны быть реализованы во внешнем инструментарии с целью сокращения рутинных операций, направленных на анализ данных и реализацию в программном коде методов «очистки». Основным фактором, оказывающим влияние на процесс «очистки» является качество данных, при этом, исходя из количества источников данных для ХД, следует выделять два случая:

НЕ нашли? Не то? Что вы ищете?

один источник данных;

множество источников данных.

И в том и другом случаях конкретные методы «очистки» данных зависят от схемы хранения и семантики данных.

Задачи «очистки», возникающие на уровне схемы хранения, напрямую отражаются на элементах данных и решаются с помощью оптимизации схемы хранения. Проблемы, возникающие на уровне семантики данных сложно обнаружить и, именно поэтому, задачи обнаружения ошибок в семантике данных являются основными при «очистке» информации. В случае интеграции множества источников, помимо задачи обнаружения ошибок в данных семантического характера, возникают задачи согласования разрозненных данных между собой, при этом должны решаться вопросы удаления дублирующей информации, приведения данных к единому формату и единой системе классификации и кодирования, объединения дополняющих друг друга по смыслу данных и т. д.

Процесс «очистки» данных состоит из анализа источников данных, определения правил и алгоритмов преобразования, их применения к данным и проверки результатов преобразования. Один из подходов в решении задач «очистки» данных - это использование технологии извлечения знаний (Data Mining), с помощью которой можно находить скрытые закономерности в данных больших объемов и строить модели, отражающие эти закономерности [2]. На основании полученных моделей можно восстанавливать пропущенные значения атрибутов данных или вносить исправления в существующие.

Процессы преобразования данных можно выполнять итерационно, каждый этап итерации может преобразовывать как схему хранения данных, так и семантику элементов данных. Для уменьшения ручного кодирования операций «очистки», следует использовать специализированные инструментальные средства, поддерживающие пользовательский графический интерфейс.

В заключение необходимо отметить, что для решения всех задач «очистки» данных все еще требуется обработка большего объема информации с использованием низкоуровневых программных средств и дополнительного кодирования методов и алгоритмов «очистки», зачастую являющихся уникальными для каждого из случаев формирования ХД.

Список литературы

1. Сахаров построения и реализации информационных систем, ориентированных на анализ данных // СУБД№4.

2. , , Райх данных интеллектуальная обработка информации, М: Издатель 2001.

3. Data Mining, Санкт-Петербург Издатель Питер 2001.

НЕ нашли? Не то? Что вы ищете?

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Задачи процесса «очистки» данных и актуальные подходы к их решению

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы