ЛОГИСТИЧЕСКИЕ АСПЕКТЫ СТАНДАРТИЗАЦИИ КАЧЕСТВА BIG DATA
г. Минск, Институт бизнеса и менеджмента технологий БГУ
Согласно исследованию «Data Quality: The other Face of Big Data» ежегодно американские компании несут затраты, связанные с качеством данных, в размере 600 млрд. долл. США. При этом, как правило, частота ошибок составляет 15% – 30%. В проектах построения хранилищ данных с использованием Big Data очистка данных занимает 30% времени самой разработки проекта и 80% бюджета на улучшение их качества, а не построения самой системы.
На сегодняшний день в сети Интернет доля имеющихся документов XML составляет 58%. Среди них только 1/3 XML документов с сопровождающими XSD/DTD действительны. При этом 14% документов не имеют четкой оформленной структуры, зачастую имеют ошибку рассогласования тегов или обнаруживается n-ое количество недостающих тегов, что приводит к бесполезности использования XML-технологий при работе с подобными документами.
Таким образом, почти половина компаний, а именно 40%, понесли потери и столкнулись с проблемами из-за плохого качества данных. Наиболее распространенные проблемы, вызванные некачественными данными, являются недостаточное время для согласования данных и потеря действительности, достоверности данных в системе.
Основными свойствами присущими проблематике качества big data являются:
1. Не структурированность. Поступление данных из разнородных источников, которые приводят к сложным структурам и увеличивают сложность интеграции данных, часто затрудняет решение проблемы определения семантики данных и обнаружения корреляций между ними. В отличие от традиционного управления качеством данных, при использовании Big Data невозможно указать семантику данных заранее. В этой связи возникает острая необходимость в контекстно-зависимых правилах для обнаружения семантических ошибок, которые в последующем можно также использовать для совершенствования самих правил.
2. Объем. Согласно предсказаниям компании Cisco к 2018 году объем сгенерированных данных посредством IoT достигнет 403 ЗБ. Собрать, очистить, интегрировать, и извлечь полезную информацию из подобного объем данных при ограниченном временном интервале становится крайне затруднительно. Это бросает вызов существующим методам и технологиям обработки данных.
3. Скорость. Скорость обновления больших данных происходит в режиме реального времени, что требует инновационных технологии обработки для своевременного извлечения полезной информации. Обработка и анализ устаревших данных приведет к бесполезным недостоверным выводам, что приведет к ошибкам и серьезным последствиям как на микро-, так и макро-уровнях.
Без достаточного качества данных, процессы, протекающие в компаниях, выстаиваются в слепую, правильность принятия решений не своевременно и в целом ставится под вопрос. В быстрорастущей конкуренции на мировом рынке и наличии постоянно меняющихся запросов потребителей принятие решений на основе интуиции становится слишком высоким риском, а время слишком ценным редким ресурсом для нецелесообразного использования.
Все это подчеркивает тот факт, что в мире больших данных, где огромные разнородные массивы данных генерируются с огромной скоростью, качество – далеко от совершенства. В этой связи вопрос определения качества больших данных, их стандартизации и управление весьма остро становится в научной сфере.
Понятие больших данных достаточно новый термин, потому и устоявшегося универсального понятия качества больших данных не существует. Тем не менее, на основе анализа литературы по данной тематике, можно сделать вывод, что качество данных с точки зрения бизнеса – это характеристика, которая определяет надежность, своевременность принятия решений.
При определении высокого качества данных, как правило, обозначают следующие элементы: точность, целостность, последовательность, полнота и достоверность. Однако следует заметить, что безупречное качество больших массивов данных становится бесполезным, если не имеется, к примеру, своевременного доступа. Потому при определении главных элементов качества данных с акцентом на Big Data, следует обозначить следующее:
1. Доступность и своевременность: все данные, включая самые актуальные, доступны по требованию.
2. Полнота. В данном случае подразумевается, что все данные (к примеру, счета, адреса, отношения) имеются в базах данных и связаны между собой.
3. Точность: типичные проблемы при использовании данных, такие как орфографические ошибки, опечатки и случайных сокращений были выявлены и устранены очищены.
Внедрение систем менеджмента качества на практике происходит тогда, когда процедуры или политика становятся слишком многоуровневыми, сложноинтегрированными и достаточно сложными для эффективного управления. В таких ситуациях компании различных сфер деятельности начинают искать концепции, инструменты, которые сочетают в себе процессы реализации качества, а также обнаружение текущих процессных пробелов путем планирования управления качества. Исходя из анализа современного развития цепей поставок, это ставится особенно важно и актуально для участников логистической сферы деятельности.
Рассмотрим, как интеграция больших данных наряду со стандартизацией качества данных может улучшить цепь поставок, и сделаем вывод о необходимости и важности внедрения стандартов качества Big Data. В качестве примера возьмем перевозку грузов типа LTL (Less Then Truck – малотоннажная отправка) морским транспортом как участка международной логистической цепи. При осуществлении транспортировки грузов грузоотправители и перевозчики напрямую зависят друг от друга. Используя стандартизированные большие данные, грузоотправители имеют возможность получать наиболее выгодные цены на перевозку, в то время как перевозчики – достигать максимальной эффективности в управлении судоходными путями.
Среди прочих выгод следует рассмотреть следующие ситуации:
1. Стандартизация Big Data повышает совместную выгоду отношений «Грузоотправитель – Перевозчик»;
Big Data предоставляют полную видимость перевозчикам по отправке грузов заранее, что позволяет оптимизировать поставки, следовательно, повышать уровень стандартов обслуживания, а также оказывать положительное воздействие на окружающую среду. Малотоннажные перевозчики могут использовать Big Data для оптимизации своих маршрутов. Там, где они привыкли полагаться на водителей судна, теперь полагаются на данные. К примеру, описанную концепцию реализовала американская компания UPS посредством сервиса MyChoice, который позволяет грузоотправителю регулировать временем, так что доставка может быть мгновенной.
2. Оптимизация внутренних и внешних процессов.
Как правило, коносамент не содержит точной информации. Принимая во внимание тот факт, что заявки на транспортировку в электронном виде присылают лишь 14% мелких грузоотправителей: 9% посредством веб-сайта, 5% через системы EDI, то пересылка коносамента даже в электронном виде не добавит ценности извлекаемым данным, т. к. описание продукта и веса зачастую ошибочны, что приводит к необходимости проведения дополнительных логистических операций. Стандартизация данных позволила бы оптимизировать процессы, а также заставить перевозчиков основывать цены на более объективных характеристиках таких как плотность, а не грузовой класс.
Сегодня при осуществлении морской транспортировки на коносамент крепится наклейка с идентификационным номером, что помогает отслеживать процесс движения груза через перевозчика. Данный процесс должен быть также стандартизирован. Наклейка должна помещаться на груз и синхронизироваться с данными на электроном коносаменте, что позволит автоматически знать, что находится на поддоне и куда его везти.
Таким образом, стандартизация Big Data становится структурированным международным языком общения между грузоотправителем и перевозчиком, что позволяет интегрировать бизнес-процессы и получать выгоду от взаимной реализации поставленных целей. Более того, стандартизация Big Data способна дать более полноценную картину о целевой аудитории, улучшать операции по производству товаров и услуг, делая их более конкурентоспособными. Следовательно, улучшая процессные подходы внутри компании и за её пределами, Big Data напрямую повлияет на существующие регламенты, прописанные в стандартах качества ISO. Стандартизация Big Data позволит решить проблему адаптации внедренных стандартов качества под конкретные нужды компании в зависимости от территории, культурны особенностей и размеров бизнеса за счет установления корреляционных зависимостей между данными факторами.


