ЛАБОРАТОРИЯ ОБЛАЧНЫХ ТЕХНОЛОГИЙ И АНАЛИТИКИ БОЛЬШИХ ДАННЫХ

Техническая революция 1980-х годов сделала доступным гигантский объем данных.

Нарастающий объем разнородной информации подтолкнул развитие методов хранения, передачи и обработки, так начала формироваться парадигма Больших Данных. Без единой парадигмы - хранение, передача и обработка, будут раздирать данные, как лебедь, рак и щука из известной басни. Если за передачей и хранением технологии хоть как-то поспевают, то используют менее 10% доступных данных.

Поэтому, важнейшим условием успешного развития российской экономики становится возможность фиксировать и анализировать массивы и потоки информации.

Существует точка зрения, что страны, которые овладеют наиболее эффективными методами работы с т. н. «Большими данными» («Big Data»), ждет новая индустриальная революция.

Так, в октябре 2014 года, Европейская Комиссия и Big Data Value Association, запустили совместный проект по исследованиям и инновациям в области больших данных с бюджетом в 1 трлн. евро на период 2015-2020 гг., потому что ЕС считает, что к 2020 г. данные технологии будут способствовать повышению ВВП ЕС на 1,9%, что эквивалентно приросту ВВП ЕС за год.

Направление «Big Data» концентрирует усилия в организации хранения, обработки и анализа огромных массивов данных. У России с ее колоссальным научным и образовательным потенциалом есть все шансы занять достойное место среди тех национальных экономик, где извлечение полезных знаний из больших объемов данных различной природы поставлено на службу индустриальному прогрессу.

НЕ нашли? Не то? Что вы ищете?

Где, уже используют Big Data

Научные исследования. ЦЕРН, Швейцария

Для экспериментов на Большом адронном коллайдере была разработана и реализована глобальная грид-инфраструктура.

Грид – инфраструктура - способ организации вычислительного процесса, когда части задачи распределяются по всем свободным, часто географически разнесённым, ресурсам сети.

Грид-инфраструктура в цифрах:

● 10,000 физиков используют данные для исследований

● 250 тыс. задач обрабатывается одновременно;

● 30 млн. задач обсчитывается в месяц;

● 260 тыс. ядер задействовано;

● 180 PB дискового пространства доступно;

● 10 Gbit/s каналов соединяет ЦЕРН с каждыми из Tier-1

Без организации грид-инфраструктуры было бы невозможно обрабатывать и хранить колоссальный объем данных, поступающих с коллайдера. Каждую секунду датчики фиксируют 109 взаимодействий. Для управления потоками заданий в этой инфраструктуре была разработана программная платформа «PanDA». В настоящее время эта платформа активно развивается для работы с различными ресурсами (кластерами, облачными средами, суперкомпьютерами), что позволит существенно увеличить и разнообразить инфраструктуру распределенных вычислений для решения масштабных задач с использованием технологий Больших данных.

Умный город - Мадрид, Испания

Муниципалитет Мадрида совместно с IBM реализует проект по совершенствованию комфортности проживания. Бюджет проекта составляет 14.7 млн. евро. В проекте будут использована методология Больших данных, которая позволит муниципалитету управлять и оплачивать каждой подрядной организации основываясь на реальных данных оказанных услуг и выполненных работ, в области содержания городской инфраструктуры (дороги, освещение, озеленение, уборка и т. д.). Предполагается отслеживать загруженность движения для 1.7 млн. автомобилей, работу 250 тыс. мачт освещения, уход за 287 тыс. деревьями и т. д. Для градации изменений будет использовано более 300 ключевых показателей эффективности. Дополнительно, жители смогут взаимодействовать с муниципалитетом посредством мобильных устройств.

На основе данного проекта модель будет использована в других городах ЕС.

Сейсмология. Ливерморская национаальная лаборатория и Гугл, США

Парадигма Big Data позволяет обрабатывать миллионы задач одновременно в распределенной среде. Двадцать тысяч станций, расположенных по всему миру, в реальном времени собирают информацию о колебаниях земной коры, которую нужно обрабатывать и интерпретировать немедленно. Технология устроена таким образом, что данные только с одной станции несут малую информативность, поэтому для анализа используется информация с нескольких станция. Подходы обработки больших объемов данных, предложенные специалистами из Ливерморской национаальной лаборатории и Гугл, помогли сейсмологам сократить время обработки 1Тб данных сейсмограмм с 48 часов до трех. Сейчас ученые пытаются оптимизировать время вычислений базы данных в 50Тб (300 млн. сейсмограмм) с 42 дней до 2.

Технологии Big Data

Сегодня уже ни один крупный проект неосуществим без использования

распределенной инфраструктуры для обработки данных. Разработанные программные платформы и технологии распределенных вычислений и Больших данных адаптируются для решения масштабных задач в области экономики, бизнеса, социологии, государственного управления и т. д.

При этом критически важными являются изменения в управлении данными, IТ-инфраструктуре и компетенциях персонала.

В мире Больших данных современные технологии делают возможным обработку и анализ огромного количества данных, в некоторых случаях – ВСЕХ данных, касающиеся того или иного явления (не полагаясь на случайные выборки) в их первозданном виде – структурированные, неструктурированные, потоковые.

Управление Big Data

Стратегической задачей Лаборатории облачных технологий и аналитики Больших данных, созданной в РЭУ им. , является реализация предложения по развитию, адаптации и имплементации решений, накопленных в последние годы в физике высоких энергий и реализованных, в частности, в рамках платформы «PanDA», ДЛЯ РЕШЕНИЯ ШИРОКОГО КРУГА ЗАДАЧ ГОСУДАРСТВЕННОГО УПРАВЛЕНИЯ, ПРОМЫШЛЕННОСТИ, БИЗНЕСА И ОБРАЗОВАНИЯ.

Имеющийся опыт по применению этих решений позволяет создавать программные платформы, которые в совокупности со специализированными прикладными пакетами, адаптированными для таких платформ, и позволяют достичь качественно нового уровня обработки и анализа данных, принципиально невозможного без применения данных технологий.

Аналитика Big Data

Новые аналитические приложения выдвигают требования к платформе для работы с Big Data:

·  Объединять и управлять всем разнообразием, скоростью и объемом, достоверностью и обоснованностью данных.

·  Иметь возможность применять передовую аналитику к информации в ее исходной форме.

·  Визуализировать все доступные данные для специального анализа.

·  Наличие среды проектирования для создания новых аналитических приложений.

·  Возможность оптимизации рабочей нагрузки и планирование.

·  Безопасность и управление.

Персонал Big Data

Одной из важнейших компонент является подготовка специалистов, способных развивать парадигму Больших данных:

·  решать задачи,

·  развивать платформу и построенные на ней решения,

·  сопровождать и администрировать систему,

·  предлагать новые подходы.

Задачи стоящие перед Лабораторией облачных технологий и Больших данных:

·  развертывание платформы управления Большими данными;

·  создание кластерных, облачных и/или грид-инфраструктур для хранения, передачи, обработки и анализа больших данных;

·  обучение облачным и грид-технологиями (пользователей, администраторов и разработчиков);

·  адаптация пакетов прикладных программ (т. е. приложений) для работы в этих инфраструктурах;

·  предоставление облачных ресурсов и инфраструктуры для пользователей;

·  выбор решений и методов для организации хранения и управления данными (SQL, NoSQL (хранилища типа «ключ-значение», масштабируемые распределенные хранилища, документо-ориентированные СУБД, графовые СУБД));

·  управление жизненным циклом данных (создание, обработка, анализ, систематизация, визуализация, создание отчётов, удаление);

·  исследования в области аналитики больших данных – методы анализа и предсказательные модели (математическая статистика, анализ временных рядов, кластерный анализ, корреляционный анализ, регрессионный анализ, нейронные сети, генетические алгоритмы, нечеткие алгоритмы, распознавание образов и др.).

Требования к задачам заказчика

«Большие данные» предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, — это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате организации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности.

В этой связи потенциальный заказчик, прежде всего, должен определить:

1) потребность в хранении, передаче, обработке и анализе достаточно больших объёмов разнородных данных, подпадающих под определение «Big Data». Накопленный мировой опыт показывает, что данные в банковской сфере (в задачах привлечения клиентов, оценки заемщиков, противодействия мошенничеству и др.), в сфере телекоммуникаций (в задачах повышения качества связи, выявления мошенничества и др.), в торговле (прогнозирование трендов покупательского спроса, оптимизация цен и проводимых акций и т. д.), в медицине (определение наиболее эффективных методов лечения, контроль хода лечения и т. д.) и ряде других областей (маркетинг, энергетика, страховании, ЖКХ) относятся к категории «Big Data». К требованиям «объема» можно добавить требования высокой скорости прироста данных и потребности в высокой скорости их обработки, многообразию данных, т. е. потребности одновременной обработки различных типов структурированных и неструктурированных данных);

2) вычислительная ресурсоёмкость процедур обработки и анализа этих данных (потребность в сокращении времени получения результата за дни или даже часы при нынешних сроках в недели и даже месяцы)

Где мы сейчас

Мы в самом начале пути!