УДК 65.011.56
Многомерный анализ данных для автоматизированной системы горно-транспортного комплекса
Доклад посвящен рассмотрению проблемы нахождения скрытых зависимостей в данных автоматизированной системы предприятия для дальнейшего принятия управленческого решения. Проведен обзор методов многомерного анализа данных, сделан выбор методологии анализа и выбор программного обеспечения для работы с ним. Изучена структура и основные элементы деятельности АСУ ГТК. Проведен статистический анализ данных в программе «STATISTICA» с помощью выбранной методологии анализа.
Ключевые слова: автоматизированная система управления горно-транспортным комплексом, методологии анализа данных, регрессионный анализ, значимость модели.
1. Введение
На сегодняшний день существует огромное количество предприятий разного масштаба и различной сферы деятельности. Однако, у всего многообразия предприятий есть один общий аспект деятельности – ведение отчетности. Неважно, компания ли это мирового масштаба, или небольшая, только что открывшаяся фирма: все они ведут документацию и имеют свой архив данных. Однако, по большей части вся информация, хранящаяся в архивах, никак не используется. Это и является основной ошибкой многих предпринимателей, которая привела к банкротству не одну фирму, ведь информация должна изучаться и подвергаться анализу.
Например, существует две выборки данных: одна, описывающая понижение затрат на рекламу, а вторая с информацией о снижении количества новых клиентов – с первого взгляда сразу видна прямая зависимость между снижением затрат на рекламу и уменьшением потока клиентов. Но взаимосвязь видна только потому, что выборки уже выделены из общего массива данных. В действительности же, для получения выборок была проведена объемная работа менеджера по изучению данных, их структурированию и обобщению. А ведь на практике часто попадаются менее заметные и не менее важные зависимости, для выявления которых мало одного просмотра и изучения данных: необходимы различные математические методы анализа информации. Один из таких методов, в частности многомерный анализ данных, будет далее использован в работе.
Многомерный статический анализ данных является одной из популярных и востребованный междисциплинарный областей, а так же активным инструментом синтеза различных дисциплин. Изначально его методы были ориентированы на обработку физических и инженерных экспериментов и анализ результатов статических наблюдений. Сейчас же многомерный анализ данных широко используется во множестве отраслей, в частности, он стал ключевым разделом в эконометрике : его методы незаменимы и в анализе финансовых и экономических показателей.
Этот метод будет применен к данным автоматизированной системы управления горнотранспортным комплексом (АСУ ГТК) компании «RiT Automation». В частности, будет произведен анализ влияния качества дорог на работу основного технического транспорта.
Актуальность темы «Многомерный анализ данных для АСУ ГТК» выражается в том, что с помощью методов многомерного анализа данных можно найти скрытые зависимости в данных и, на основе полученной информации, составить определенную политику управления и помочь фирме избежать некоторых потерь. При этом, следует заметить, что тема актуальна и применима не только для конкретной фирме и ее АСУ ГТК: такой анализ можно провести в совершенно различных по сферам деятельности компаниях и их информационных системах.
2. Описание АСУ ГТК
АСУ ГТК — комплекс аппаратных и программных средств, предназначенный для управления различными процессами в рамках технологического процесса, производства, предприятия. Такой комплекс программных и аппаратных средств стал необходимым инструментом для работы карьеров и шахт, так как он помогает снизить определенный процент затрат и повысить производительность.
Все АСУ ГТК обладают тремя основными свойствами, которые позволяют увеличить эффективность и производительность на горных предприятиях: эти свойства и их описание представлены ниже:
Оптимизация движения и распределение горной техники –этот элемент позволяет реализовать выдачу заданий разным типам техники из центральной диспетчерской. Мониторинг производства –этот элемент предоставляет возможность просмотра информации, относящейся к производственному циклу. Мониторинг местоположения –этот компонент позволяет убедиться, что техника находятся в нужном месте и выполняет работу.3. Обзор многомерных статических методов анализа данных
Многомерные статические методы анализа данных являются одними из наиболее популярных и востребованных областей знания и инструментом синтеза различных дисциплин. Существует несколько основных методов анализа, каждый из которых применяется в соответствии с решаемой задачей или наличием данных
Методы многомерного анализа данных и их краткое описание представлены ниже:
Факторный анализ –методика комплексного и системного изучения и измерения воздействия факторов на величину результативных показателей, где факторы - гипотетические непосредственно не измеряемые, скрытые переменные в той или иной мере связанные с измеряемыми характеристиками – проявлениями этих факторов [1]. Кластерный анализ – это совокупность методов, позволяющая классифицировать множества исследуемых объектов и признаков в сравнительно однородные группы. Дисперсионный анализ – метод, направленный на поиск зависимостей в данных путём исследования значимости различий в средних значениях[2]. Регрессионный анализ – статистический метод исследования влияния независимых переменных на зависимую переменную. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными [3]. Дискриминантный анализ – это раздел многомерного статистического анализа, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно. Корреляционный анализ –один из методов статистического анализа взаимозависимости нескольких признаков.4. Обоснование выбора многомерного статистического метода для проведения анализа
Суть работы – проанализировать взаимосвязь между качеством дорог и работой основного технического транспорта, в частности его количеством ремонтов. Такому исследованию наиболее удовлетворяет регрессионный анализ, так как данные о ремонтах основного транспорта можно принять за зависимую переменную, а качество дорог – за независимую переменную, влияющую на зависимую в первом случае.
Остальные методы многомерного анализа данных в той или иной степени не удовлетворяют изначальной цели и имеющимся данным, как например, кластерный анализ, использующийся для объединения в группы ряда показателей, неприменим, исходя из цели исследования.
5. Постановка задачи регрессионного анализа
Вспомогательная техника, а именно грейдера, гусеничные и колесные бульдозеры, необходимы для прокладки и расчищения дорог. От того, как работает вспомогательная техника, зависит качество дорог. А чем хуже качество дорог, тем больше и серьезней поломки основной техники, идущей следом. В процессе проведения анализа необходимо выявить зависимость работы основной техники от качества дорог. Для выявления этой зависимости необходимо выявить показатели, которые количественно охарактеризовали бы качество дорог. В качестве таких показателей я предлагаю взять:
- Количество поломок бульдозеров; Время поломок бульдозеров на единицу техники; Количество поломок грейдеров; Время поломок грейдеров на единицу техники; Количество поломок колесных бульдозеров; Время поломок колесных бульдозеров на единицу техники.
Показателем, который количественно оценит работу основной техники, предлагаю взять количество и время поломок самосвалов.
Цель анализа: выявить какой из количественных показателей качества дорог сильнее всего влияет на количественные показатели работы основной техники. То есть нужно изучить зависимость поломок самосвалов от поломанной вспомогательной техники, которая в свою очередь характеризует качество дорог.
Для анализа данных будет использована программа «STATISTICA» и применен множественный регрессионный анализ.
6. Регрессионный анализ количества ремонтов техники
Данные для регрессионного анализа (количество ремонтов основной и вспомогательной техники за 72 недели) были сгруппированы по месяцам. В таблице 6.1 приведены сгруппированные данные за 17 месяцев.
Таблица 6.1 –Количество ремонтов основной и вспомогательной техники
Месяц | Количество ремонтов самосвалов | Количество ремонтов бульдозеров | Количество ремонтов грейдеров | Количество ремонтов гусеничных бульдозеров |
Январь | 362 | 22 | 31 | 16 |
Февраль | 305 | 26 | 34 | 10 |
Март | 381 | 89 | 62 | 19 |
Апрель | 541 | 147 | 89 | 26 |
Май | 495 | 59 | 84 | 7 |
Июнь | 420 | 81 | 57 | 13 |
Июль | 462 | 54 | 73 | 6 |
Август | 430 | 58 | 87 | 11 |
Сентябрь | 447 | 51 | 69 | 13 |
Октябрь | 496 | 49 | 115 | 15 |
Ноябрь | 593 | 58 | 89 | 47 |
Декабрь | 657 | 68 | 129 | 22 |
Январь | 603 | 130 | 83 | 15 |
Февраль | 465 | 78 | 97 | 22 |
Март | 522 | 67 | 134 | 15 |
Апрель | 585 | 77 | 106 | 40 |
Май | 198 | 29 | 25 | 4 |
Для проведения анализа выборки были проверены на нормальность распределения с помощью критериев Колмогорова-Смирнова и Шапиро-Уилка в программе «STATISTICA» : проверка нормальности распределения с помощью вышеуказанных критерий показала, что распределения выборок, представленных в таблице, не имеют различий с нормальным распределением.
Далее проведем непосредственно регрессионный анализ: занесем данные выборок в лист программы «STATISTICA», обозначив как Var1 количество ремонтов самосвалов, а как Var2-Var4 –количество ремонтов вспомогательной техники, в частности бульдозеров, грейдеров и колесных бульдозеров. Статистический уровень значимости укажем равным 0,05. Результаты анализа представлены на рисунке 6.1.

Рисунок 6.1 –Результаты множественной регрессии
Интерпретация результатов анализа: коэффициент множественной корреляции (Множест. R=0,896) показывает высокую тесноту связи между зависимой и независимыми переменными, коэффициент детерминации R2=0,804 показывает низкую долю необъясненной дисперсии в дисперсии зависимой переменной. При значении фактического F-критерия Фишера=17,796 гипотеза об отсутствии линейной взаимосвязи отвергается, так как табличное значение при таких данных равно 3,41, соответственно регрессию можно считать значимой. Так же вероятность случайного значения р=0,00006 меньше заданного уровня значимости 0,05, так что с вероятность 95% нулевая гипотеза отвергается. Таким образом признается статистическая значимость уравнения регрессии.
Итоги регрессии для зависимой переменной представлены на рисунке 6.2.

Рисунок 6.2 –Итоги регрессии для зависимой переменной
Интерпретация: как видно из таблицы, переменная Var3, обозначающая количество ремонтов грейдеров, вносит наибольший вклад в предсказание зависимой переменной; положительное значение коэффициента В показывает прямую зависимость поломок грейдеров от поломок самосвалов; T-критерий Стьюдента показывает, что при заданных параметрах значение критерия равно 2,16 –это значение превышают две переменные: свободный член и количество ремонтов грейдеров. Такой же результат показывает сравнение значений уровня значимости t-критерия с принятым нами 0,05.
По итогу анализа мы удостоверились, что по критерию Фишера регрессия является значимой и качественной. Так же, исходя из данных Бета - коэффициентов и критерия Стьюдента, мы выделили одну независимую переменную, оказывающую наибольшее влияние на количество поломок самосвалов: количество ремонтов грейдеров.
7 Регрессионный анализ времени ремонтов на единицу техники
На втором этапе исследования была рассмотрена выборка по времени ремонтов на единицу техники. Этот этап подтвердил, что модель статистически значима, а наиболее значимым параметром уравнения регрессии является время ремонтов грейдеров на единицу техники. На этом этапе был более низкий уровень некоторых показателей, таких как коэффициент детерминации, множественной корреляции и бета - коэффициент - это обусловлено тем, что выборка не учитывает простой технике в ремонте не только от тяжести или большого количества поломок, а так из-за отсутствия определенных деталей, что не связано с качеством дорог и работой другого транспорта.
Тем не менее, результаты двух этапов исследования попадают в одну качественную категорию оценки. И можно сделать вывод, что на качество дорог, выраженное в количестве поломок и времени ремонтов на единицу основной техники, более всего оказывает влияния такой тип.
8. Заключение
В процессе работы были изучены особенности работы АСУ ГТК, ее структура и основные цели и задачи. В ходе выполнения работы был сделан обзор многомерных статистических методов анализа данных и выбран метод анализа, наиболее подходящий для решения задачи измерения влияния одних величин на другую величину, в частности, качество дорог, влияющее на работу основной техники. Количественными параметрами, характеризующими, по моему мнению, качество дорог были выбраны: количество и время ремонтов вспомогательной техники. Это обусловлено тем, что чем больше вспомогательной техники, в частности, бульдозеров, грейдеров и колесных бульдозеров, находятся в ремонте, а не на улучшении дорог, тем хуже качество дорог, что влияет на работу основной техники, а именно самосвалов. Параметром оценки основной техники были взяты количество и время ремонтов самосвалов, так как чем больше и чем дольше самосвалы находятся в ремонте, тем ниже их коэффициент полезного действия.
Наиболее подходящим методом исследования был выбран регрессионный анализ, который выявил, что на качество дорог, выраженное в количестве поломок и времени ремонтов на единицу основной техники, более всего оказывает влияния такой тип вспомогательной техники, как грейдера.
В дальнейшем планируется использовать дисперсионный анализ для качественной классификации, а именно: данные поломок сгруппировать по категориям поломок, предварительно классифицировав поломки по их значимости ( легкие, средние, значительные).
Литература
, , Многомерные
статистические методы и основы эконометрики: учеб. пособие. 2-е изд. М. : Финансы и статистика, 2003, 352 с. Многомерный статический анализ [Электронный ресурс]. URL: http://www. unn. ru/pages/issues/aids/2007/57.pdf (дата обращения: 12.04.2015). Сравнительный анализ критериев проверки отклонения распределения от нормального закона // Метрология. 2005. №2. С. 3-24.
Магистрант кафедры математического моделирования бизнес-процессов СибГУТИ, направление 09.04.01. «Информатика и вычислительная техника». (630102, Новосибирск, ул. Кирова, 86) e-mail: *****@***ru
Multivariate analysis of the data automated control system of mining and transport complex
E. Budkeeva
The report is devoted to the problem of finding hidden dependencies in the data of automated enterprise system for further management decision. The review of multivariate data analysis was made, and methodology of analysis and software to work with were chosen in this article. Also, the structure of automated control system of mining and transport complex and its main elements were explored. Finally, statistical data analysis was conducted by «STATISTICA» program, using the selected analysis methodology in this report.
Keywords: automated control system of mining and transport complex, methodology of data analysis, regression analysis, statistical significance of the model.


