МАТЕМАТИЧЕСКИЕ МЕТОДЫ И КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ В УПРАВЛЕНИИ

ЧАСТЬ 2

Составители:

к. ф. м. н., доц. ,

к. ф. м. н., доц. ,

д. ф. м. н., проф.

Предисловие составителей

Задачей курса «Математические методы и компьютерные технологии в управлении» является ознакомление студентов с методологией, подходами, математическими и компьютерными методами анализа социально-экономических явлений с позиций, сложившихся к настоящему времени в мировом научно-практическом и деловом сообществе.

Материал дисциплины представляет собой систематическое научно обоснованное и аргументированное введение в современные методы анализа данных и извлечения из них скрытых закономерностей и знаний. Отсутствие навыка анализа данных у специалиста в области управления делает его неэффективным, неспособным воспринимать современные технологии управления. Поэтому курс является важным элементом общей теоретической подготовки в области управления. Усвоение материала курса позволяет получить базовые знания и навыки в области анализа данных социально-экономической природы, которые в дальнейшем могут использоваться и развиваться в таких учебных курсах как логистика, маркетинг, финансовый и проектный менеджмент, управленческое консультирование, стратегическое управление, управление персоналом и др. В этом смысле курс является междисциплинарным.

Менеджер любого уровня при принятии решений основывается лишь на доступной ему информации о предмете управления, поэтому от качественных характеристик этой информации, таких как адекватность, полнота, достоверность, своевременность, непротиворечивость, и т. п., непосредственно зависит эффективность его работы.

По этой причине в программу курса включен раздел, посвященный современным компьютерным технологиям хранения, обработки и анализа данных.

Основной парадигмой курса является представление о том, что анализ данных является составной частью процесса принятия управленческого решения в социальной сфере или сфере экономики.

В современных условиях информационные системы играют и будут играть все возрастающую роль в достижении стратегических целей организации. Это приводит к новым требованиям к информационным системам и их функциям. Такие системы более не просто инструмент, обеспечивающий обработку информации для отделов и конечных пользователей внутри организации. Теперь они должны порождать новые знания, новый информационный продукт, который обеспечат организации конкурентное преимущество на рынке.

Менеджер должен уметь извлекать максимальную выгоду из потенциальных преимуществ информационных технологий.

Он обязан обладать достаточными знаниями для того, чтобы осуществлять общее руководство процессом применения и развития информационных технологий в организации и понимать, когда требуются дополнительные затраты ресурсов в этой области или помощь сторонних специалистов.

Поэтому задачей курса является формирование у менеджеров знаний и представлений о современных программных продуктах и технологиях, необходимых для управления информационными системами организации в целях достижения стратегических целей организации.

Учебная задача курса.

Актуальной практической задачей дисциплины является подготовка студентов к творческому профессиональному восприятию проблемы анализа данных в последующих специальных дисциплинах.

У студентов должны сформироваться навыки анализа входного набора данных, характеризующих социальные или экономические явления, с целью выявления внутренней их непротиворечивости, наличия взаимосвязей, классификации объектов, нахождения скрытых закономерностей в анализируемых данных.

В результате должно возникнуть представление о том, что процедура принятия решения есть лишь один из элементов анализа данных. Анализ же данных, понимаемый в широком контексте, составляет существо парадигмы математического моделирования, ситуационной, модельной, алгоритмической поддержки процессов выработки и принятия решений.

В результате изучения курса студент должен получить представление о достаточно полном спектре концепций, подходов, методов современных теорий анализа данных и принятия решений на этой основе.

Студент должен знать основные типы математических моделей, используемых при описании сложных систем и принятии решений, знать сложившуюся к настоящему времени типизацию и классификацию таких моделей, систем, задач, методов.

Студент должен научиться применять современные программные продукты, реализующие статистические, нейросетевые, методы анализа данных.

Студент должен овладеть методологией системного анализа реальных данных в целях построения адекватных моделей, освоить методы робастного оценивания, классификации данных, методы снижения размерности данных, дискриминантный и факторный анализ, методы построения регрессионных моделей.

Студент должен получить навыки определения основных направлений политики организации в управлении информационными ресурсами; оценивать эффективность различных вариантов информационного обеспечения управленческой деятельности;· выбирать и рационально использовать конкретные информационные технологии обеспечения деятельности на своем рабочем месте.

НЕ нашли? Не то? Что вы ищете?

СОДЕРЖАНИЕ ПРОГРАММЫ «МАТЕМАТИЧЕСКИЕ МЕТОДЫ И КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ В УПРАВЛЕНИИ ЧАСТЬ 2»

Тема 1. Общие представления о современных методах анализа данных и принятия решений

Информация, данные и знания. Сходство и различие этих понятий. Виды знаний и модели представления знаний. Функциональные и статистические взаимосвязи. Статистическая закономерность.

Схемы принятия управленческих решений. Теоретико-управленческие начала: планирование, измерения (наблюдения), оперативное управление (регулирование). Способы реализации общей идеи обратной связи в менеджменте – алгоритмы, или стратегии управления. Управление в условиях риска. Детерминированный, гарантирующий и вероятностный подходы к построению стратегий управления.

Измерение в социально-экономической сфере. Виды данных. Числовые и символьные данные. Типы шкал для измерения данных. Характеристика данных, измеренных в номинальной, порядковой и интервальной шкалах. Дихотомические переменные. Расстояние и меры близости объектов, свойства которых измеренных в интервальной и дихотомической шкалах. Проблемы выбора метрики в факторном пространстве.

Форматы представления данных. Табличные, транзакционные и графические данные. Способы организации данных.

Анализ данных в коммерческой деятельности. Роль и место анализа данных в социологии. Анализ данных в государственном и муниципальном управлении. Анализ данных и принятие решений в медицине.

Тема 2. Data Mining. Методы и алгоритмы технологии Data Mining

Обзор современных технологий анализа данных. OLAP – технологии. Представление данных в виде гиперкуба. Срезы данных. Реализация OLAP в SPSS, Deductor 4.3 и Excel. Data Mining (KDD) – технологии. Краткая история KDD. KDD как синтез разных областей знания. Различные подходы классификация методов Data Mining.

Методы, ориентированные на создание математических моделей (статистических методы Data Mining). Корреляционно-регрессионный анализ, Дискриминантный анализ (классификация с обучением). Кластерный анализ (классификация без обучения). Методы снижения размерности (факторный анализ и многомерное шкалирование).

Кибернетические методы Data Mining. Построение дерева решений. Алгоритмы построения дерева решений. Алгоритмы конструирования деревьев решений CART и C4.5, CHAID. Энтропия статистического распределения и ее использование при построении дерева решений. Обнаружение логических правил в данных. Построение дерева решений с помощью модуля Decision Tree в SPSS.

Поиск ассоциативных правил. Применение методики поиска ассоциаций в торговле, медицине и управлении. Построение ассоциативных правил с помощью программы Deductor 4.3.

Искусственные нейронные сети. История возникновения и развития моделирования с использованием нейронных сетей. Принципы организации нейронных сетей. Искусственный нейрон. Формальный нейрон, и биологический нейрон. Классификация нейронных сетей. Виды нейронов. Входные нейроны. Нейроны промежуточных слоев и их функция в нейронных сетях. Выходные нейроны и их основные характеристики. Топология нейронных сетей.

Обучение нейронной сети. Алгоритм обратного распространения ошибки. Оценка числа нейронов в скрытых слоях. Проблема обобщения и контроля качества.

Основные виды задач, которые решаются с помощью нейронной сети. Задачи прогнозирования и задачи классификации. Различие в постановке задач численного и нейросетевого моделирования. Проблема переобучения нейронной сети. Обучающее, валидное и тестовое множество при обучении нейронной сети.

Алгоритм обучения без учителя Кохонена. Сеть Кохонена. Карты Кохонена. Способы визуализации карт Кохонена. Примеры задач, которые могут быть решены с использованием нейросетевого моделирования.

Новые подходы для решения оптимизационных задач и задач анализа данных. Эволюционное программирование. Генетические алгоритмы. Нечеткая логика.

Обзор программных средств Data Mining. Универсальные и специализированные пакеты.

Примеры применения Data Mining.

– Для решения бизнес-задач: банковское дело; финансы, страхование; CRM (Customer Relationship Management – управление взаимоотношениями с клиентами); производство; электронная коммерция; маркетинг; фондовый рынок и другие.

– Для решения задач государственного уровня: поиск лиц, уклоняющихся от налогов; борьба с терроризмом.

– Для научных исследований: медицина; биология; молекулярная генетика и генная инженерия; биоинформатика; астрономия; прикладная химия; и другие.

Для извлечение знаний из Интернет: поисковые машины Интернет; кластеризация транзакций, счетчики посещений и другие.

Тема 3. Предварительный анализ данных. Методы сравнения выборочных показателей

Обзор основных понятий и задач математической статистики, используемых в анализе социально-экономических явлений.

Особенности применения выборочного метода в анализе данных. Метод испытания статистических гипотез как основной метод анализа надежности получаемых результатов. Принципы построения статистических критериев. Статистические распределения, используемые для проверки статистических гипотез. Основные свойства распределений хи-квадрат, Стьюдента, Фишера, Колмогорова – Смирнова и др. Понятие уровня значимости. Статистические гипотезы и их проверка. Параметрические и непараметрические критерии.

Дескриптивный анализ исходных данных. Выбросы и их обнаружение. Влияние выбросов на достоверность получаемой информации. Критерии обнаружения выбросов Титьена и Мура. Робастное оценивание. Методы робастного оценивания в SPSS.

Исследование взаимосвязи явлений. Парный и многофакторный корреляционный анализ. Выявление ложных корреляций. Частный коэффициент корреляции. Автокорреляция. Частная автокорреляция. Исследование взаимосвязей для переменных, измеренных в номинативной шкале. Таблицы сопряженности и критерий хи-квадрат.

Задача сравнения параметров двух и более выборок. Критерий Колмогорова – Смирнова для проверки распределения на нормальность. Сравнения выборочных средних для зависимых, независимых и повторных выборок. Непараметрические критерии Манна – Уитни, Вилкоксона. Дисперсионный анализ как один из важнейших методов анализа данных. Условия применимости дисперсионного анализа. Тест Левене на однородность дисперсии. Использование непараметрического рангового критерий Крускалла – Уоллеса для сравнения нескольких выборок в условиях неоднородной дисперсии. Решение задач предварительного анализа данных с использованием программного пакета SPSS.

Тема 4. Регрессионные модели анализа данных

Задача прогнозирования как важнейшая составляющая задачи управления. Методы Data Mining, при помощи которых решаются задачи прогнозирования. Однофакторная и многофакторная регрессия. Линейная и нелинейная регрессионные модели. Метод МНК для нахождения линейной регрессионной модели. Условия применимости МНК. Спецификация переменных в уравнениях регрессии. Ошибки спецификации. Проблема мультиколлинеарности в модели множественной линейной регрессии. Толерантность и ее определение для факторных переменных. Проблемы гетероскедастичности. Графические методы определения гетероскедастичности. Построение автокорреляционной и частной автокорреляционной функций в SPSS.

Анализ качества построенной регрессионной модели. Критерии Фишера для определения значимости регрессионной модели в целом и Стьюдента для проверки значимости регрессионных коэффициентов. Методы отбора наиболее существенных объясняющих переменных. Линейные регрессионные модели при наличии качественных признаков. Анализ регрессионных остатков (проверка на нормальность и отсутствие гетероскедастичности и автокорреляции). Критерий Дарбина – Уотсона.

Нелинейные модели множественной регрессии. Линеаризация моделей множественной регрессии и недостатки этого метода. Подбор вида уравнения регрессии в SPSS. Выявление взаимодействия объясняющих факторов. Логистическая регрессия. Метод максимального правдоподобия как альтернатива метода МНК. Определения качества логистической модели. Факторы Кокса и Снелла и Нэйджелкерка. Статистика Вальда.

Анализ рядов динамики в SPSS. Общие сведения о временных рядах. Модели с лаговыми переменными. Авторегрессионые модели. Аддитивная и мультипликативная модели временного ряда. Сглаживание временных рядов. Алгоритмы экспоненциального сглаживания. Выделение трендовой и сезонной составляющих. Предсказание уровней ряда. Авторегрессионные модели временного ряда Устранение автокорреляции остатков. Метод Кохрана – Оркатта и Прайса – Винстена. Модели временного ряда ARIMA(p, d,q). Примеры анализа временных рядов.

Тема 5. Методы структурного анализа данных

Проблема снижения размерности модели, канонические величины Факторный анализ. Метод главных компонент. Латентные факторы. Факторные нагрузки и интерпретация факторов. Факторный анализ в SPSS. Использование факторного анализа в социологии.

Многомерное шкалирование. Постановка задачи многомерного шкалирования.

Задача классификации, Классификация с обучением (дискриминантный анализ). Пространство признаков и расстояние в нем. Дискриминантные функции и их геометрическая интерпретация. Классификация при наличии двух и более обучающих выборок. Применение дискриминантного анализа в задачах управления.

Классификация без учителя. Кластерный анализ. Кластерный анализ и многомерные группировки. Кластерный анализ объектов и кластерный анализ переменных. Алгоритмы кластерного анализа. Методы кластерного анализа в SPSS. Двухшаговый кластерный анализ. Иерархический кластерный анализ. Метод К-средних. критерии качества классификации. Примеры применения кластерного анализа для классификации объектов в сфере государственного и муниципального управления.

Вопросы для подготовки к экзамену

1.  1 В чем состоит задача технологии Data Mining?

2.  В чем сходство и различие технологий OLAP и Data Mining?

3.  Какова роль анализа данных в информационных технологиях поддержки принятия решений?

4.  Какие основные типы задач решаются с применением технологии Data Mining?

5.  В чем различие подходов при использовании универсальных и специализированных пакетов анализа данных?

6.  Всегда ли возможно полностью доверять результатам анализа данных, выполненным с помощью специализированных пакетов? Перечислите проблемы, с которыми исследователь может столкнуться, например, при выполнении регрессионного анализа.

7.  В чем сходство и различие задач классификации и кластеризации?

8.  С помощью каких методов анализа можно выявить правила, содержащиеся в данных?

9.  Позволяет ли методика построения дерева решений выявить все правила содержащиеся в данных?

10.  В чем сущность алгоритмов построения дерева решений.

11.  Какой смысл имеет энтропия распределения? Как, используя энтропию распределения, можно выбрать переменную для расщепления узла дерева решений на два дочерних?

12.  Дайте определение понятий «ассоциативное правило», «транзакция», «поддержка и достоверность ассоциативного правила».

13.  Приведите примеры задач государственного и муниципального управления, в которых широко применяются технологии Data Mining.

14.  Какие типы шкал используются для анализа данных в SPSS?

15.  Приведите примеры данных, для измерения которых используется номинативная, порядковая и интервальная шкалы.

16.  Перечислите основные операции, которые допускают данные, измеренные в номинативной, порядковой и интервальной шкалах.

17.  Какие существую способы импорта данных из программы Excel в SPSS?

18.  В чем состоит сущность выборочного метода исследования?

19.  Перечислите основные виды распределений, которые широко используются для построения статистических критериев в SPSS.

20.  Сформулируйте концепцию интервального оценивания, широко применяемую для оценки показателя в генеральной совокупности по выборочным данным.

21.  Дайте определение понятий «доверительная вероятность», «уровень значимости», «число степеней свободы».

22.  Перечислите основные свойства нормального и стандартного нормального распределений.

23.  В чем состоит сущность метода статистического испытания гипотез при анализе выборочных данных?

24.  Чем различаются ошибки первого и второго рода? Какие существуют способы для одновременного уменьшения этих ошибок?

25.  Дайте определение понятий «критическая область» и «область принятия решений».

26.  Как можно проверить предположение о нормальности распределения во входном наборе данных!

27.  Какими способами можно установить взаимосвязь данных? Какие методы оценки корреляций имеются в SPSS?

28.  В чем состоит смысл таблиц сопряженности и как на их основе можно установить взаимосвязь признаков?

29.  В чем заключается смысл -критерия Стьюдента, -критерия Фишера и критерия Пирсона?

30.  В каких случаях для сравнения выборочных средних используется -критерия Стьюдента?

31.  Чем параметрический критерий отличается от непараметрического? Приведите примеры параметрических и непараметрических критериев.

32.  В чем состоит сущность метода дисперсионного анализа.

33.  Перечислите основные непараметрические критерии и опишите методологию проверки статистических гипотез о параметрах выборочных показателей на их основе.

34.  Что понимается под моделью множественной линейной регрессии?

35.  Перечислите основные посылки МНК.

36.  Какой смысл имеют коэффициенты регрессионного уравнения?

37.  Какие преимущества имеет стандартизованная модель регрессии?

38.  В чем смысл коэффициента детерминации? Какие значения он может принимать?

39.  Чем нормированный коэффициент детерминации отличается от обычного?

40.  Если число объясняющих переменных увеличилось, то обязательно ли увеличится и значение нормированного коэффициента детерминации? А как будет вести себя нескорректированный фактор детерминации?

41.  Какой смысл имеет коэффициент толерантности переменной, и для каких целей он используется в регрессионном анализе?

42.  Как производится анализ статистической значимости регрессионного уравнения в целом? Какая нулевая гипотеза при этом выдвигается?

43.  Какая статистика используется для оценки статистической значимости регрессионных коэффициентов? Какая гипотеза при этом проверяется?

44.  Как ставится задача об интервальной оценке регрессионных коэффициентов?

45.  Какие формы уравнений регрессии могут быть сведены к линейной модели?

46.  Каким способом можно выявить автокорреляцию во входном наборе данных?

47.  Как убедиться в гомоскедастичности входного набора данных? В чем состоит смысл теста Левене?

48.  Какие нелинейные модели однофакторной регрессии можно построить в SPSS, используя закладку Analyze/Regression/Curve Estimation (Анализ/Регрессия/Оценка кривых)?

49.  Сформулируйте постановку задачи логистической регрессии.

50.  Какие показатели используются для оценки качества модели логистической регрессии? С помощью какого критерия оценивается значимость регрессионных коэффициентов в модели логистической регрессии?

51.  Что представляет собой ряд динамики? В чем специфика построения регрессионных моделей для рядов динамики?

52.  Для каких целей производится сглаживание рядов динамики? Какие процедуры сглаживания рядов динамики имеются в SPSS?

53.  Какие модели временного ряда обычно используются при анализе рядов динамики в SPSS?

54.  Какими способами можно устранить автокорреляцию в рядах динамики? В чем суть итерационного процесса Кохрана – Оркатта?

55.  Какие преобразования временного ряда включает в себя модель ARIMA(p,d,q)?

56.  Сформулируйте постановку задачи дискриминантного анализа.

57.  Дайте графическую интерпретацию задачи дискриминантного анализа для случая двух переменных.

58.  Какие факторные и результативные переменные могут принимать участие в дискриминантном анализе?

59.  Сформулируйте математическую постановку задачи дискриминантного анализа.

60.  Какой критерий используется в SPSS для отбора дискриминирующих переменных?

61.  Для каких целей дискриминантный анализ может использоваться в задачах государственного и муниципального управления и менеджменте?

62.  Сформулируйте постановку задачи факторного анализа.

63.  Дайте графическую интерпретацию факторам для двумерного факторного пространства.

64.  Сформулируйте математическую постановку задачи факторного анализа.

65.  Для каких целей производится вращение факторов?

66.  Для каких целей можно использовать факторный анализ при построении регрессионных моделей?

67.  Какой смысл имеют коэффициенты матрицы факторных нагрузок?

68.  Сформулируйте постановку задачи кластерного анализа.

69.  Каковы принципы кластеризации в методе иерархического кластерного анализа?

70.  Как происходит образование кластеров в методе К-средних?

71.  Как определить актуальное число кластеров в методе иерархического кластерного анализа на основании таблицы шагов агломерации?

72.  Может ли процесс кластеризации быть неоднозначным? Какие факторы влияют на итоговый результат объединения объектов в кластеры?

73.  Какие меры расстояний чаще всего используются в SPSS для кластеризации объектов?

74.  Как, имея матрицу расстояний между объектами, можно построить дендрограмму кластеризации?

75.  Какой из методов кластерного анализа можно использовать в SPSS для определения похожих переменных (кластеризации переменных)?

76.  Для каких целей используется метод построения деревьев решений?

77.  Можно ли назвать метод построения деревьев решений методом классификации объектов?

78.  Дайте определение понятий «корневой узел», «терминальный узел». «дочерний узел».

79.  Какие существуют методы отбора переменных для расщепления узла на два или несколько значений дочерних узлов?

80.  в чем состоит проблема переобучения при построении дерева решений?

81.  Какие существуют методы для ограничения излишней «пушистости» дерева решений?

82.  С помощью какого показателя можно судить о качестве классификации объектов при построении дерева решений?

83.  Являются ли правила классификации объектов, извлеченные при построении дерева решений, однозначными?

84.  В чем различие в обработке пропущенных значений при построении деревьев решений и построении регрессионных уравнений?

85.  В чем сходство и различия алгоритмов построения дерева решений CHAID, Exaustive CHAID, CRT и QUEST? Основные принципы работы этих алгоритмов.

86.  Что представляет собой искусственный нейрон? Какое преобразование информации он выполняет?

87.  Какие задачи могут решать нейронные сети?

88.  Какие виды нейронных сетей могут использоваться для анализа данных?

89.  Чем отличаются функции нейронов во входном слое, промежуточных слоях и выходном слое?

90.  Что понимается под процессом обучений нейронной сети?

91.  В чем состоит сущность алгоритма обратного распространения ошибок при обучении нейронной сети?

92.  Как можно оценить необходимое число нейронов в сети, чтобы она могла решать поставленную задачу?

93.  В чем состоит суть проблем обобщения и переобучения для нейронной сети?

94.  Зачем необходимо, наряду с обучающей, использовать тестовую и валидационную выборки?

95.  Чем различаются процедуры обучения нейронной сети с «учителем» и без «учителя»?

96.  В чем состоит смысл соревновательного обучения нейронов сети при обучении без «учителя»?

97.  В чем состоит модификация соревновательного алгоритма обучения, Кохоненым?

98.  Какую информацию можно извлечь из сети, обученную в соответствии с соревновательным алгоритмом Кохонена?

99.  Какие существуют способы визуализации карт Кохонена?

100.  Основные особенности интерфейса программы Deductor. Сценарии импорта, экспорта и обработки данных.

101.  Какие способы визуализации результатов имеются в программе Deductor при построении нейронных сетей и карт Кохонена.

102.  Как оценивается среднеквадратическая ошибка работы нейронной сети?

103.  Какой смысл имеют карта кластеров, карты раскраски нейронов-по­бедителей по значениям входных переменных, карты матрицы расстояний, матрицы плотности попаданий, карта проекции Саммона?

ЛИТЕРАТУРА

1.  . Data Mining: учебный курс. Издательский дом «Питер», 2001.

2.  и др. Методы и модели анализа данных: OLAP и Data Mining. СПБ.: БХВ – Петербург, 2004.

3.  Data Mining: учебный курс. Изд-во: Интернет-университет информационных технологий – ИНТУИТ. ру, «БИНОМ. Лаборатория знаний», 2006.

4.  Larose D. T. Discovering knowledge in data. An Introduction to Data Mining. A John Wiley & sons, inc., 2005.

5.  и др. Статистика для менеджеров с использованием Microsoft Excel. 4-е изд.: Пер. с англ. – М.: Издательский дом «Вильямс» 2004.

6.  Тюрин данных на компьютере/ Под ред. . – 3-е изд. перераб и доп. –- М.: ИНФРА – М, 2003.

7.  Толстова социологических данных. М.: Научный мир, 2000.

8.  , Шумский и его применение в экономике и бизнесе. Электрон. ресурс http://neuroschool. *****/books. html.

9.  , Борисов нейронные сети. Теория и практика. – 2-е изд., стереотип. – М.: Горячая линия–Телеком, 2002.

10.  SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей: Пер. с нем. – СПб.: , 2001.

11.  SPSS: Компьютерный анализ данных в психологии и социальных науках. – СПб.: «Питер», 2005.

12.  SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.: «Питер», 2005.

13.  Дубнов статистической информации с помощью SPSS. – М.: -во АСТ»: «НТ Пресс», 2004.

14.  Количественные методы анализа хозяйственной деятельности. – Пср. с англ. – М.: «Дело и Сервис»,1999.