МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ВЛАДИВОСТОКСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ЭКОНОМИКИ И СЕРВИСА
КАФЕДРА МАТЕМАТИКИ И МОДЕЛИРОВАНИЯ
Компьютерный анализ данных
Рабочая программа учебной дисциплины
Основная образовательная программа
38.03.05 Бизнес-информатика
38.03.01 «Экономика»
Профиль Макроэкономическое планирование и прогнозирование
Профиль Планирование и прогнозирование в бизнесе
Владивосток
Издательство ВГУЭС
2015
ББК **.**
Рабочая программа учебной дисциплины «Компьютерный анализ данных» составлена в соответствии с требованиями ООП для студентов направлений подготовки 38.03.05 «Бизнес-информатика», 38.03.01 «Экономика» профиль Макроэкономическое планирование и прогнозировании, профиль Планирование и прогнозирование в бизнесе
на базе ФГОС ВО.
.
Составитель: , канд. техн. наук, профессор кафедры математики и
моделирования.
Утверждена на заседании кафедры математики и моделирования от 7.02.2011 г., протокол № 7, редакция 2015г., протокол №10 от 01.01.2001г.
© Издательство Владивостокский
государственный университет
экономики и сервиса, 2015
ВВЕДЕНИЕ
Для современной науки и большинства направлений практической деятельности сейчас характерен статистический подход. Закономерности экономики только в среднем смогут считаться детерминистическими, при более детальном исследовании оказывается, что они носят типично случайный характер.
Дисциплина «Компьютерный анализ данных» рассматривает теоретические и практические вопросы анализа статистических данных. Анализ данных следует рассматривать как изучение методик практического применения теоретических методов математической статистики. Прикладной характер, изучаемой дисциплины подчеркивается ориентацией ее на применение конкретного программного продукта EXCEL.
Социально-экономические процессы и явления зависят от большого количества характеризующих их параметров, что обуславливает трудности, связанные с выявлением структуры взаимосвязей этих параметров. В подобных ситуациях, когда решение принимается на основе анализа стохастической, неполной информации необходимо применение методов статистического анализа данных.
Методы компьютерного анализа данных позволяют обоснованно выбрать среди множества возможных вероятностно-статистических моделей такую, которая наилучшим образом соответствует исходным статистическим данным, характеризующим реальное поведение исследуемой совокупности объектов, оценить надежность и точность выводов, сделанных на основании большого статистического материала.
Таким образом, в дисциплине изучается совокупность глубоко формализованных статистических методов, базирующихся на представлении исходной информации в многомерном геометрическом пространстве и позволяющих определять неявные (латентные), но объективно существующие закономерности в организационной структуре и тенденциях развития изучаемых социально-экономических процессов и явлений.
Основной задачей дисциплины является обучение студентов теоретическим основам наиболее распространенных методов статистического анализа данных и развития навыков применения стандартных программных средств, в которых реализованы процедуры статистического анализа данных.
Для успешного изучения дисциплины студенту необходимы знания по основным разделам «Высшей математики» и «Математическая статистика». Необходимы знания таких основополагающих понятий как: виды случайных величин, характеристики случайных величин, основные законы распределения случайных величин, способы оценки выборочных характеристик, основы статистического вывода с использованием статистических критериев и проверки гипотез, линейная и нелинейная регрессии.
1. ОРГАНИЗАЦИОННО-МЕТОДИЧЕСКИЕ УКАЗАНИЯ
1.1 Цели освоения учебной дисциплины.
Целью освоения дисциплины «Компьютерный анализ данных» является формирование теоретических и практических компетенций в области целостного представления, понимания места и роли, а также применения методов статистического анализа данных, а также обучение студентов современным программным средствам в которых реализованы модули, осуществляющие решение задач анализа данных.
Задачи дисциплины:
- дать бакалаврам теоретические основы по спектру наиболее распространенных статистических методов анализа данных и условий их применения;
- дать основы количественных методов оценки адекватности и точности построенных моделей;
- привить навыки и умения практического применения компьютерных технологий при анализе и прогнозировании социально-экономических показателей (построение линейных и нелинейных моделей прогнозирования на основе регрессионного анализа, оценка их параметров, расчёт всех необходимых статистик для анализа моделей);
-изучение концепции и технологии современного анализа данных на компьютере;
-изучение принципов работы программных средств, предназначенных для статистического анализа данных;
-изучение современных визуальных методов анализа данных и использования их для статистического вывода и формулировки гипотез о структуре данных;
-выработка умения самостоятельного решения задач по выбору методов анализа в практических ситуациях;
-получение навыков применения программных систем; предназначенных для статистического анализа данных, а также тестировании программных модулей на модельных данных;
- изучение рынков программного обеспечения по анализу данных;
- обеспечить бакалаврам прочное и осознанное желание владеть системой компьютерный анализ данных, способствующей их профессиональной успешности и востребованности на рынке труда.
1.2 Место учебной дисциплины в структуре ООП (связь с другими дисциплинами).
Для направлений «Экономика» и «Бизнес-информатика» дисциплина «Компьютерный анализ данных» относится к вариативной части профессионального цикла. Данная дисциплина базируется на компетенциях, полученных при изучении дисциплин «Математический анализ», «Теория вероятностей и математическая статистика», «Информатика».
1.3 Компетенции обучающегося, формируемые в результате освоения учебной дисциплины.
Таблица 1. Формируемые компетенции
Название ООП (сокращенное название ООП) | Блок | Компетенции | Знания/ умения/ владения (ЗУВ) | |
38.03.01 «Экономика» | Б.3 | ПК-4- способен осуществлять сбор, анализ и обработку данных, необходимых для решения поставленных экономических задач | Знания: | возможностей инструментальных сред анализа и извлечения знаний |
Умения: | применять методы анализа данных для исследования деятельности организаций решения задач по выбору методов анализа в практических ситуациях. | |||
Владения | методами группирования, классификации данных | |||
38.03.05 «Бизнес-информатика» | Б.3 | ПК-4 - проводить анализ инноваций в экономике, управлении и ИКТ | Знания: | методов проведения анализа данных |
Умения: | строить алгоритмы анализа данных | |||
Владения | - методами построения прогнозов на основании данных; -математическим аппаратом при решении профессиональных проблем |
1.4 Основные виды занятий и особенности их проведения
Объем и сроки изучения дисциплины.
Дисциплина читается для бакалавров третьего курса направления «Экономика» профиль Макроэкономическое планирование и прогнозирование в весеннем семестре в объеме 144 учебных часов (4 зачетных единиц) из них аудиторных 68 часов. На самостоятельное изучение дисциплины бакалаврам выделяется 67 часов. Промежуточный контроль по дисциплине — экзамен.
Удельный вес занятий, проводимых в интерактивных формах, для направления «Экономика» профиль Макроэкономическое планирование и прогнозирование, профиль Планирование и прогнозирование в бизнесе составляет 30 процентов аудиторных занятий.
Дисциплина читается для бакалавров второго курса направления «Бизнес-информатика» в весеннем семестре в объеме 180 учебных часов (5 зачетных единиц) из них аудиторных 68 часов. На самостоятельное изучение дисциплины бакалаврам выделяется 76 часов. Промежуточный контроль по дисциплине — экзамен.
Удельный вес занятий, проводимых в интерактивных формах, для направления «Бизнес - информатика» составляет 20 процентов аудиторных занятий.
1.5 Виды контроля и отчетности по дисциплине.
Контроль успеваемости бакалавров осуществляется в соответствии с рейтинговой системой оценки знаний студентов (бакалавров).
Текущий контроль предполагает:
- проверку уровня самостоятельной подготовки студента при выполнении индивидуального и домашнего задания;
- опросы по основным моментам изучаемой темы.
- проведение контрольных работ по блокам изученного материала;
- тестирование остаточных знаний (предварительные аттестации).
Промежуточный контроль знаний бакалавров осуществляется при проведении экзамена.
2. СТРУКТУРА И СОДЕРЖАНИЕ УЧЕБНОЙ ДИСЦИПЛИНЫ
2.1 Темы лекций.
Тема 1. «Многомерные выборки. Предварительный анализ многомерных данных» (1 часа).
Предмет, цели и задачи дисциплины Анализ данных. Шкалы измерений. Преобразование признаков, измеренных в разных шкалах. Характеристики признаков, рассчитываемые в предварительном анализе. Графическое представление данных.
Тема 2. «Методы моделирования случайных величин» (2 часа).
Метод неравномерной рулетки. Метод отбраковки. Быстрый способ моделирования одномерного нормального распределения. Моделирование многомерного нормального распределения. Способы генерации данных в EXCEL. Методы размножения выборок (бустреб-методы).
Тема 3. «Робастное статистическое оценивание» (2 часа).
Грубые ошибки и методы их выявления. Методы вычисления устойчивых статистических оценок: Пуанкаре, Винзора, Хубера.
Тема 4. «Методы статистического оценивания и сравнения выборок» (2 часа).
Статистические гипотезы в анализе данных. Подгонка вероятностных распределений к реальным данным. Проверка гипотез о равенстве вектора средних значений постоянному вектору. Проверка гипотез о равенстве двух векторов средних. Проверка гипотез о равенстве ковариационных матриц.
Тема 5. «Непараметрические методы проверки однородности выборок» (2 часа).
U-критерий Манна-Уитни (Вилкоксона).
Тема 6. «Дисперсионный анализ» (2 часа).
Математическая модель. Формы представления данных. Составляющие дисперсии. Проверка гипотезы с помощью F-критерия.
Тема 7. «Методы обработки ранговых данных» (2 часа).
Измерение связи между двумя дихотомными переменными. Коэффициент ассоциации Юла. Ранговая корреляция. Критерий знаков.
Тема 8. «Методы многомерной классификация данных» (2 часа).
Классификация без обучения. Расстояние между объектами и мера близости. Расстояние между кластерами. Функционалы качества разбиения. Иерархические кластер процедуры. Метод к-средних.
Тема 9. «Методы проведения экспертных исследований и анализ данных оценок экспертов» (2 часа).
2.2 Перечень тем лабораторных занятий
Тема 1. «Многомерные выборки. Предварительный анализ многомерных данных» (4 часа).
Предмет, цели и задачи дисциплины Анализ данных. Шкалы измерений. Преобразование признаков, измеренных в разных шкалах. Характеристики признаков, рассчитываемые в предварительном анализе. Графическое представление данных.
Тема 2. «Методы моделирования случайных величин» (4 часа).
Метод неравномерной рулетки. Метод отбраковки. Быстрый способ моделирования одномерного нормального распределения. Моделирование многомерного нормального распределения. Способы генерации данных в EXCEL. Методы размножения выборок (бустреб-методы).
Тема 3. «Робастное статистическое оценивание» (4 часа).
Грубые ошибки и методы их выявления. Методы вычисления устойчивых статистических оценок: Пуанкаре, Винзора, Хубера.
Тема 4. «Методы статистического оценивания и сравнения выборок» (4 часа).
Статистические гипотезы в анализе данных. Подгонка вероятностных распределений к реальным данным. Проверка гипотез о равенстве вектора средних значений постоянному вектору. Проверка гипотез о равенстве двух векторов средних. Проверка гипотез о равенстве ковариационных матриц.
Тема 5. «Непараметрические методы проверки однородности выборок» (4 часа).
U-критерий Манна-Уитни (Вилкоксона).
Тема 6. «Дисперсионный анализ» (6 часа).
Математическая модель. Формы представления данных. Составляющие дисперсии. Проверка гипотезы с помощью F-критерия.
Тема 7. «Методы обработки ранговых данных» (6 часа).
Измерение связи между двумя дихотомными переменными. Коэффициент ассоциации Юла. Ранговая корреляция. Критерий знаков.
Тема 8. Компонентный анализ. (6 часа).
Линейная модель главных компонент. Получение матрицы весовых коэффициентов по алгоритму метода главных компонент. Квадратичные формы и главные компоненты.
Тема 9. «Методы многомерной классификация данных» (6 часа).
Классификация без обучения. Расстояние между объектами и мера близости. Расстояние между кластерами. Функционалы качества разбиения. Иерархические кластер процедуры. Метод к-средних.
Тема 10. «Методы проведения экспертных исследований и анализ данных оценок экспертов» (6 часа).
3. ОБРАЗОВАТЕЛЬНЫЕ ТЕХНОЛОГИИ
Программой дисциплины предусмотрено чтение лекций, проведение практических занятий. В течение изучения дисциплины бакалавры изучают на лекционных занятиях теоретический материал. На практических занятиях под руководством преподавателя, решают задачи, разбирают ситуации реальных экономических процессов и явлений.
При проведении лабораторных занятий занятиях применяются следующие интерактивные методы обучения:
- метод «мозгового штурма»: метод представляет собой разновидность групповой дискуссии, которая характеризуется сбором всех вариантов решений, гипотез и предложений, рожденных в процессе осмысления какой-либо проблемы, их последующим анализом с точки зрения перспективы дальнейшего использования или реализации на практике;
- метод «кооперативного обучения»: студенты работают в малых группах (3 – 4 чел.) над индивидуальными заданиями, в процессе выполнения которых они могут совещаться друг к другу;
- метод «круглого стола»: обеспечение свободного, нерегламентированного обсуждения поставленных вопросов (тем) на основе постановки всех студентов в равное положение по отношению друг к другу, системное, проблемное обсуждение вопросов с целью видения разных аспектов проблемы;
- деловая игра: моделирование профессиональной деятельности и ролевое взаимодействие по игровым правилам участвующих в ней специалистов, в определенном условном времени, в атмосфере неопределенности, при столкновении позиций, с разыгрыванием ролей и оцениванием.
Для бакалавров в качестве самостоятельной работы предполагается подготовка индивидуальных работ с применением современных программных средств, выполнения домашних заданий, групповая работа над реальными проектами.
4. МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ИЗУЧЕНИЮ КУРСА
4.1 Перечень и тематика самостоятельных работ студентов по дисциплине.
Для бакалавров предусмотрены две контрольные работы (по два часа каждая), а также два индивидуальных домашних задания.
Темы контрольных работ:
1. Предварительный анализ данных
2. Оценка зависимости признаков различной природы
Для самостоятельного изучения дисциплины вынесены отдельные разделы из тем, изучаемой дисциплины. На самостоятельную работу выносятся так же комплексные задания, оформленные в виде индивидуальных заданий. Всего таких задания два на изучаемую дисциплину. В первом задании необходимо собрать реальные данные анкетного опроса, ввести данные в компьютерную базу данных и произвести анализ выбросов и ошибок. Второе задание предусматривает использование методов сглаживания эмпирических данных и методов оценки зависимости признаков.
4.2 Контрольные вопросы для самостоятельной оценки качества освоения учебной дисциплины.
В чем состоят цели многомерного анализа данных?2. Дайте формальное описание данных, используемое в многомерном статистическом анализе и опишите представление данных в электронном виде.
3. Определите основные шкалы измерений в многомерных выборках.
4. Как произвести преобразование данных из одной шкалы в другую?
5. Определите понятие диапазон значений признака и способы определения диапазона значений.
6. Какие и как рассчитываются основные характеристики многомерной выборки в предварительном анализе данных?
7. Определите средства визуализации данных в предварительном анализе даны?
8. Для чего используются модельные данные при решении задач многомерного анализа?
В чем состоит идея метода неравномерной рулетки? В чем состоит идея метода отбраковки?11. Определите способы моделирования случайных чисел выборок в Excel.
12. Определите принципы моделирования многомерного нормального распределения?
Определите проблему робастности в анализе данных.14. Что понимается под грубыми ошибками и каковы последствия их проявлений в статистической совокупности?
Назовите известные вам критерии робастности.16. Дайте характеристику алгоритмов определения «подозрительных» объектов выборки.
17. Каковы последствия отсутствия значений в многомерной выборке и как с ними бороться.
Какие существуют способы обработки грубых ошибок?19. Что понимается под статистической гипотезой и какие характерные признаки для нее существуют?
20. Что означает: простая и сложная, одномерная и многомерная статистическая гипотезы?
21. Какого рода ошибки могут допускаться и чем определяется достоверность выводов при проверке статистических гипотез?
22. Определите предпосылки применения критерия
.
23. Определите предпосылки применения критерия Фишера.
24. Определите предпосылки применения критерия Стьюдента.
25. Приведите примеры ситуаций в которых целесообразно применении критерия Стьюдента.
26. Приведите примеры ситуаций в которых целесообразно применении критерия
.
27. Приведите примеры ситуаций в которых целесообразно применении критерия Фишера.
28. Определите предпосылки применения критерия U-критерий Манна-Уитни (Вилксона)?
29. Как подсчитывается сумма рангов в критерии Вилкоксона?
30. Какое распределение используется в критерии Вилкоксона?
Определите общую модель дисперсионного анализа. Какие компоненты дисперсии рассматриваются в анализе?33. Какая функция EXCEL используется для проверки статистического критерия в дисперсионном анализе?
34. Какой вывод следует из того, что статистическая гипотеза в дисперсионном анализе верна?
Как определяются степени свободы в дисперсионном анализе? Как рассчитывается коэффициент Юла? Как рассчитываются ранги по выборке? Принципы разработки типизаций?39. Опишите какие программные средства, используемые для сортировки в Excel.
40. В чем состоит метод Дельфи?
41. Назовите стадии экспертного опроса.
42. В чем состоит проблема подбора экспертов?
4.3. Методические рекомендации по организации СРС.
Для бакалавров в качестве самостоятельной работы предполагается выполнение практических и индивидуальных заданий.
4.4. Рекомендации по работе с литературой.
В процессе изучения дисциплины «Математическое моделирование экономических процессов и систем», для того чтобы представлять основные понятия, сущность и сферу применения математического моделирования следует воспользоваться учебником Моделирование экономических процессов: учебник для вузов / Под редакцией , , . – М.: ЮНИТИ – ДАНА, 2005. – 351 с. и учебным пособием к решению практических задач , , Шуман моделирование экономических процессов и систем. Учебное пособие - 2-е издание. - М. : КНОРУС, 2012. – 200 с.
5. УЧЕБНО-МЕТОДИЧЕСКОЕ И ИНФОРМАЦИОННОЕ ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ
5.1 Основная литература.
1. Тюрин данных на компьютере: учебное пособие для студентов вузов / , . - 4-е изд.,перераб. - М. : ФОРУМ, 2010
2. Куликов статистический анализ: учебное пособие для студ. вузов / . - 2-е изд.,перераб. и доп. - М. : Горячая линия-Телеком, 2008. - 464 с.
2. , Информационные технологии анализа данных. Data Analysis. - М.: КДУ, 2010.
3. Кулаичев и средства комплексного анализа данных: учебное пособие для вузов / . - 4-е изд., перераб. и доп. - М. : ФОРУМ: ИНФРА-М, 2006. - 512 с.
4. , Компьютерные технологии анализа данных в эконометрике. - М.: ИНФРА-М: Вузовский учебник, 2013.
5. , Основы статистического анализа. Практикум по статистическим методам и исследованию операций с использованием пакетов STATISTICA и EXCEL. - М.: ФОРУМ: ИНФРА-М, 2013.
6. .Многомерные статистические методы в экономике: учебник для студ. вузов / , . - М. ; Ростов н/Д : Дашков и К* : Наука-Спектр, 2008.
7. , , Практикум по анализу данных на компьютере. - М.: КолосС, 2009.
8. , Информационные технологии анализа данных. Data Analysis
М.: КДУ, 2010.
5.2. Дополнительная литература.
1. Практикум по анализу данных на компьютере: учебное пособие для студ. вузов / , ; под ред. . - М. : КолосС, 2009.
2. Илышев теория статистики: учебник для студ. вузов / . - М. : ЮНИТИ-ДАНА, 2008.
3. А Методы обработки многомерных данных и временных рядов: учебное пособие для студ. вузов / , . - М. : Горячая линия -Телеком, 2007.
4. Яковлев . Расчет в Microsoft Excel: учебное пособие для студ. вузов, спец. "Экономика и управление на предпр. АПК" / . - М. : КолосС, 2005.
5.3 Полнотекстовые базы данных - нет
5.4. Интернет-ресурсы
1. www. newbook. ru – книжный магазин.
6. МАТЕРИАЛЬНО-ТЕХНИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ
Для качественного проведения лекционных занятий по данной дисциплине используются аудитории, оснащенные мультимедийным оборудованием. Для проведения практических занятий используются компьютерные классы.
7. СЛОВАРЬ ОСНОВНЫХ ТЕРМИНОВ
Выбросы - это нетипичные или редкие значения, которые существенно отклоняются от распределения остальных выборочных данных. Эти данные могут отражать истинные свойства изучаемого явления (переменной), а могут быть связаны с ошибками измерения или аномальными явлениями, и поэтому не должны включаться в модель.
Группировка - это процедура, позволяющая вычислить описательные статистики и корреляции для зависимых переменных, наблюдения которых разбиты на группы, определяемые одной (или более) группирующей (независимой) переменной. Эта процедура используется в проверке гипотез или в разведочных методах.
Дискриминантный анализ используется для принятия решения о том, какие переменные дискриминируют или разделяют объекты на две или более естественно возникающих групп (его используют как метод проверки гипотез или как метод разведочного анализа).
Дисперсионного анализа (ANOVA) является проверка значимости различия между средними с помощью сравнения (т. е. анализа) дисперсий. А именно, разделение общей дисперсии на несколько источников (связанных с различными эффектами в плане), позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, с дисперсией, вызванной внутригрупповой изменчивостью.
Доверительные интервалы для некоторой статистики (например, среднего значения или линии регрессии) показывают диапазон вокруг значения статистики, в котором находится истинное значение этой статистики (с определенным уровнем надежности или доверия).
Интервальная шкала - эта шкала измерений позволяет не только упорядочить наблюдения, но и количественно выразить расстояния между ними (при этом на шкале не обязательно присутствует абсолютная нулевая отметка).
Кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т. е. развернуть таксономии (обычно в разведочном анализе) или определить кластеры схожих объектов
Коэффициент детерминации - квадрат множественного коэффициента корреляции. Он показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных.
Критерий Вилкоксона является непараметрической альтернативой t-критерию для зависимых выборок. Он осуществляет проверку гипотезы о параметре положения (медианы) выборочного распределения. Как правило, такой критерий применяется при сравнении совпадающих пар данных, например, "до" и "после". В этом случае критерий осуществляет сравнения разности медиан с нулем
Порядковая шкала измерений позволяет ранжировать значения переменных. Измерения в порядковой шкале содержат информацию только о порядке следования величин, но не позволяют сказать "насколько одна величина больше другой", или "насколько она меньше другой".
Расстояние Махаланобиса определяется как расстояние от наблюдаемой точки до центра тяжести в многомерном пространстве, определяемом коррелированными (неортогональными) независимыми переменными (если независимые переменные некоррелированы, расстояние Махаланобиса совпадает с обычным евклидовым расстоянием). Эта мера позволяет, в частности, определить является ли данное наблюдение выбросом по отношению к остальным значениям независимых переменных
t-критерий для зависимых выборок. t-критерий для зависимых выборок очень полезен в тех довольно часто возникающих на практике ситуациях, когда важный источник внутригрупповой вариации (или ошибки) может быть легко определен и исключен из анализа.
t-критерий для одной выборки. В t-критерии для одной выборки, наблюдаемое среднее (из одной выборки) ставнивается с ожидаемым средним популяции (например, некое теоретическое среднее), а вариация в популяции подсчитывается на основе вариации в наблюдаемой выборке.


