Департамент образования города Москвы

Государственное образовательное учреждение

высшего профессионального образования города Москвы

«Московский городской педагогический университет»

Институт математики и информатики

Факультет прикладной информатики

Кафедра прикладной информатики в управлении

Учебно-методический комплекс

учебной дисциплины

«Интеллектуальный анализ данных»

для студентов, обучающихся на факультете прикладной информатики по специальности 080801

«Прикладная информатика (в менеджменте)»

Москва

2010

ЧАСТЬ I. ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ

Программа обсуждена и утверждена на заседании кафедры прикладной информатики в управлении (протокол №___от «__»________2010 г.), утверждена на заседании ученого совета факультета прикладной информатики (протокол №___от «__»________2010 г.)

Составитель:

© , 2010.

© МГПУ, 2010.

1. ЦЕЛИ И ЗАДАЧИ ДИСЦИПЛИНЫ

Место дисциплины в учебном процессе: 4 курс (7-й и 8-й семестры) по очной форме обучения (полный срок обучения). Изучение предусмотрено в цикле дисциплин специализации.

Количество аудиторных часов: 144, из них 80 часов – лекционные занятия, 64 часов – лабораторные работы. В том числе, в 7 семестре 72 часа, из них 40 часов – на лекционные занятия и 32 часа – на лабораторные работы. В 8 семестре 72 часа, из них 40 часов – на лекционные занятия и 32 часа – на лабораторные работы.

Отчетность по дисциплине: в 7 семестре – зачет, в 8 семестре – курсовая работа и экзамен.

Цель дисциплины: формирование у студентов теоретических знаний, практических умений и навыков по применению современных методов интеллектуального анализа данных в различных сферах человеческой деятельности.

НЕ нашли? Не то? Что вы ищете?

Задачи дисциплины:

□ изучение существующих технологий подготовки данных к анализу;

□ изучение основных методов поиска закономерностей, связей, правил в табулированных массивах данных большого объема; иллюстрированного их применения в различных областях деятельности;

□ овладение практическими умениями и навыками реализации технологий интеллектуального анализа данных, формирования и проверки гипотез о их природе и структуре, варьирования применяемыми моделями;

□ формирование умений и навыков применения универсальных программных пакетов и аналитических платформ для анализа данных.

В результате изучения дисциплины студент должен:

иметь представление:

□ о проблемах и направлениях научных изысканий в области интеллектуального анализа данных;

□ о тенденциях разработки универсальных программных средств и аналитических платформ предназначенных для анализа данных, построения прогнозов и аналитических сценариев;

знать:

□ основные методы консолидации, трансформации, визуализации, оценки качества, очистки и предобработки данных;

□ принципы построения и структурную организацию хранилищ данных;

□ алгоритмы поиска ассоциативных правил и кластерного анализа;

□ статистические и машинные методы классификации и регрессии;

□ методики анализа и прогнозирования временных рядов;

□ технологию построения ансамблей и сравнения моделей;

□ возможности отечественных и зарубежных универсальных программных средств и аналитических платформ, применяемых для анализа данных;

□ проблемные вопросы внедрения аналитических программных продуктов и технологий в профессиональную деятельность организаций и учреждений.

уметь:

□ практически применять методы консолидации, трансформации, визуализации, оценки качества, очистки и предобработки данных для качественной подготовки данных к анализу;

□ создавать хранилища данных, выполнять их загрузку, извлекать данные из хранилищ;

□ применять технологии интеллектуального анализа электронных массивов данных для решения конкретных практических проблем;

□ использовать возможности отечественных и зарубежных универсальных программных средств и аналитических платформ для поиска закономерностей, связей, правил, знаний в электронных массивах данных;

□ свободно ориентироваться на современном динамичном рынке аналитических программных продуктов.

2. РАСПРЕДЕЛЕНИЕ БЮДЖЕТА

ВРЕМЕНИ ПРИ ИЗУЧЕНИИ ДИСЦИПЛИНЫ

(в часах)

Тема

Общая трудоемкость

Самостоятельная работа

Лекции

Лабораторные работы

Всего аудиторных

7 семестр

Раздел 1. Технологии обеспечения качественного анализа данных

1

Тема 1. Технологии анализа данных

28

16

8

4

12

2

Тема 2. Консолидация данных

32

16

12

4

16

3

Тема 3. Трансформация данных

30

16

6

8

14

4

Тема 4. Визуализация данных

26

14

4

8

12

5

Тема 5. Оценка качества, очистка и предобработка данных

34

16

10

8

18

Итого по 1 разделу:

150

78

40

32

72

Форма отчетности:

Зачет

8 семестр

Раздел 2. Инструменты Data mining

6

Тема 6. Поиск ассоциативных правил

18

6

4

8

12

7

Тема 7. Кластерный анализ

28

14

6

8

14

8

Тема 8. Классификация и регрессия.

Статистические методы

44

22

14

8

22

9

Тема 9. Классификация и регрессия.

Машинное обучение

34

16

10

8

18

10

Тема 10. Анализ и прогнозирование временных рядов

18

16

2

2

11

Тема 11. Ансамбли моделей

4

2

2

2

12

Тема 12. Сравнение моделей

4

2

2

2

Итого по 2 разделу:

150

78

40

32

72

Форма отчетности:

Экзамен

ВСЕГО по курсу:

300

156

80

64

144

3. ОСНОВНОЕ СОДЕРЖАНИЕ ДИСЦИПЛИНЫ

3.1. ЛЕКЦИОННЫЕ ЗАНЯТИЯ

Раздел 1. Технологии обеспечения качественного анализа данных

Тема 1. Технологии анализа данных.

Аналитический и информационный походы к моделированию. Формы представления, типы и виды анализируемых данных. Источники данных для анализа. Технология KDD (Knowledge Discovery in Databases). Введение в технологию Data Mining. Программный инструментарий анализа данных.

Тема 2. Консолидация данных.

Введение в консолидацию данных. Общая характеристика OLTP-систем. Предпосылки появления систем поддержки принятия решений (DSS – Decision Support System). Введение в хранилища данных (DW – Data Warehouse). Реляционные хранилища данных (ROLAP – Relational OLAP). Многомерные хранилища данных (MOLAP – Multidimensional OLAP). Гибридные хранилища данных (HOLAP – Hybrid OLAP). Виртуальные хранилища данных. Введение в процесс ETL (Extraction, Transformation, Loading). Извлечение данных в ETL. Преобразование данных в ETL. Загрузка данных в хранилище. Особенности загрузки данных из локальных источников. Обогащение данных.

Тема 3. Трансформация данных.

Введение в трансформацию данных. Особенности трансформации временных рядов. Группировка и разгруппировка данных. Слияние данных. Квантование. Нормализация и кодирование данных.

Тема 4. Визуализация данных.

Введение в визуализацию данных. Визуализаторы общего назначения. OLAP-анализ. Визуализаторы, применяемые для оценки качества моделей. Визуализаторы, применяемые для интерпретации результатов анализа.

Тема 5. Оценка качества, очистка и предобработка данных.

Введение в оценку качества данных (ADQ – Assessment Data Quality). Технологии и методы оценки качества данных. Очистка и предобработка данных. Фильтрация данных. Обработка дубликатов и противоречий. Выявление аномальных значений. Восстановление пропущенных значений. Введение в сокращение размерности. Сокращение числа признаков. Сокращение числа значений признаков и записей. Сэмплинг.

Раздел 2. Инструменты Data mining

Тема 6. Поиск ассоциативных правил.

Введение в аффинитивный анализ (affinity analysis). Алгоритм a priori. Иерархические ассоциативные правила.

Тема 7. Кластеризация.

Введение в кластеризацию. Классификация методов кластеризации. Алгоритм кластеризации k-means. Сети Кохонена (KCN – Kohonen network). Карты Кохонена (SOM – self organizing map). Проблемы алгоритмов кластеризации.

Тема 8. Классификация и регрессия. Статистические методы

Введение в классификацию и регрессию. Простая линейная регрессия. Оценка соответствия простой линейной регрессии реальным данным. Простая регрессионная модель. Множественная линейная регрессия. Модель множественной линейной регрессии. Регрессия с категориальными входными переменными. Методы отбора переменных в регрессионные модели. Ограничения применимости регрессионных моделей. Основы логистической регрессии. Интерпретация модели логистической регрессии. Множественная логистическая регрессия.

Тема 9. Классификация и регрессия. Машинное обучение

Введение в деревья решений. Алгоритмы построения деревьев решений. Алгоритмы IDЗ и С4.5. Алгоритм CART. Упрощение деревьев решений. Введение в нейронные сети. Искусственный нейрон. Принципы построения нейронных сетей. Алгоритмы обучения нейронных сетей. Алгоритм обратного распространения ошибки.

Тема 10. Анализ и прогнозирование временных рядов.

Временной ряд и его компоненты. Модели прогнозирования. Прогнозирование в торговле и логистике.

Тема 11. Ансамбли моделей.

Введение в ансамбли моделей. Бэггинг. Бустинг. Альтернативные методы построения ансамблей.

Тема 12. Сравнение моделей.

Оценка эффективности и сравнение моделей. Оценка ошибки модели. Издержки ошибочной классификации. Lift- и Profit-кривые. ROC-анализ.

3.2. ЛАБОРАТОРНЫЙ ПРАКТИКУМ

3.2.1. Лабораторный практикум по разделу 1

Лабораторная работа № 1 «Основы работы с аналитической платформой Deductor studio» (6 часов)

Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP), аналитическая платформа Deductor Studio.

Лабораторная работа № 2 «Трансформация данных в Deductor Studio» (6 часов)

Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP), аналитическая платформа Deductor Studio.

Лабораторная работа № 3 «Создание, заполнение и использование хранилища данных Deductor Warehouse на базе Firebird» (6 часов)

Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP), аналитическая платформа Deductor Studio Academic.

Лабораторная работа № 5 «Определение представления источника данных в проекте служб Analysis Services» (6 часов)

Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP Professional), SQL Server 2008 Developer.

Лабораторная работа № 6 «Определение и развертывание куба» (6 часов)

Место проведения: специализированный компьютерный класс.

Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP Professional), SQL Server 2008 Developer.

Лабораторная работа № 7 «Изменение мер, атрибутов и иерархий» (6 часов)

Программно-аппаратное обеспечение: ПЭВМ IBM PC (операционная система Windows XP Professional), SQL Server 2008 Developer.

3.2.2. Лабораторный практикум по разделу 2

1.  Лабораторная работа № 6. «Ассоциативные правила».

2.  Лабораторная работа № 7. «Основы работы с пакетом STATISTICА».

3.  Лабораторная работа № 8. «Кластерный анализ».

4.  Лабораторная работа № 9. «Регрессионный анализ».

5.  Лабораторная работа № 10. «Искусственные нейронные сети».

4. ЛИТЕРАТУРА

Основная литература:

1.  , Орешков -аналитика: от данных к знаниям. – СПб.: Питер, 2009

2.  , , Холод и модели анализа данных: OLAP и Data Mining. 2-е изд.– СПб.: БХВ – Петербург, 2008

3.  , . Практикум по анализу данных на компьютере. – М.: КолосС, 2009

Дополнительная литература:

4.  , Data Mining: учебный курс. – СПб.: Питер, 2001

5.  ейронные сети: полный курс. 2-е. изд. / Пер. с англ. – М.: Издательский дом «Вильямс», 2006.

6.  , , ж. Бизнес-прогнозирование. 7-е изд. / Пер. с англ. – М.: Издательский дом «Вильямс», 2003

7.  , , Трошин статистические методы: Учебник. – М.: Финансы и статистика, 2000

8.  Нейронные сети. STATISTICA Neural Network: Методология и технологии современного анализа данных/ под ред. . – М.: Горячая линия - Телеком, 2008

9.  STATISTICA 6. Статистический анализ данных: Учебник - 3-е изд. – М.: Бином-Пресс, 2007

10.  , Андрейчикова информационные системы. – М.: ФиС, 2004

11.  , Перминов технология процесса принятия экономических решений. - М.: ГУ-ВШЭ., 2005

12.  SPSS: Компьютерный анализ данных в психологии и социальных науках - 2-е изд. – СПб.: Питер, 2007

13.  атематические методы статистики. М.: Мир, 1976

14.  www. Megaputers. ru

15.  www. BaseGroup. ru

16.  www. StatSoft. ru

17.  www. Сitforum. ru

ЧАСТЬ II. МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ И ПЛАН ОСВОЕНИЯ ДИСЦИПЛИНЫ

Методические рекомендации и план освоения дисциплины обсуждены и утверждены на заседании кафедры прикладной информатики в управлении (протокол №___от «__»________2010 г.), утверждена на заседании ученого совета факультета прикладной информатики (протокол №___от «__»________2010 г.)

Составитель:

© , 2010.

© МГПУ, 2010.

1. ТЕМАТИЧЕСКИЙ ПЛАН КУРСА

1.1. ЛЕКЦИОННЫЕ ЗАНЯТИЯ

Раздел 1. Технологии обеспечения качественного анализа данных

Тема 1. Технологии анализа данных (16 часов)

Лекция 1.1

1.1. Аналитический и информационный походы к моделированию

1.2. Формы представления, типы и виды анализируемых данных

1.3. Источники данных для анализа

Лекция 1.2

1.4. Технология KDD (Knowledge Discovery in Databases)

1.5. Введение в технологию Data Mining

1.6. Программный инструментарий анализа данных

Изучив данную тему, студент должен:

знать:

-  особенности аналитического и информационного походов к моделированию;

-  содержание технологии Knowledge Discovery in Databases;

-  формы представления, типы и виды анализируемых данных;

-  программный инструментарий анализа данных;

уметь:

-  применять информационный походы к моделированию;

-  определять типы и виды анализируемых данных;

приобрести навыки:

-  применения информационного похода к моделированию.

Литература: [1, 2, 3, 13, 14]

Тема 2. Консолидация данных (16 часов)

Лекция 2.1

2.1. Введение в консолидацию данных

2.2. Общая характеристика OLTP-систем

2.3. Предпосылки появления систем поддержки принятия решений (DSS – Decision Support System)

Лекция 2.2

2.4. Введение в хранилища данных (DW – Data Warehouse)

2.5. Реляционные хранилища данных (ROLAP – Relational OLAP)

2.6. Многомерные хранилища данных (MOLAP – Multidimensional OLAP)

2.7. Гибридные хранилища данных (HOLAP – Hybrid OLAP)

2.8. Виртуальные хранилища данных

Лекция 2.3

2.9. Введение в процесс ETL (Extraction, Transformation, Loading)

2.10. Извлечение данных в ETL

2.11. Преобразование данных в ETL

2.12. Загрузка данных в хранилище

Лекция 2.4

2.13. Особенности загрузки данных из локальных источников

2.14. Обогащение данных

Изучив данную тему, студент должен:

знать:

-  общую характеристику OLTP-систем;

-  предпосылки появления систем поддержки принятия решений;

-  модели хранилищ данных;

уметь:

-  выполнять преобразование данных;

приобрести навыки:

-  обогащения данных.

Литература: [1, 2, 4, 7, 8, 13]

Тема 3. Трансформация данных (16 часов)

Лекция 3.1

3.1. Введение в трансформацию данных

3.2. Особенности трансформации временных рядов

3.3. Группировка и разгруппировка данных

Лекция 3.2

3.4. Слияние данных

3.5. Квантование

3.6. Нормализация и кодирование данных

Изучив данную тему, студент должен:

знать:

-  методики трансформации данных;

уметь:

-  выполнять группировку, разгруппировку, квантование и кодирование данных;

приобрести навыки:

-  трансформации данных.

Литература: [1, 2, 9, 11]

Тема 4. Визуализация данных (14 часов)

Лекция 4.1

4.1. Введение в визуализацию данных

4.2. Визуализаторы общего назначения

4.3. OLAP-анализ

Лекция 4.2

4.4. Визуализаторы, применяемые для оценки качества моделей

4.5. Визуализаторы, применяемые для интерпретации результатов анализа

Изучив данную тему, студент должен:

знать:

-  методики визуализации данных;

уметь:

-  применять визуализаторы различного назначения;

приобрести навыки:

-  интерпретации результатов анализа данных.

Литература: [4, 8, 13, 16, 17]

Тема 5. Оценка качества, очистка и предобработка данных (16 часов)

Лекция 5.1

5.1. Введение в оценку качества данных (ADQ – Assessment Data Quality)

5.2. Технологии и методы оценки качества данных

5.3. Очистка и предобработка данных

Лекция 5.2

5.4. Фильтрация данных

5.5. Обработка дубликатов и противоречий

5.6. Выявление аномальных значений

Лекция 5.3

5.7. Восстановление пропущенных значений

5.8. Введение в сокращение размерности

5.9. Сокращение числа признаков

Лекция 5.4

5.10. Сокращение числа значений признаков и записей

5.11. Сэмплинг

Изучив данную тему, студент должен:

знать:

-  методики оценки качества, очистки и предобработки данных;

уметь:

-  применять методы оценки качества, очистки и предобработки данных;

приобрести навыки:

-  фильтрации данных, обработки дубликатов и противоречий, выявления аномальных значений, восстановление пропущенных значений

Литература: [1, 2, 3, 4, 6, 14]

Раздел 2. Инструменты Data mining

Тема 6. Поиск ассоциативных правил (6 часов)

Лекция 6.1

6.1. Введение в аффинитивный анализ (affinity analysis)

6.2. Алгоритм a priori

6.3. Иерархические ассоциативные правила

Изучив данную тему, студент должен:

знать:

-  методики поиска ассоциативных правил;

уметь:

-  применять методы поиска ассоциативных правил;

приобрести навыки:

-  использования алгоритм a priori.

Литература: [1,2,13]

Тема 7. Кластерный анализ (14 часов)

Лекция 7.1

7.1. Введение в кластеризацию

7.2. Классификация методов кластеризации

7.2. Алгоритм кластеризации k-means

Лекция 7.2

7.3. Сети Кохонена (KCN – Kohonen network)

7.4. Карты Кохонена (SOM – self organizing map)

7.5. Проблемы алгоритмов кластеризации

Изучив данную тему, студент должен:

знать:

-  методики кластеризации данных;

уметь:

-  применять методы поиска ассоциативных правил;

приобрести навыки:

-  использования алгоритма кластеризации k-means.

Литература: [1, 2, 3, 4, 5, 11, 12]

Тема 8. Классификация и регрессия. Статистические методы (22 часа)

Лекция 8.1

8.1. Введение в классификацию и регрессию

8.2. Простая линейная регрессия

8.3. Оценка соответствия простой линейной регрессии реальным данным

8.4. Простая регрессионная модель

Лекция 8.2

8.5. Множественная линейная регрессия

8.6. Модель множественной линейной регрессии

Лекция 8.3

8.7. Регрессия с категориальными входными переменными

8.8. Методы отбора переменных в регрессионные модели

8.9. Ограничения применимости регрессионных моделей

Лекция 8.4

8.10. Основы логистической регрессии

8.11. Интерпретация модели логистической регрессии

8.12. Множественная логистическая регрессия

Изучив данную тему, студент должен:

знать:

-  методики регрессионного анализа данных;

уметь:

-  применять и оценивать регрессионные модели;

приобрести навыки:

-  использования регрессионные модели в целях анализа данных.

Литература: [1, 2, 3, 6, 10, 12, 13]

Тема 9. Классификация и регрессия. Машинное обучение (16 часов)

Лекция 9.1

9.1. Введение в деревья решений

9.2. Алгоритмы построения деревьев решений

9.3. Алгоритмы IDЗ и С4.5

9.4. Алгоритм CART

9.5. Упрощение деревьев решений

Лекция 9.2

9.6. Введение в нейронные сети

9.7. Искусственный нейрон

9.8. Принципы построения нейронных сетей

9.9. Алгоритмы обучения нейронных сетей

9.10. Алгоритм обратного распространения ошибки

Изучив данную тему, студент должен:

знать:

-  методики применения деревьев решений;

уметь:

-  применять деревья решений и нейронных сетей в целях анализа данных;

приобрести навыки:

использования алгоритмов IDЗ, С4.5, CART и нейросетевых технологий для анализа массивов данных.

Литература: [1, 2, 3, 7]

Тема 10. Анализ и прогнозирование временных рядов (16 часов)

Лекция 10.1

10.1. Временной ряд и его компоненты

10.2. Модели прогнозирования

10.3. Прогнозирование в торговле и логистике

Изучив данную тему, студент должен:

знать:

-  методики анализа и прогнозирования временных рядов;

уметь:

-  строить и применять модели прогнозирования;

приобрести навыки:

прогнозирования в торговле и логистике.

Литература: [1, 2, 5]

Тема 11. Ансамбли моделей (2 часа)

Лекция 11.1

11.1. Введение в ансамбли моделей

11.2. Бэггинг

11.3. Бустинг

11.4. Альтернативные методы построения ансамблей

Изучив данную тему, студент должен:

знать:

-  технологии построения и использования ансамблей моделей;

уметь:

применять бэггинг и бустинг.

Литература: [1, 15]

Тема 12. Сравнение моделей (2 часа)

Лекция 12.1

12.1. Оценка эффективности и сравнение моделей

12.2. Оценка ошибки модели

12.3. Издержки ошибочной классификации

12.4. Lift- и Profit-кривые

12.5. ROC-анализ

Изучив данную тему, студент должен:

знать:

-  методики оценки эффективности и сравнения моделей;

уметь:

-  применять методики построения Lift- и Profit-кривых;

приобрести навыки:

ROC-анализа.

Литература: [1, 11, 12, 14]

2. МЕТОДИЧЕСКИЕ УКАЗАНИЯ

ПО ВЫПОЛНЕНИЮ И ОФОРМЛЕНИЮ

ЛАБОРАТОРНЫХ РАБОТ

Указания выполнены в виде отдельных брошюр, которые следует получить у ведущего преподавателя.

3. ПРОМЕЖУТОЧНАЯ АТТЕСТАЦИЯ СТУДЕНТОВ

Промежуточная аттестация по каждому из разделов дисциплины включает обязательное компьютерное тестирование с использованием тестовой программы «Интеллектуальный анализ данных». По результатам тестирования производится автоматическое выставление оценки и формирование бланка электронного отчета.

4. ТЕМАТИКА САМОСТОЯТЕЛЬНОЙ РАБОТЫ СТУДЕНТОВ

4.1. Темы докладов по дисциплине

1.  Основные положения концепции хранилищ данных.

2.  Многомерное представление данных. Правила Кодда, определяющие OLAP-системы.

3.  Практическое применение алгоритмов Data mining.

4.  Классификация с несколькими независимыми переменными методом Naïve Bayes.

5.  Поиск оптимальной функции методом наименьших квадратов.

6.  Сиквенциальный анализ.

7.  Меры близости, основанные на расстояниях, используемые в алгоритмах кластеризации.

8.  Кластеризация данных при помощи нечетких отношений.

9.  Стандарты Data mining. Характеристика стандартов CWM и PMLL.

10.  Библиотеки доступа к алгоритмам Data mining. Характеристика библиотеки Xelopes.

11.  Характеристика программных инструментов для выполнения интеллектуального анализа данных.

12.  Характеристика OLTP-систем.

13.  Предпосылки появления и разновидности систем поддержки принятия решений.

14.  Характеристика реляционных хранилищ данных.

15.  Характеристика многомерных хранилищ данных.

16.  Характеристика гибридных хранилищ данных.

17.  Характеристика виртуальных хранилищ данных.

18.  Технологии и методы оценки качества данных. Профайлинг.

19.  Типичный набор инструментов предобработки данных в аналитическом приложении.

20.  Алгоритмы и методы сокращения числа признаков.

21.  Общая характеристика и классификация методов кластерного анализа данных.

22.  Анализ данных с использованием методов классификации и регрессии.

23.  Цели, задачи и принципы построения деревьев решений. Общая характеристика алгоритмов построения деревьев решений.

24.  Сферы применения деревьев решений.

25.  Цели, задачи и принципы работы нейронных сетей.

26.  Алгоритмы обучения нейронных сетей.

27.  Цели, задачи, принципы и модели прогнозирования.

28.  Трансформация данных на разных этапах аналитического процесса. Типичные средства трансформации.

29.  Характеристика классов задач, решаемых методами Data Mining.

30.  Характеристика технологии Knowledge Discovery in Databases (KDD).

4.2. Примерные вопросы к зачету по дисциплине

1.  Модели и их свойства. Аналитический и информационный походы к моделированию.

2.  Формы представления, типы и виды анализируемых данных.

3.  Обучение моделей «с учителем» и «без учителя». Обучающее и тестовое множество. Ошибки обучения. Эффект переобучения.

4.  Общая схема анализа данных. Требования к алгоритмам анализа данных.

5.  Основные принципы сбора (формализации) данных. Требования к объемам анализируемых данных.

6.  Характеристика этапов технологии KDD.

7.  Data Mining. Характеристика классов задач, решаемых методами Data Mining.

8.  Программный инструментарий для выполнения анализа данных.

9.  Цели, задачи и основное содержание консолидации данных. Обобщенная схема процесса консолидации.

10.  Характеристика OLTP-систем.

11.  Предпосылки появления систем поддержки принятия решений DSS. Понятие ESS, EIS и GDSS.

12.  Основные положения концепции хранилищ данных (DW).

13.  Реляционные хранилища данных (ROLAP).

14.  Технология OLAP. Сущность многомерного представления данных.

15.  Структура многомерного куба. Работа с измерениями.

16.  Многомерные хранилища данных (MOLAP).

17.  Гибридные хранилища данных (HOLAP).

18.  Виртуальные хранилища данных.

19.  Цели, задачи и основное содержание процесса ETL.

20.  Основные виды проблем в данных, из-за которых они нуждаются в очистке.

21.  Организация процесса загрузки данных в хранилище. Постзагрузочные операции.

22.  Причины отказа от использования хранилищ данных. Особенности загрузки данных из локальных источников.

23.  Обогащение данных.

24.  Цели, задачи и основное содержание трансформации данных. Трансформация данных на разных этапах аналитического процесса. Типичные средства трансформации.

25.  Особенности трансформации временных рядов. Скользящее окно. Преобразование даты и времени.

26.  Группировка и разгруппировка данных.

27.  Способы слияния данных.

28.  Квантование данных.

29.  Нормализация и кодирование данных.

30.  Цели, задачи и основное содержание визуализации данных. Группы методов визуализации.

31.  Визуализаторы общего назначения. OLAP-анализ.

32.  Манипуляции с измерениями OLAP-куба.

33.  Визуализаторы, применяемые для оценки качества моделей.

34.  Визуализаторы, применяемые для интерпретации результатов анализа.

35.  Технологии и методы оценки качества данных. Профайлинг.

36.  Очистка и предобработка данных.

37.  Типичный набор инструментов предобработки данных в аналитическом приложении.

38.  Фильтрация данных. Обработка дубликатов и противоречий.

39.  Выявление аномальных и восстановление пропущенных значений.

40.  Алгоритмы и методы сокращения числа признаков.

4.3. Примерные вопросы к экзамену по дисциплине

1.  Цели и задачи аффинитивного анализа. Поддержка и достоверность ассоциативных правил. Лифт и левередж.

2.  Сферы применения ассоциативных правил.

3.  Иерархические ассоциативные правила.

4.  Цели, задачи и основное содержание кластерного анализа. Классификация методов кластеризации.

5.  Способы определения меры расстояния между кластерами.

6.  Характеристика методов связи для процедуры кластеризации (одиночная, полная, средняя).

7.  Алгоритм кластеризации k-means.

8.  Сети Кохонена (KCN).

9.  Карты Кохонена (SOM).

10.  Проблемы алгоритмов кластеризации.

11.  Цели, задачи и отличительные особенности классификации и регрессии.

12.  Сферы применения методов классификации и регрессии.

13.  Простая линейная регрессия.

14.  Оценка соответствия простой линейной регрессии реальным данным.

15.  Простая регрессионная модель.

16.  Оценка значимости простой регрессионной модели (t-критерий и F-критерий).

17.  Множественная линейная регрессия.

18.  Модель множественной линейной регрессии.

19.  Оценка значимости множественной регрессионной модели.

20.  Регрессия с категориальными входными переменными.

21.  Методы отбора переменных в регрессионные модели.

22.  Ограничения применимости регрессионных моделей.

23.  Логистическая регрессия. Интерпретация модели логистической регрессии.

24.  Множественная логистическая регрессия.

25.  Цели, задачи и принципы построения деревьев решений. Общая характеристика алгоритмов построения деревьев решений.

26.  Сферы применения деревьев решений.

27.  Алгоритмы IDЗ и С4.5.

28.  Алгоритм CART.

29.  Упрощение деревьев решений.

30.  Цели, задачи и принципы работы нейронных сетей.

31.  Принципы функционирования многослойного персептрона.

32.  Алгоритмы обучения нейронных сетей.

33.  Алгоритм обратного распространения ошибки.

34.  Общая характеристика временных рядов и их компонентов. Цели и задачи анализа временных рядов.

35.  Цели, задачи и принципы прогнозирования. Модели прогнозирования. Обобщенная модель прогноза.

36.  Ансамбли моделей. Бэггинг. Бустинг.

37.  Альтернативные методы построения ансамблей.

38.  Оценка эффективности и сравнение моделей.

39.  Lift- и Profit-кривые.

40.  ROC-анализ.

4.4. Примерные темы курсовых работ

1.  Анализ данных с использованием алгоритмов кластеризации.

2.  Кластеризация данных с помощью нечетких отношений.

3.  Практическое применение методов классификации и регрессии.

4.  Метрики, применяемые в Data mining.

5.  Практическое применение иерархических и неиерархических методов кластерного анализа данных.

6.  Основные стандарты Data mining.

7.  Направления использования эволюционных алгоритмов анализа данных.

8.  Анализ данных с использованием генетических алгоритмов.

9.  Применение методов Data mining для решения практических задач.

10.  Технология Knowledge Discovery in Databases (KDD).

11.  Характеристики промышленных инструментальных средств Data mining.

12.  Практическое применение OLTP-систем и систем поддержки принятия решений (СППР).

13.  Использование реляционной модели построения хранилищ данных (ROLAP).

14.  Использование многомерного подхода в построении хранилищ данных (MOLAP).

15.  Использование гибридных (HOLAP) и виртуальных хранилищ данных.

16.  Извлечение и преобразование данных в ходе ETL-процесса.

17.  Технологии и методы оценки качества, очистки и предобработки анализируемых данных.

18.  Алгоритмы и методы сокращения размерности исходного множества анализируемых данных.

19.  Технология практического применения сэмплинга (sampling).

20.  Сущность и направления использования аффинитивного анализа данных.

21.  Подходы к решению задач поиска ассоциативных правил.

22.  Применение методики поиска ассоциативных правил в торговле, медицине и управлении.

23.  Анализ данных с использованием сети Кохонена (Kohonen network).

24.  Анализ данных с использованием самоорганизующихся карт Кохонена (Self organizing map).

25.  Технология анализа данных с применением регрессионных моделей.

26.  Технология построение и оценка значимости простой регрессионной модели.

27.  Подходы к оценке соответствия простой линейной регрессии реальным данным.

28.  Построение и оценка значимости множественной регрессионной модели.

29.  Характеристика алгоритмов построения деревьев решений.

30.  Подготовка управленческих решений на основе метода деревьев решений.

31.  Принципы построения и направления практического применения нейросетевых моделей.

32.  Оценка полезности, эффективности и точности моделей, применяемых для анализа данных.

33.  Подходы к анализу данных на базе ансамблей моделей.

34.  Формализованные, эвристические и комплексные методы прогнозирования.

35.  Применение моделей анализа временных рядов.

36.  Решение проблемы переобучения моделей.

37.  Технологии обогащения данных.

38.  Применение алгоритмов построения деревьев решений ID3 и С4.5.

39.  Технологии упрощения деревьев решений.

40.  Алгоритмы обучения нейронных сетей.