НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ


«УТВЕРЖДАЮ»                        

Декан факультета                        

______________________                

«__»________________200  г.        

РАБОЧАЯ ПРОГРАММА

по курсу  «Многомерные статистические методы»

Для студентов, обучающихся по специальности  061700 - «Статистика»

Факультет  ИДО

Кафедра Прикладной математики

Курс  3  Семестр        5,6

Лекции  24  часа

Практические занятия  6  часов

Лабораторные занятия  8 часов

Зачет  5 семестр

Экзамен 6 семестр

       

Всего часов 200                         Самостоятельная работа 162 часа

                       

Новосибирск

2006 г.

Рабочая программа составлена на основании ГОС высшего  профессионального образования для специальности 061700 –«Статистика», квалификация «экономист»                                        


Индекс                                                        


Рабочая программа обсуждена на заседании кафедры                                         прикладной математики


«  »  200  г.

НЕ нашли? Не то? Что вы ищете?

Программу составил:                 , доцент, к. т.н.


Заведующий  кафедрой                         //


Ответственный за основную

образовательную программу

Эксперт НМЦ

Дополнения и изменения к рабочей программе на 20  / 20  учебный год

В рабочую программу вносятся следующие изменения:                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 

Рабочая программа пересмотрена и одобрена на заседании кафедры  «  »                        20  г.

               Заведующий кафедрой

                                       «  »                        20  г.

1. Особенности курса

    Курс входит в число общепрофессиональных дисциплин федерального компонента. Курс адресован студентам 3 курса Факультета  ИДО. Основная цель обучающихся – научиться применять многомерные статистические методы для количественной оценки социально-экономической ситуации на микро, макро и глобальном уровнях; проведении статистического анализа и прогнозирования. Изучение данного курса познакомит студентов с основными многомерными статистическими методами, позволит получить навыки применения этих методов для решения задач анализа и прогнозирования социально-экономических процессов. Обучающийся данному курсу должен обладать знаниями в области математического анализа, линейной алгебры, теории вероятностей и математической статистики, информатики. Курс имеет практическую часть (практические занятия 6 часов, лабораторные занятия 8 часов). Оценка знаний и умений проводится по результатам ответов на вопросы экзамена, контрольные вопросы при защите лабораторных работ.

Обязательный минимум содержания дисциплины по государственному стандарту:

Назначение, содержание и основные этапы многомерного статистического анализа. Корреляционный анализ многомерной генеральной совокупности, его назначение и место. Корреляционный анализ количественных связей и порядковых переменных, катеризованные корреляции. Методы многомерных классификаций. Классификация при наличии обучающих выборок – дискриминантный анализ. Классификация без обучения (параметрический случай) – расщепление смесей вероятностных распределений. Классификация без обучения (непараметрический случай) – кластерный анализ. Основные типы задач и алгоритмов кластерного анализа. Снижение размерности исследуемых многомерных признаков и отбор наиболее информативных показателей. Метод главных компонент. Основные числовые характеристики и оптимальные свойства главных компонент. Факторный анализ: общий вид линейной модели, основные задачи и вопросы идентификации. Построение сводного (интегрального) показателя качества сложной системы.

2. Цели курса


Но-мер цели


Содержание цели

Студент будет иметь представление:

1

о задачах и многомерных статистических методов

2

об основных моделях и методах, применяемых в многомерном статистическом анализе

3

о способах решения задач анализа многомерных наблюдений с использованием современного программного обеспечения

Студент будет знать:

4

основные подходы, используемые для многомерного статистического анализа

5

методы и алгоритмы решения задач многомерного статистического анализа

6

способы проведения многомерного статистического анализа с использованием современных компьютерных технологий

Студент будет уметь:

7

определять цель статистического исследования при многомерном анализе, проводить сбор и предварительную обработку данных

8

выбирать методы многомерного анализа, адекватные виду решаемой задачи

9

применять расчетные формулы, необходимые для обработки статистических данных и решения задач многомерного анализа

10

применять программное обеспечение (программные системы Excel, Statistica) для многомерного анализа

11

на основе статистического исследования делать содержательные выводы о социально-экономической ситуации, давать рекомендации по применению результатов исследований



3. Структура курса

                               

4. Содержание курса

5 семестр


Ссылки на цели курса


Часы


Темы лекционных занятий

2,5,9,10

1

Понятие об основных задачах многомерного статистического анализа. Понятия переменной (характеристики, признака), наблюдения, таблицы данных. Основные виды переменных (количественные, порядковые и нечисловые). Основные проблемы, возникающие в многомерном статистическом анализе. Задача построения решающей функции, модели зависимости между переменными.

2,5,9,10,

11

2

Введение в корреляционный анализ. Основные задачи корреляционного анализа. Корреляционный анализ в случае двух переменных. Понятия корреляционного поля и корреляционной таблицы. Коэффициент корреляции и корреляционное отношение; их свойства. Оценивание коэффициента корреляции и корреляционного отношения по выборочным наблюдениям. Проверка значимости корреляции.

2,5,9,10

2

Корреляционный анализ в случае нескольких переменных. Корреляционная матрица. Оценивание корреляционной матрицы. Множественный коэффициент корреляции. Связь между множественным коэффициентом корреляции и корреляционной матрицей. Частный коэффициент корреляции. Связь между частным коэффициентом корреляции и корреляционной матрицей.

2,5,9,10

2

Введение в  дисперсионный анализ.  Задача дисперсионного анализа. Понятия факторов, уровней, таблицы данных для дисперсионного  анализа. Однофакторный дисперсионный анализ. Модель однофакторного дисперсионного анализа. Вариация и ее типы. Основное тождество вариации в случае однофакторного дисперсионного анализа. Проверка значимости влияния факторной переменной на результативную. Двухфакторный дисперсионный анализ без повторений. Модель двухфакторного дисперсионного анализа без повторений. Типы вариации. Основное тождество вариации в случае двухфакторного дисперсионного анализа без повторений. Проверка значимости влияния факторных переменных на результативную переменную. Линейные контрасты и их использование в дисперсионном анализе.

2,5,9,10

2

Введение в дискриминантный анализ. Постановка задачи дискриминантного анализа («распознавания образов», «классификации с учителем»). Понятия решающей функции (классификатора), дискриминантной  функции, дискриминантной модели. Оптимальная решающая и дискриминантная функции. Понятие о параметрических и непараметрических методах дискриминантного анализа.

2,5,9,10

2

Параметрические методы дискриминантного анализа. Дискриминантный анализ в случае одной переменной (нормальное распределение; два класса). Байесовская решающая функция. Оптимальная выборочная решающая функция. Дискриминантный анализ в случае двух переменных.

2,5,9,10,

11

2

Непараметрические методы дискриминантного анализа. Понятия обучающей и контрольной выборки, ошибки классификации. Линейный дискриминант Фишера (случай двух переменных). Матрицы разброса наблюдений между классами и внутри классов. Деревья решений. Использование деревьев решений в случае наличия разнотипных переменных.


2,5,9,10

1

Повторение пройденного материала.



Темы практических занятий


Ссылки на цели курса


Часы


Темы


Деятельность обучающегося

2,5,9,10

0,5

Корреляционный анализ.


    Сформулировать цель и методы статистического исследования Применить расчетные формулы для вычисления коэффициентов корреляции

2,5,9,10

0,5

Дисперсионный анализ.


    Сформулировать цель и методы статистического исследования Применить расчетные формулы для проведения дисперсионного анализа

2,5,9,10

1

Дискриминантный анализ

    Сформулировать цель и методы статистического исследования Применить расчетные формулы для проведения дискриминантного анализа

2,5,9,10,

11

5

Лабораторная работа №1

Корреляционный анализ в пакете STATISTICA.


    сформулировать цели и задачи исследования; исследовать зависимости между переменными методами корреляционного анализа; сформулировать  результаты оформить отчет и защитить работу.

2,5,9,10,

11

2

Лабораторная работа №2

Дисперсионный анализ в пакете STATISTICA.

.

    сформулировать цели и задачи исследования; выбрать класс модели; исследовать модель методами дисперсионного анализа; сформулировать  результаты оформить отчет и защитить работу.

2,5,9,10,

11

2

Лабораторная работа №3

Дискриминантный анализ в пакете STATISTICA


    сформулировать цели и задачи исследования; выбрать класс модели; исследовать модель методами дискриминантного анализа; построить дерево решений сформулировать  результаты оформить отчет и защитить работу.


Вид деятельности

Максимальный рейтинг

Достаточный рейтинг

Лабораторная работа

20

15

Решение практических задач

40

30

Вопросы теоретического зачета

40

30

Итого:

100

75


       Для успешного усвоения курса необходимо набрать не менее 75 баллов.

Список литературы


Айвазян В. С. прикладная статистика и основы эконометрики: Учебник. М., ЮНИТИ, 1998 Справочник по прикладной статистике / под ред. Ллойда, Лидермана.  Т.2. – М.: Финансы и Статистика, 1990. Боровиков версия системы STATISTICA // КомпьютерПресс. – 1999 –№ 5. ногомерные статистические методы для экономики. – М.: Финансы и Статистика, 1979. атематическая статистика с техническими приложениями. – М.: Наука, 1956. Дубровский многомерный статистический анализ. М.:ФиС, 1982 Демиденко и нелинейная регрессия. М.: ФиС, 1981 и др. Многомерные статистические методы для экономистов и менеджеров. М.: ФиС, 2000 нализ данных и регрессия М.: ФиС, 1982 , Макаров анализ данных на компьютере. М., ИНФРА-М, 1998 Бериков указания к контрольным работам по курсу «Прикладной статистический анализ».  НГТУ. 2000. – 33 с.

6 семестр


Ссылки на цели курса


Часы


Темы лекционных занятий

2,5,9,10

1

Введение в кластер-анализ. Постановка задачи автоматической группировки (кластер-анализ,  «классификация без учителя»). Понятие группы объектов (кластера). Меры расстояния между группами объектов: расстояние по принципу «ближнего соседа», «дальнего соседа», «средней связи», между «центрами тяжести». Меры близости объектов внутри группы.

2,5,9,10

1

Способы задания расстояния в признаковом пространстве: Евклидово расстояние, Манхэттенское расстояние (City-Block). Критерии качества группировки. Экстремальная постановка задачи автоматической группировки и методы ее решения.

2,5,9,10

1

Автоматическая группировка в случае известного вида распределений. Задачи автоматической  группировки в случае известного вида распределений. Задача расщепления смеси вероятностных распределений и метод ее решения.

2,5,9,10

1

Основные методы кластер-анализа. Методы «кратчайшего незамкнутого пути», «дендритов» Способ оценивания расстояния между группами, близости внутри групп, мер однородности при группировке. Машинные и человеко-зависимые методы группировки.

2,5,9,10

1

Методы, использующие понятие центра тяжести. Метод К-средних и его модификации. Алгоритмы «Форель», «Пульсар». Иерархические методы группировки. Понятие дендрограммы и ее характеристики. Агломеративные и дивизимные методы иерархической группировки. Алгоритмы построения дендрограммы.

2,5,9,10

1

Задачи снижения размерности и отбора наиболее информативных переменных. Постановка задачи снижения размерности и отбора наиболее информативных переменных. Критерии информативности переменных. Допустимые преобразования переменных, проектирование в пространство меньшей размерности.

2,5,9,10

1

Задача анализа главных компонент. Понятие главных компонент, их нахождение, критерии качества. Нахождение собственных чисел и векторов матрицы. Геометрическая интерпретация главных компонент.

2,5,9,10

1

Задача факторного анализа. Факторные нагрузки. Общность. Критерии качества решения. Связь с задачей анализа главных компонент. Вращение переменных, критерий «варимакс».

2,5,9,10

1

Основные методы отбора наиболее информативных переменных: Метод пошагового включения и исключения переменных, метод случайного поиска с адаптацией. Взаимосвязь между задачами группировки и уменьшения размерности. Основные задачи и вопросы идентификации. Построение сводного (интегрального) показателя качества сложной системы.

2,5,9,10

1

Повторение пройденного материала.



Темы практических занятий


Ссылки на цели курса


Часы


Темы


Деятельность обучающегося

2,5,9,10

1

Меры близости и сходства групп объектов. Построение дендрограммы, классификация объектов с помощью метода кратчайшего незамкнутого пути (КНП) и с помощью алгоритма К-средних.


    Применить расчетные формулы для вычисления мер близости и сходства; Построить дендрограмму по заданной выборке объектов; Разбить выборку на кластеры, используя метод КНП и К-средних..

2,5,9,10

1

Анализ главных компонент


    Сформулировать цель и методы статистического исследования Применить расчетные формулы для проведения анализа

2,5,9,10

1

Фактор-анализ

    Сформулировать цель и методы статистического исследования Применить расчетные формулы для проведения анализа

2,5,9,10

1

Отбор наиболее информативных переменных

    Сформулировать цель и методы статистического исследования Применить расчетные формулы для проведения анализа

2,5,9,10

2

Лабораторная работа №1

Кластер анализ в пакете STATISTICA.


    сформулировать цели и задачи исследования; Выполнить группировку объектов различными методами кластерного анализа; сформулировать  результаты оформить отчет и защитить работу.

2,5,9,10

1

Лабораторная работа №2

Анализ главных компонент в пакете STATISTICA.

.

    сформулировать цели и задачи исследования; провести анализ главных компонент; сформулировать  результаты; оформить отчет и защитить работу.

2,5,9,10

1

Лабораторная работа №3

Отбор информативных переменных анализ в пакете STATISTICA.


    сформулировать цели и задачи исследования; провести отбор наиболее информативных переменных методом  пошагового включения и исключения переменных; сформулировать  результаты оформить отчет и защитить работу.


Вид деятельности

Максимальный рейтинг

Достаточный рейтинг

Лабораторная работа

20

15

Решение практических задач

40

30

Вопросы экзамена

40

30

Итого:

100

75


       Для успешного усвоения курса необходимо набрать не менее 75 баллов.

Типовой экзаменационный билет.

Вопрос 1. Метод агломеративной группировки.

Вопрос 2. Задача факторного анализа и основные методы ее решения.

Задача. У нескольких семей определены величины их среднемесячного дохода (X1) и размера накопления за год (X2) (см таблицу). Определить первую главную компоненту переменных X1 и X2. Какую долю суммарной дисперсии объясняет первая главная компонента?

Список литературы


Айвазян В. С. прикладная статистика и основы эконометрики: Учебник. М., ЮНИТИ, 1998 Справочник по прикладной статистике / под ред. Ллойда, Лидермана.  Т.2. – М.: Финансы и Статистика, 1990. Боровиков версия системы STATISTICA // КомпьютерПресс. – 1999 –№ 5. Дубровский многомерный статистический анализ. М.:ФиС, 1982 и др. Многомерные статистические методы для экономистов и менеджеров. М.: ФиС, 2000 , Макаров анализ данных на компьютере. М., ИНФРА-М, 1998 Бериков указания к контрольным работам по курсу «Прикладной статистический анализ».  НГТУ. 2000. – 33 с.