Правительство Российской Федерации
Федеральное государственное автономное образовательное учреждение высшего профессионального образования
«Национальный исследовательский университет
«Высшая школа экономики»
Факультет Компьютерных наук
Департамент больших данных и информационного поиска
Базовая кафедра Яндекс
УТВЕРЖДАЮ
Академический руководитель
«Науки о данных»
по направлению 01.04.02
«Прикладная математика и информатика»
______________________
«___» _____________ 2014 г.
Программа дисциплины «Робастные методы в статистике»
для направления 01.04.02 "Прикладная математика и информатика" подготовки магистра
для магистерской программы "Науки о данных"
Автор программы:
, д. ф.-м. н. (its *****@***ru; *****@***ru)
Одобрена на заседании базовой кафедры Яндекс «___» _____________ 2014 г.
Заведующий кафедрой ______________
Рекомендована Академическим советом образовательной программы
«Науки о данных» «___»_____________ 2014 г.
Менеджер базовой кафедры Яндекс _______________
Москва, 2014
Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения подразделения разработчика программы.
Пояснительная записка
Автор программы
, д. ф.-м. н.
Требования к студентам
Изучение курса «Робастные методы в статистике» требует предварительных знаний по теории вероятностей, математической статистике, математическому анализу и методам оптимизации.
Аннотация
Дисциплина «Робастные методы в статистике» предназначена для подготовки магистров 01.04.02 – Прикладная математика и информатика.
Учебная дисциплина «Робастные методы в статистике» является логическим продолжением и развитием курса "Теория вероятностей и математическая статистика", где будет показано, каким образом необходимо формулировать задачу, где предполагается использование статистических методов, а так же каким образом необходимо адаптировать классические статистические методы принятия решений в зависимости от условий статистического эксперимента, на базе которого принимается решение. Такой подход необходим в тех случаях, когда необходимо принять гарантийное решение, т. е. такое решение, риски которого могут быть надежно оценены. Будут рассмотрены необходимые модификации классических статистических методов тех случаях, когда вероятность ошибки очень мала и решение должно приниматься не на основе классических предельных теорем теории вероятностей, а на основании теории больших уклонений. Будут рассмотрены алгоритмы, позволяющие правильно учитывать «выбросы» в выборке, которые обычно рассматриваются как ошибочные наблюдения и отбрасываются.
Сегодня грамотный практик обязан учитывать множество факторов, влияющих на процесс формирования данных наблюдений, и использовать статистические решения, устойчивые к негативному влиянию неконтролируемых негативных факторов, влияющих на результаты наблюдений и дисциплина «Робастные методы в статистике» позволит правильно выбирать методы обработки данных в зависимости от природы формирования данных и целей их обработки.
Программа курса предусматривает лекции (26 часов) и семинарские занятия (38 часов).
Учебные задачи курса
Цель курса – научить студентов методике постановки конкретных задач анализа статистических данных в зависимости от природы формирования данных и целей их обработки, выбор адекватных статистических методов решения задачи и правильная интерпретация получаемых статистических выводов.
В результате изучения дисциплины «Робастные методы в статистике» студенты должны:
- знать теоретические основы математической статистики: статистическая структура, статистический фильтр, статистический эксперимент, функция цели, регуляризирующий функционал; правильно формулировать задачу обработки данных в зависимости от природы формирования данных и целей их обработки; знать отличительные особенности робастных статистических выводов; их положительные и отрицательные свойства; уметь выбирать робастный статистический критерий в зависимости от точности доступных данных наблюдений и целей решения статистической задачи; уметь строить гарантийные решающие правила принятия решений по данным наблюдений.
Тематический план дисциплины «Робастные методы в статистике»
№ | Название темы | Всего часов по дисциплине | Аудиторные часы | Самосто-ятельная работа | |
Лекции | Сем. и практика занятия | ||||
1 | Тема 1. Основные понятия робастной статистики. | 44 | 8 | 12 | 24 |
2 | Тема 2. Робастные статистические решения, основанные на независимых наблюдениях. | 46 | 8 | 12 | 26 |
3 | Тема 3. Робастные статистические решения, основанные на зависимых наблюдениях. | 54 | 10 | 14 | 30 |
Итого | 144 | 26 | 38 | 80 |
Источники информации
Список литературы
Основная литература
. Математическая статистика. Новосибирск: Наука. 1997. и др. Робастность в статистике. Подход на основе функций влияния. М.: Мир. 1989. М. Холлендер, Непараметрические методы статистики. М.: Финансы и статистика. 1983.Дополнительная литература
Ширяев . М.: Наука. 1980. , Цитович последовательная проверка гипотез // Проблемы передачи информации. Том 36. Вып. 4. 2000. С.98-112. Цитович субоптимальных последовательных правил проверки непараметрических гипотез о распределениях с экспоненциально убывающими хвостами // Информационные процессы Т. 10, № 2. 2010. С. 181-196. Tsitovich boptimal Nonparametric Hypotheses Discriminating from Small Dependent Observations // Pliska. Studia mathematica Bulgaria. 2009. V. 19. P. 283-292. Malyutov, M. B., Tsitovich I. I. Second Order Optimal Sequential Model Choice and Change-point Detection // Information Processes. 2010. Vol. 10, № 3. P. 275-291. Формы контроля и структура итоговой оценки• Текущий контроль: - письменная аудиторная контрольная работа (60 мин.) и индивидуальное домашнее задание.
• Итоговый контроль – письменный экзамен (120 мин.)
Формирование оценки.
Оценка работы студентов на семинарских и практических занятиях, Оаудиторная,, формируется по десятибалльной шкале и выставляется рабочую ведомость перед итоговым контролем. При формировании оценки учитывается: активность на семинарских занятиях, правильность решения задач на семинаре, результаты письменных тестовых опросов.
Результирующая оценка за текущий контроль в первом модуле учитывает результаты студента по текущему контролю следующим образом:
Отекущий = 0,6·Ок/р + 0,4· Оаудиторна ;
Результирующая оценка за итоговый контроль в форме экзамена выставляется по следующей формуле, где Озач – оценка за работу непосредственно на зачете:
Оитоговый1 =0,4· Озач +0,6·Отекущий·
Результирующая оценка за текущий контроль во втором модуле учитывает результаты студента по текущему контролю следующим образом:
Отекущий = 0,6 Одз + 0,4· Ок/р;
Результирующая оценка за итоговый контроль в форме экзамена выставляется по следующей формуле, где Оэкзамен – оценка за работу непосредственно на экзамене:
Оитоговый =0,4·Оэкзамен +0,3·Отекущий +0,3· Оитоговый1.
В диплом ставится оценка за итоговый контроль, которая является результирующей оценкой по учебной дисциплине.
Таблица соответствия оценок по десятибалльной и системе зачет/незачет
Оценка по 10-балльной шкале | Оценка по 5-балльной шкале |
1 | Незачет |
2 | |
3 | |
4 | Зачет |
5 | |
6 | |
7 | |
8 | |
9 | |
10 |
Таблица соответствия оценок по десятибалльной и пятибалльной системе
По десятибалльной шкале | По пятибалльной системе |
1 – неудовлетворительно 2 – очень плохо 3 – плохо | неудовлетворительно – 2 |
4 – удовлетворительно 5 – весьма удовлетворительно | удовлетворительно – 3 |
6 – хорошо 7 – очень хорошо | хорошо – 4 |
8 – почти отлично 9 – отлично 10 - блестяще | отлично – 5 |
Программа дисциплины «Робастные методы в статистике»
Тема 1. Основные понятия робастной статистики.
Вероятностные меры и отношения между ними. Понятие статистической структуры и статистического фильтра. Примеры формирования статистической структуры. Построение статистической структуры на базе параметрической модели. Понятие о робастном статистическом решении. Регуляризирующий функционал и предъявляемые к нему требования. Выбор статистической модели исходя из качества имеющихся статистических данных. Правило выбора целевой функции решающего правила. Большие уклонения и их влияние на выбор статистической модели и решающего правила.
Статистический эксперимент.
Последовательные и статические решающие правила.
Основная литература
. Математическая статистика. Новосибирск: Наука. 1997. и др. Робастность в статистике. Подход на основе функций влияния. М.: Мир. 1989.Дополнительная литература
Цитович субоптимальных последовательных правил проверки непараметрических гипотез о распределениях с экспоненциально убывающими хвостами // Информационные процессы Т. 10, № 2. 2010. С. 181-196. Ширяев . М.: Наука. 1980.Тема 2. Робастные статистические решения, основанные на независимых наблюдениях.
Задача оценивания параметров распределений, заданных с ошибками. Свойства оценок параметров распределений, если наблюдаемое распределение не принадлежит предполагаемому параметрическому множеству. Правила выбора функции риска для построения робастных оценок параметров.
Информационные расстояния между вероятностными мерами и их свойства.
Сложные непараметрические гипотезы. Примеры построения статистических моделей в задаче проверки гипотез. Гарантийное решающее правило. Правила построения решающих правил при ограниченном носителе данных. Влияние скорости убывания хвостов распределений на гарантийное решающее правило. Рекомендации по учету «выбросов» в статистических данных.
Основная литература
. Математическая статистика. Новосибирск: Наука. 1997. и др. Робастность в статистике. Подход на основе функций влияния. М.: Мир. 1989. М. Холлендер, Непараметрические методы статистики. М.: Финансы и статистика. 1983.Дополнительная литература
Цитович субоптимальных последовательных правил проверки непараметрических гипотез о распределениях с экспоненциально убывающими хвостами // Информационные процессы Т. 10, № 2. 2010. С. 181-196. , Цитович последовательная проверка гипотез // Проблемы передачи информации. Том 36. Вып. 4. 2000. С.98-112.Тема 3. Робастные статистические решения, основанные на зависимых наблюдениях.
Вероятностные модели статистической зависимости. Понятие о слабой и сильной зависимости. Регрессионные модели.
Статистические методы проверки независимости и однородности.
Марковские модели. Задача оценивания матрицы переходных вероятностей. Проблемы точности оценивания и адекватности.
Статистика случайных процессов. Решение задачи о разладке на основании анализа траекторий стационарных процессов.
Основная литература
. Математическая статистика. Новосибирск: Наука. 1997. и др. Робастность в статистике. Подход на основе функций влияния. М.: Мир. 1989.Дополнительная литература
М. Холлендер, Непараметрические методы статистики. М.: Финансы и статистика. 1983. Tsitovich boptimal Nonparametric Hypotheses Discriminating from Small Dependent Observations // Pliska. Studia mathematica Bulgaria. 2009. V. 19. P. 283-292. Malyutov, M. B., Tsitovich I. I. Second Order Optimal Sequential Model Choice and Change-point Detection // Information Processes. 2010. Vol. 10, № 3. P. 275-291.Методические указания студентам
Самостоятельная работа студента предусматривает выполнение теоретических заданий, направленных на овладение техникой построения и преобразования моделей многомерных данных, которая необходима для выполнения анализа моделей, построенных по реальным данным, выбора типа моделей, описывающих эти данные, диагностики и интерпретации результатов.
Автор программы: _____________________________/ <> /


