Партнерка на США и Канаду по недвижимости, выплаты в крипто

  • 30% recurring commission
  • Выплаты в USDT
  • Вывод каждую неделю
  • Комиссия до 5 лет за каждого referral

Министерство образования и науки Российской Федерации

Федеральное государственное автономное образовательное учреждение

высшего профессионального образования

Московский физико-технический институт

(государственный университет)

УТВЕРЖДАЮ

Проректор по учебной работе

__________

«____» ____________ 2012г.

ПРОГРАММА

по курсу: МЕТОДЫ АНАЛИЗА ДАННЫХ И РАСПОЗНАВАНИЯ

(базовый), по направлению: 010900

Магистерская программа: 010956 “Математические и информационные технологии”

факультеты: ФУПМ, ФАКИ

кафедра: ИНФОРМАТИКИ

курс: 1 (магистратура); семестры: 1,2

Трудоёмкость в зач. ед.: базовая часть – 0 зач. ед.; вариативная часть – 0 зач. ед.; по выбору студента – 5 зач. ед.

лекции: базовая часть – 0 час; вариативная часть – 0 час.; по выбору студента – 34 часа 1 зач. ед.

практические (семинарские) занятия: нет

лабораторные занятия: базовая часть – 0 часов, вариативная часть – 0 час.; по выбору студента – 66 часов 2зач. ед.

мастер классы, индивид. и групповые консультации: базовая часть – 3 часа, вариативная часть – 0 зач. ед.; по выбору студента – 0 зач. ед.

курсовая работа: нет

самостоятельная работа: 34 часа 1 зач. ед.

дифференцированный зачет: 2 семестр

экзамен: 1 семестр 1 зач. ед.

ВСЕГО АУДИТОРНЫХ ЧАСОВ: 100

Программу составил д. ф.-м. н., профессор

Программа обсуждена на заседании кафедры информатики

29” мая 2012г.

Заведующий кафедрой,

член-корр. РАН

Программа утверждена на заседании

Ученого совета ФУПМ « ___» ___________2012г.

Декан ФУПМ

ОБЪЁМ УЧЕБНОЙ НАГРУЗКИ И ВИДЫ ОТЧЁТНОСТИ

НЕ нашли? Не то? Что вы ищете?

По выбору студента, включая:

5 зач. ед.

Лекции

34 часа 1 зач. ед.

Практические занятия

0 часов

Лабораторные работы

66 часов 2 зач. ед.

Индивидуальные занятия с преподавателем

0 часа

Самостоятельные занятия, включая подготовку курсовой работы

34 часов 1 зач. ед.

Мастер-классы, индивидуальные и групповые консультации

3 часа

Дифференцированный зачет

2 семестр

Экзамен

30 часов (на подготовку)
1 зач. ед.

ВСЕГО

5 зач. ед.

Итоговая аттестация:

1 сем. Экзамен, 2 сем. диф. зачет

ЦЕЛИ И ЗАДАЧИ

Цель курса – Целью курса является изучение современных подходов, моделей, алгоритмов анализа данных и решения задач распознавания, классификации, нахождения зависимостей.

Задачами данного курса являются:

·  освоение студентами базовых знаний в области методов анализа данных и распознавания (МАДР);

·  приобретение теоретических знаний в области анализа прецедентных данных в условиях их частичной противоречивости и неполноты;

·  оказание консультаций и помощи студентам в проведении собственных теоретических и экспериментальных исследований в области МАДР;

·  формирование навыков применения МАДР при исследовании экспериментальных, статистических или экспертных данных при выполнении студентами выпускных работ на степень магистра.

Место дисциплины в структуре ООП МАГИСТРАТУРЫ

Дисциплина Методы анализа данных и распознавания

_ включает в себя разделы, которые могут быть отнесены к к части цикла по выбору __М.2__ (шифр цикла).

Дисциплина «Методы анализа данных и распознавания

» базируется на материалах курсов бакалавриата: базовая и вариативная часть кода УЦ ООП Б.2 (математический естественнонаучный блок) по дисциплинам «Высшая математика» (математический анализ, высшая алгебра, дифференциальные уравнения и методы математической физики), блока «Общая физика» и региональной составляющей этого блока и относится к профессиональному циклу.

Компетенции обучающегося, формируемые в результате освоения дисциплины

Освоение дисциплины Методы анализа данных и распознавания направлено на формирование следующих общекультурных и общепрофессиональных интегральных компетенций магистра:

а) общекультурные (ОК):

-  способность анализировать научную и производственную информацию, использовать на практике фундаментальные знания, полученные в области естественных и гуманитарных наук (ОК-1);

-  способность осваивать новые проблематику, терминологию, методологию и овладевать научными знаниями из различных источников (отечественной и зарубежной научной периодической литературы, монографий и учебников, электронных ресурсов Интернет), владеть навыками самостоятельного обучения (ОК-2);

-  способность логически точно, аргументировано и ясно формулировать свою точку зрения, владеть навыками научной и общекультурной дискуссии (ОК-3);

-  способность работать в коллективе и применять навыки эффективной организации труда и командной работы (ОК-4).

б) профессиональные (ПК):

-  способность применять в своей профессиональной деятельности знания, полученные в области информационных технологий и математических дисциплин, включая дисциплины: высшая математика, информатика и применение компьютеров в научных исследованиях, дискретный анализ, математическая статистика, случайные процессы (ПК-1);

-  способность применять различные подходы и методы исследований в избранной предметной области: логические, статистические, нейросетевые, эвристические методы обработки экспериментальных данных, вычислительные методы, методы математического и компьютерного моделирования объектов и процессов (ПК-2);

-  способность понимать сущность задач, поставленных в ходе профессиональной деятельности, использовать соответствующий математический аппарат для их описания и решения (ПК-3);

-  способность использовать знания в области компьютерных технологий и математических дисциплин для дальнейшего освоения дисциплин в соответствии с профилем подготовки (ПК-4);

-  способность работать с современным программным обеспечением по анализу и обработке статистических данных (ПК-5);

-  способность представлять результаты собственной деятельности с использованием современных средств, ориентируясь на потребности аудитории, в том числе в форме отчетов, презентаций, докладов (ПК-6);

-  способность применять на практике умения и навыки в организации исследовательских работ, готовность к участию в инновационной деятельности (ПК-7).

конкретные Знания, умения и навыки, формируемые в результате освоения дисциплины

В результате освоения дисциплины «Методы анализа данных и распознавания» обучающийся должен:

1.  Знать:

-  фундаментальные понятия и методы теории распознавания по прецедентам и анализа данных;

-  современные проблемы анализа данных, теории распознавания, классификации, поиска зависимостей;

-  методы и подходы решения практических задач анализа данных и классификации коллективами алгоритмов;

-  программные средства решения основных задач анализа данных и классификации;

2.  Уметь:

-  пользоваться своими знаниями для решения фундаментальных, прикладных и технологических задач в различных предметных областях;

-  делать правильные выводы из сопоставления результатов теории и эксперимента, выбирать правильно параметры методов, адекватные размерности обучающих выборок;

-  делать качественные и количественные выводы при переходе к предельным условиям в изучаемых проблемах;

-  осваивать новые предметные области, теоретические подходы и экспериментальные методики;

-  получать оптимальные алгоритмы классификации и правильно оценивать степень их точности и достоверности;

-  работать на современном экспериментальном оборудовании;

-  планировать оптимальное проведение обучения по прецедентам;

-  эффективно использовать информационные технологии и компьютерную технику для достижения необходимых теоретических и прикладных результатов.

3.  Владеть:

-  навыками анализа большого объема частично противоречивых и неполных признаковых описаний;

-  навыками самостоятельной работы в лаборатории с использованием современных компьютерных технологий;

-  культурой постановки и планирования последовательности решения задач анализа данных и классификации;

-  навыками грамотной обработки статистических многомерных данных, оформления результатов численных расчетов и их сопоставления с теоретическими оценками;

-  практикой исследования и решения теоретических и прикладных задач;

-  навыками анализа реальных задач из различных предметных областей на уровне отдельных подходов и коллективами алгоритмов;

Структура и содержание дисциплины

Структура дисциплины

Перечень разделов дисциплины и распределение времени по темам

№ темы и название

Количество часов

1.  Основные понятия теории распознавания по прецедентам. Модели распознавания, основанные на принципе частичной прецедентности.

10

2.  Информативность признаков и эталонов, методы оценки информативности.

4

3.  Логические закономерности классов, их поиск и применение в задачах классификации.

14

4.  Модели распознавания, основанные на построении бинарных решающих деревьев.

6

5.  Алгоритмы распознавания, основанные на построении линейных и кусочно-линейных разделяющих поверхностей

10

6.  Модели распознавания, основанные на построении нелинейных разделяющих поверхностей

10

7.  Нейросетевые модели классификации

6

8.  ROC-анализ и AUC- оптимальные классификаторы.

4

9.  Статистическая теория распознавания

6

10.  Алгебраическая теория распознавания

8

11.  Система анализа данных и классификации РАСПОЗНАВАНИЕ

6

12.  Кластерный анализ

14

13.  Решение задач кластеризации коллективами алгоритмов

6

14.  Классификация объектов с неполными признаковыми описаниями

4

15.  Нахождение функциональных зависимостей по прецедентам

4

ВСЕГО (зач. ед.(часов))

164 часа ( 5 зач. ед.)

Вид занятий ЛЕКЦИИ:

№ п. п.

Темы

Трудоёмкость в зач. ед.

(количество часов)

1

Основные понятия теории распознавания по прецедентам. Модели распознавания, основанные на принципе частичной прецедентности.

2

2

Информативность признаков и эталонов, методы оценки информативности.

2

3

Логические закономерности классов, их поиск и применение в задачах классификации.

4

4

Модели распознавания, основанные на построении бинарных решающих деревьев.

3

5

Алгоритмы распознавания, основанные на построении линейных и кусочно-линейных разделяющих поверхностей

4

6

Модели распознавания, основанные на построении нелинейных разделяющих поверхностей

6

7

Нейросетевые модели классификации

2

8

Статистическая теория распознавания

3

9

Алгебраическая теория распознавания

2

10

Кластерный анализ

2

11

Решение задач кластеризации коллективами алгоритмов

2

12

Нахождение функциональных зависимостей по прецедентам

2

ВСЕГО ( зач. ед.(часов))

34 часов (1 зач. ед.)

ЛАБОРАТОРНЫЕ ЗАНЯТИЯ

№ п. п.

Темы

Трудоёмкость в зач. Ед.

(количество часов)

1

Модели распознавания, основанные на принципе частичной прецедентности.

6

2

Логические закономерности классов, их поиск и применение в задачах классификации.

6

3

Модели распознавания, основанные на построении бинарных решающих деревьев.

6

4

Алгоритмы распознавания, основанные на построении линейных и кусочно-линейных разделяющих поверхностей

4

5

Модели распознавания, основанные на построении нелинейных разделяющих поверхностей

4

6

Нейросетевые модели классификации

4

7

ROC-анализ и AUC - оптимальные классификаторы.

4

8

Логические и алгебраические корректоры

8

9

Методы кластерного анализа

8

10

Комитетный синтез кластеризаций

4

11

Задачи классификация неполных данных

4

12

Система анализа данных и классификации «РАСПОЗНАВАНИЕ»

8

ВСЕГО ( зач. ед.(часов))

66 час. 2 зач. ед.

ВИДЫ САМОСТОЯТЕЛЬНОЙ РАБОТЫ

№ п. п.

Темы

Трудоёмкость в зач. Ед.

(количество часов)

1

- выполнение курсовых работ

12 час.

2

- изучение теоретического курса – выполняется самостоятельно каждым студентом по итогам каждой из лекций, результаты контролируются преподавателем на лекционных занятиях, используются конспект (электронный) лекций, учебники, рекомендуемые данной программой, методические пособия.

8 час.

3

- решение задач по заданию преподавателя– решаются задачи, выданные преподавателем по итогам лекционных занятий и сдаются в конце семестра, используются конспект (электронный) лекций, учебники, рекомендуемые данной программой, а также сборники задач, включая электронные, учебно-методические пособия.

6 час.

4

- подготовка к защитам лабораторных работ

8 час

5

- подготовка к экзамену

30 час

ВСЕГО ( зач. ед.(часов))

64 час. 2 зач. ед.

Содержание дисциплины

Развёрнутые темы и вопросы по разделам

п/п

Название модулей

Разделы и темы лекционных занятий

Содержание

Объем

Аудиторная работа

(зачетные

единицы/часы)

Самостоятельная работа

(зачетные

единицы/часы)

1

I

ПОДХОДЫ И МЕТОДЫ ТЕОРИИ РАСПОЗНАВАНИЯ ПО ПРЕЦЕДЕНТАМ

Основные понятия теории распознавания по прецедентам. Модели распознавания, основанные на принципе частичной прецедентности.

Основные понятия теории распознавания по прецедентам. Признаковые описания, обучающие выборки, компактность, задачи распознавания, кластерного анализа, восстановления регрессий, прогнозирования, поиска закономерностей. Примеры практических применений. Стандартная обучающая информация. Функционал качества распознавания. Тестовый алгоритм, алгоритмы с представительными наборами. Модели алгоритмов вычисления оценок. Эффективные формулы вычисления оценок.

4

2

2

Информативность признаков и эталонов, методы оценки информативности.

Различные подходы и методы определения информативности признаков и эталонов. Вычисление оценок информативности. Поиск информативных систем признаков как дискретная оптимизационная задача. Приближенный метод нахождения оптимального признакового подпространства, основанный на применении логических корреляций признаков и методов кластеризации

2

2

3

Логические закономерности классов, их поиск и применение в задачах классификации.

Логические закономерности классов, логические описания классов, минимальные и сокращенные описания. Построение решающих функций в моделях голосования по системам логических закономерностей. Нахождение логических закономерностей классов как решение специализированных задач дискретной оптимизации. Поиск логических закономерностей классов с частотным и стандартным критериями качества.

Генетические алгоритмы поиска. Кроссовер, мутация, операторы отбора. Генетический алгоритм поиска логических закономерностей классов.

8

2

4

Модели распознавания, основанные на построении бинарных решающих деревьев.

Бинарные решающие деревья. Признаковые предикаты. Представление разбиения дискретного единичного куба в виде бинарного решающего дерева. Алгоритм построения допустимого разбиения. Алгоритмы построения бинарного решающего дерева по прецедентам, практические методы обрезания деревьев.

4

1

5

Алгоритмы распознавания, основанные на построении линейных и кусочно-линейных разделяющих поверхностей

Минимизация эмпирического риска. Правило постоянного приращения, теорема Новикова. Поиск максимальной совместной подсистемы системы линейных неравенств. Линейные и кусочно-линейные разделяющие поверхности. Линейная машина. Линейный дискриминант Фишера. Методы построения линейных разделяющих функций (релаксационные методы, псевдообращения, методы линейного программирования). Метод комитетов.

6

1

6

Модели распознавания, основанные на построении нелинейных разделяющих поверхностей

Построение полиномиальных разделяющих поверхностей, переход в спрямляющее пространство. Метод потенциальных функций, процедура обучения метода, метод группового учета аргументов. Метод опорных векторов. Сведение задачи построения разделяющей гиперплоскости с максимальным зазором к задаче квадратичного программирования. Случай линейной неразделимости классов. Метод опорных векторов и спрямляющее признаковое пространство. Связь метода опорных векторов и метода потенциальных функций.

8

2

7

Нейросетевые модели классификации

Нейросетевые алгоритмы распознавания. Общие понятия. Алгоритм обратного распространения ошибки. Сети Кохонена и Хопфильда, алгоритмы обучения Хэбба, сети встречного распространения, мультипликативные нейронные сети, теорема Колмогорова.

2

1

8

Статистическая теория распознавания

Байесовское решающее правило. Байесовский риск. Классификация с минимальным уровнем ошибок. Классификаторы, разделяющие функции и поверхности решений. Вероятности ошибок, случай нормальной плотности, махаланобисово расстояние, дискретный случай. Параметрические и непараметрические статистические методы распознавания. Функция роста, емкость множества функций. Равномерная сходимость частот ошибок к вероятностям. Примеры моделей распознавания ограниченной и неограниченной емкости.

4

2

9

Алгебраическая теория распознавания

Стандартный распознающий алгоритм, распознающий оператор, решающее правило. Основные понятия и определения алгебраического подхода в распознавании. Корректность и полнота моделей. Представление алгоритмов в виде операторных полиномов. Существование корректных алгоритмов. Методы поиска корректных алгоритмов. Операции над распознающими алгоритмами. Логические корректоры, корректор по большинству, байесовский и потенциальный корректоры алгоритмов.

2

1

10

II

ПОДХОДЫ И МЕТОДЫ КЛАСТЕРНОГО АНАЛИЗА

Кластерный анализ

Задача кластерного анализа. Меры подобия. Функции критериев для группировки: критерий суммы квадратов ошибок, родственные критерии минимума дисперсии. Матрицы и критерии рассеяния. Критерии кластеризации, основанные на матрицах рассеяния. Некоторые эвристические алгоритмы (метод к-средних, метод размытых к-средних, форель, метод к-эталонов, алгоритм взаимного поглощения). Задача кластеризации в статистической постановке. Восстановление плотностей компонент по плотности смеси. Итеративная оптимизация в кластерном анализе. Минимизация критерия суммы квадратов ошибок. Иерархическая группировка, дендрограммы, агломеративные и делимые процедуры. Алгоритмы "ближайший сосед", "дальний сосед", компромиссы. Пошаговая оптимальная иерархическая группировка. Многомерное масштабирование. Решение задачи кластеризации как поиск минимальных покрытий. Критерии качества кластеризаций, основанные на оценке устойчивости решений. Методы вычисления критериев. Меры концентрации, средняя мера внутриклассового рассеяния. Критерии кластеризации при неизвестном числе кластеров. Решение задач кластеризации при неизвестном числе кластеров.

2

4

11

Решение задач кластеризации коллективами алгоритмов

Кластеризация коллективами алгоритмов. Комитетный синтез коллективных решений. Размытые и контрастные матрицы оценок. Критерии качества коллективных решений. Методы нахождения оптимальных коллективных решений задач кластерного анализа. Видео - логический метод кластеризации.

2

1

12

III

ПОИСК ФУНКЦИОНАЛЬНЫХ ЗАВИСИМОСТЕЙ

Нахождение функциональных зависимостей по прецедентам

Задачи и методы восстановления регрессий, параметрические и непараметрические подходы (линейная и кусочно-линейная, полиномиальная, логистическая регрессии, ядерное сглаживание).

Восстановление функциональных зависимостей по прецедентам с использованием логических моделей распознавания. Байесовское восстановление, как построение коллективных решений задач распознавания. Восстановление кусочно-постоянных функций по прецедентам.

4

1

Образовательные технологии

№ п/п

Вид занятия

Форма проведения занятий

Цель

1

лекция

изложение теоретического материала

получение теоретических знаний по дисциплине

2

лекция

изложение теоретического материала с помощью презентаций

повышение степени понимания материала

3

лекция

решение задач по заданию (индивидуальному где требуется) преподавателя– решаются задачи, выданные преподавателем по итогам лекционных занятий и сдаются в конце семестра, используются конспект (электронный) лекций, учебники, рекомендуемые данной программой, а также учебно-методические пособия

осознание связей между теорией и практикой, а также взаимозависимостей разных дисциплин

4

Лабораторные работы

Проведение лабораторных в компьютерном классе

Получение теоретических и практических знаний по дисциплине

5

самостоятельная работа студента

выполнение и защита курсовых работ, подготовка к защитам лабораторных работ, подготовка к экзамену и зачету с оценкой

повышение степени понимания материала

Оценочные средства для текущего контроля успеваемости, промежуточной аттестации по итогам освоения дисциплины и учебно-методическое обеспечение самостоятельной работы студентов

Контрольно-измерительные материалы

1)  Комплект компьютерных заданий по изучению моделей распознавания и анализа данных ;

2)  Перечень контрольных вопросов для сдачи экзамена в 1-ом семестре.

1.  Постановка задачи распознавания по прецедентам. Признаковые описания и виды признаков. Задачи классификации с учителем (распознавания), классификации без учителя (кластерного анализа) и восстановления регрессий как специальные задачи интерполяции.

2.  Задачи анализа данных и поиска закономерностей. Примеры практических применений.

3.  Тупиковые тесты к-значных таблиц обучения. Сведение задачи поиска тупиковых тестов к поиску неприводимых покрытий бинарной матрицы. Существование тупиковых тестов.

4.  Информационные веса признаков, основанные на вычислении тупиковых тестов. Тестовый алгоритм распознавания.

5.  Алгоритмы распознавания, основанные на нахождении и голосовании по системам представительных наборов классов. Алгоритм распознавания «Кора».

6.  Стохастический аналог тестового алгоритма. Модификация алгоритмов частичной прецедентности для случаев вещественнозначных и смешанных систем признаков.

7.  Алгоритмы распознавания, основанные на вычислении оценок (АВО). Опорные множества алгоритмов, основные этапы вычисления оценок, примеры моделей АВО.

8.  Эффективные формулы вычисления оценок для систем опорных множеств фиксированной мощности и всех опорных множеств.

9.  Информативность признаков и эталонов. Методы оценки информативности в моделях частичной прецедентности. Статистические, информационные, эвристические критерии информативности.

10.  Поиск информативных систем признаков как задача дискретной оптимизации. Приближенный алгоритм поиска минимального признакового пространства, основанный на вычислении логических корреляций признаков, оценке информативности признаков и кластеризации.

11.  Логические закономерности классов. Определения частичной логической закономерности, интервала логической закономерности. Логические описания классов, минимальные и сокращенные описания.

12.  Построение решающих функций в моделях голосования по системам логических закономерностей. Сглаживание решающих функций, построение решающих функций с максимальным «зазором» между обучающими объектами разных классов.

13.  Нахождение логических закономерностей классов с частотным критерием качества как решение линейных задач дискретной оптимизации со специальными свойствами монотонности матриц коэффициентов ограничений и целевой функции.

14.  Поиск логических закономерностей классов со стандартным критерием качества. Сведение данной задачи к специальным задачам поиска максимальных совместных подсистем систем линейных неравенств при линейных ограничениях относительно бинарных параметров.

15.  Генетические алгоритмы поиска оптимальных решений. Операторы «кроссовер», мутация, отбора. Функции кодирования/декодирования подмножеств эталонов классов, функции оценки приспосабливаемости. Генетический алгоритм поиска логических закономерностей классов.

16.  Бинарные решающие деревья. Признаковые предикаты. Существование бинарного решающего дерева для заданной обучающей выборки. Представление разбиения дискретного единичного куба в виде бинарного решающего дерева. Алгоритм построения допустимого разбиения.

17.  Практические методы построения бинарных решающих деревьев, способы обрезания деревьев.

18.  Минимизация эмпирического риска. Релаксационный алгоритм решения систем линейных неравенств и методы его ускорения. Применение релаксационного алгоритма для приближенного поиска максимальной совместной подсистемы системы линейных неравенств. Комбинаторный алгоритм поиска максимальной совместной подсистемы системы линейных неравенств.

19.  Правило постоянного приращения, теорема Новикова. Доказательство конечности правила постоянного приращения для линейно разделимых классов.

20.  Линейные и кусочно-линейные разделяющие поверхности. Случаи двух и более двух классов. Линейная машина. Методы построения линейных разделяющих функций (релаксационные методы, псевдообращения, методы линейного программирования). Метод комитетов.

21.  Линейный дискриминант Фишера. Определение линейного дискриминанта Фишера и вычисление. Случаи неоднозначности решений и вырожденности. Практические подходы по применению дискриминанта Фишера в случаях вырожденности.

22.  Алгоритм «к-ближайших соседей», его ограничения и интерпретация.

23.  Метод потенциальных функций и обучение алгоритма. Метод группового учета аргументов, общая схема построения признакового пространства в виде полиномов от исходных признаков.

24.  Универсальная система «РАСПОЗНАВАНИЕ» для интеллектуального анализа данных, классификации и прогнозирования: назначение, основные характеристики и функции, интерфейс.

25.  Оценка точности алгоритмов распознавания по обучающей выборке в режиме скользящего контроля.

26.  Метод опорных векторов. Сведение задачи построения разделяющей гиперплоскости с максимальным зазором к задаче квадратичного программирования.

27.  Метод опорных векторов в случае линейной неразделимости классов. Модификация основной оптимизационной задачи метода и ее сведение к задаче квадратичного программирования.

28.  Метод опорных векторов и спрямляющее признаковое пространство. Связь метода опорных векторов и метода потенциальных функций.

3)  Перечень контрольных вопросов для сдачи дифференцированного зачета во 2-ом семестре.

1.  Нейросетевые алгоритмы распознавания. Общие понятия. Активационные функции. Алгоритм обратного распространения ошибки. Мультипликативные нейронные сети. Теорема Колмогорова.

2.  ROC-анализ и AUC- оптимальные классификаторы.

3.  Байесовское решающее правило. Байесовский риск. Классификация с минимальным уровнем ошибок. Классификаторы, разделяющие функции и поверхности решений.

4.  Вероятности ошибок, случай нормальной плотности. Байесовский классификатор с минимальной ошибкой для нормально распределенных классов.

5.  Функция роста, емкость множества функций. Равномерная сходимость частот ошибок к вероятностям. Примеры моделей распознавания ограниченной и неограниченной емкости.

6.  Стандартный распознающий алгоритм, распознающий оператор, решающее правило. Основные понятия и определения алгебраического подхода в распознавании.

7.  Корректность и полнота моделей распознавания. Представление алгоритмов в виде операторных полиномов. Существование корректных алгоритмов. Методы поиска корректных алгоритмов.

8.  Операции над распознающими алгоритмами. Логические корректоры, корректор по большинству, байесовский и потенциальный корректоры алгоритмов.

9.  Задача кластерного анализа. Меры подобия. Функции критериев для группировки: критерий суммы квадратов ошибок, родственные критерии минимума дисперсии.

10.  Матрицы и критерии рассеяния. Критерии кластеризации, основанные на матрицах рассеяния. Некоторые эвристические алгоритмы (метод к-средних, метод размытых к-средних, форель, метод к-эталонов, алгоритм взаимного поглощения).

11.  Задача кластеризации в статистической постановке. Восстановление плотностей компонент по плотности смеси.

12.  Итеративная оптимизация в кластерном анализе. Минимизация критерия суммы квадратов ошибок.

13.  Иерархическая группировка, дендрограммы, агломеративные и делимые процедуры. Алгоритмы "ближайший сосед", "дальний сосед", компромиссы. Пошаговая оптимальная иерархическая группировка. Многомерное масштабирование.

14.  Решение задачи кластеризации как поиск минимальных покрытий.

15.  Нейросетевые схемы самообучения. Сети Кохонена и Хопфильда, алгоритмы обучения Хэбба, сети встречного распространения.

16.  Критерии качества кластеризаций, основанные на оценке устойчивости решений. Методы вычисления критериев.

17.  Меры концентрации, средняя мера внутриклассового рассеяния. Критерии кластеризации при неизвестном числе кластеров. Решение задач кластеризации при неизвестном числе кластеров.

18.  Кластеризация коллективами алгоритмов. Комитетный синтез коллективных решений. Размытые и контрастные матрицы оценок. Критерии качества коллективных решений.

19.  Эквивалентность задач максимизации расстояния хэмминга от матрицы оценок коллективного решения до средней размытой матрицы и минимизации расстояния хэмминга от матрицы оценок коллективного решения до множества всех контрастных матриц.

20.  Комитетный синтез оптимальных коллективных решений задачи кластерного анализа. Эвристические методы нахождения оптимальных коллективных решений задач кластерного анализа. Видео - логический метод кластеризации.

21.  Задачи распознавания и кластеризации при неполноте данных. Методы решения задач классификации неполных данных, алгоритмы восстановления неизвестных значений признаков.

22.  Задачи и методы восстановления регрессий, параметрические и непараметрические подходы (линейная и кусочно-линейная, полиномиальная, логистическая регрессии, ядерное сглаживание).

23.  Восстановление функциональных зависимостей по прецедентам с использованием логических моделей распознавания. Байесовское восстановление, как построение коллективных решений задач распознавания. Корректность байесовского алгоритма восстановления зависимости.

24.  Восстановление кусочно-постоянных функций по прецедентам. Поиск оптимального числа компонент. Эффективное переобучение в режиме скользящего контроля в модели вычисления оценок для смежной по обучающей выборке задачи распознавания.

25.  Восстановление кусочно-линейных функций в евклидовом пространстве, основанное на объединении метода наименьших квадратов, динамического программирования и модели распознавания.

Материально-техническое обеспечение дисциплины

  Необходимое оборудование для лекций и лабораторных занятий: компьютер и мультимедийное оборудование (проектор).

Необходимое программное обеспечение: Microsoft Windows, программная система RECOGNITION

Обеспечение самостоятельной работы Электронные ресурсы, включая доступ к базам данных

  http://www. machinelearning. org

  http://www. *****

  http://archive. ics. uci. edu/ml/

Наименование возможных тем курсовых работ

1.  Численное сравнительное исследование корреляции различных способов оценки информативности признаков.

2.  Построение ROC-оптимальных гиперплоскостей в задачах распознавания по прецедентам.

3.  Кластеризация множеств логических закономерностей классов

4.  Критерии информативности объектов при неполных признаковых описаниях.

ТЕМАТИКА И ФОРМЫ ИНДИВИДУАЛЬНОЙ РАБОТЫ –учебным планом не предусмотрено ТЕМАТИКА ИТОГОВЫХ РАБОТ –учебным планом не предусмотрены Учебно-методическое и информационное обеспечение дисциплины

Основная литература.

1.  , , Мешалкин статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.

2.  , , . Решение задач кластерного анализа коллективами алгоритмов. Журнал вычислительной математики и математической физики, Т.48, 2008, N 1, стр. 176-192.

3.  Вапник зависимостей по эмпирическим данным. — М.: Наука, 1979.

4.  Ежегодник "Распознавание, классификация, прогноз (математические методы и их применение)", – М.: "Наука", Вып.1 (1988), 2 (1989), 3 (1990).

5.  Журавлев научные труды. – М.: "Магистр", 1998, 420 с.

6.  , , Сенько ». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006.

7.  Загоруйко методы анализа данных и знаний. Новосибирск, Институт математики им. СО РАН, 1999, 268 с.

8.  , , . Алгоритмы поиска логических закономерностей в задачах распознавания. Журнал вычислительной математики и математической физики, Т.48, 2008, N 2, стр. 329-344.

9.  , , Восстановление зависимостей на основе байесовской коррекции коллективов алгоритмов классификации// Журнал вычислительной математики и математической физики, Vol. 50, No. 9, 2010.

10.  Duda R. O., Hart P. E., Stork D. G. Pattern classification, 2nd Edition. Wiley-Interscience, 20pages.

11.  Hastie, T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. — 2nd ed. — Springer-Verlag, 2009. — 746 p.

Программу составил

, профессор, д. ф.–м. н.