Тема 7. Дискриминантный анализ
Дискриминантный анализ позволяет предсказать принадлежность объектов к двум или более непересекающимся группам. Исходными данными для дискриминантного анализа является множество объектов, разделенных на группы таким образом, что каждый объект может быть отнесен только к одной группе (из двух или более). При этом допускается, что некоторые объекты вообще не принадлежат ни какой группе (являются «неизвестными»). Для каждого объекта имеются данные по набору количественных переменных, называемых дискриминантными, или предикторами.
Сформулируем задачи дискриминантного анализа:
~ определение правил, позволяющих по значениям дискриминантных переменных (предикторов) отнести каждый объект (в том числе и неизвестный) к одной из известных групп.
~ определение «веса» каждой дискриминантной переменной для разделения объектов на группы.
В реальной жизни нередко возникает ситуация, когда на совокупности измеряемых характеристик необходимо построить прогноз, вычислить вероятность того или иного сценария развития некоторого процесса, модели поведения человека или целой категории, группы людей. Например, – вероятность рецидива (в медицинском – заболевания, или юридическом – правонарушения). И этот прогноз, эта ожидаемая модель должны строиться, во-первых, на информации о принадлежности к конкретной известной группе (т. е. по сути – информация о группе) – для многих объектов; во-вторых, дополнительной информации (значениях предикторов) – для каждого объекта.
Дискриминантный анализ имеет общие черты и с регрессионным анализом, которым мы уже умеем пользоваться, и с кластерным анализом, который нам еще только предстоит изучить немного позже. Так или иначе, в ходе дискриминантного анализа необходимо разделить, расщепить, разбить всю совокупность объектов (не переменных!) на несколько групп, классов. При этом сами эти классы, группы – их количество и состав – заданы изначально. Основная задача заключается в том, чтобы определить, насколько точно можно предсказать принадлежность объекта к конкретному классу исходя из набора имеющихся дискриминантных переменных (предикторов).
Итак. С помощью дискриминантного анализа на основании некоторых признаков (независимых переменных) индивидуум может быть причислен к одной из двух (или к одной из нескольких) заданных заранее групп.
Ядром дискриминантного анализа является построение так называемой дискриминантной функции:
d = b1х1+b2х2+... + bnхn+а,
где x1 и хn – значения переменных, соответствующих рассматриваемым случаям,
константы b1–bn и a – коэффициенты, которые и предстоит оценить с помощью дискриминантного анализа.
Целью является определение таких коэффициентов, чтобы по значениям дискриминантной функции можно было с максимальной четкостью провести разделение по группам.
7.1. Выбор переменных-предикторов
Составление списка переменных, которые реально могут повлиять на результат группировки (переменную-критерий), требует определенных теоретических знаний, известной аналитической культуры, исследовательского опыта, интуиции, наконец. В частном случае все переменные, характеризующие каждого респондента, можно объявить переменными-предикторами и тем самым включить их в уравнение регрессии. Однако, если число таких переменных слишком велико, то невозможно применить дискриминантный анализ ко всем переменным одновременно. Невозможно как по сугубо практическим соображениям (ограниченность ресурсов ПК), так и методологическим (нарушение некоторых условий анализа). В одном из самых распространенных вариантов дискриминантного анализа программа автоматически исключает предикторы, несущественные для предсказания, но при этом использует критерии, установленные самим пользователем.
Поэтому, как правило, на начальном этапе дискриминантного анализа для предполагаемых предикторов формируется корреляционная матрица, называемая общей внутригрупповой корреляционной матрицей. Кроме того, для оптимизации уравнения регрессии, иногда целесообразно проводить дополнительный анализ исходных данных, для обнаружения важных различий и взаимосвязей между предикторами.
7.2. Выбор параметров
В основном методе дискриминантного анализа, используемом по умолчанию, в регрессионное уравнение принудительно включаются все предикторы, определенные исследователем.
Другой вариант дискриминантного анализа использует метод Уилкса (Wilks), при котором происходит пошаговое включение предикторов в уравнение регрессии. При этом используются критерий для включения предиктора в уравнение регрессии (по умолчанию F > 3.84) и критерий для исключения предиктора из уравнения регрессии (по умолчанию F < 2.71)
Кокой из этих методов предпочтительнее? Опыт свидетельствует, что, как правило, компьютер лучше справляется с составлением уравнения регрессии.
Помимо этих двух методов система SPSS имеет в своем арсенале и другие методы выбора предикторов.
7.3. Интерпретация дискриминантных функций
В результате дискриминантного анализа получаем уравнение регрессии на выборке, для которой известны значения и предикторов, и критерия. Это уравнение позволяет по известным значениям предикторов определить неизвестные значения критерия для другой выборки.
7.4. Порядок выполнения дискриминантного анализа
Последовательность выполнения дискриминантного анализа:
· Выберите в меню команду:
Analyze (Анализ)
Classify (Классифицировать)
Discriminant... (Дискриминантный анализ)
Откроется диалоговое окно Discriminant Analysis (Дискриминантный анализ). Это окно содержит следующие элементы интерфейса:
~ список доступных переменных
~ пять стандартных кнопок в правой части окна
~ поле Grouping Variable (Группирующая переменная) – предназначено для задания единственной зависимой переменной. Именно эта переменная и есть критерий.
~ кнопка Define Range (Задать диапазон) позволяет задать число уровней (категорий) группирующей (зависимой) переменной.
~ поле Independents (Независимые переменные) – предназначено для задания списка переменных, включаемых в дискриминантный анализ (уравнение регрессии) в качестве предиктов.
~ переключатель вариантов дискриминантного анализа:
▪ вариант Enter independents together (Вводить независимые переменные вместе)
▪ вариант Use stepwise method (Использовать пошаговый метод)
~ кнопка Method (Метод) позволяет выбрать конкретный пошаговый метод составления дискриминантного уравнения и задать критерий для включения в дискриминантное уравнение и исключения из него предикторов. По умолчанию, критерием для включния предикторов является пороговое значение F-критерия, равное 3,84, а пороговое значение F-критерия для исключения предикторов равно 2,71
~ кнопка Select (Выбор) позволяет определить объекты (Variable –имя переменной; Value – категория этой переменной), участвующие в дискриминантном анализе (объекты, для которых выполняется условие: значение перменной Variable равно значению Value).
~ кнопка Save (Сохранение) позволяет сохранять в качестве новых переменных следующие величины:
▪ прогнозируемый номер группы
▪ оценки дискриминантных функций
▪ вероятность принадлежности к каждой группе
~ кнопка Statistics (Статистики) позволяет выводить статистические характеристики для предикторов
Теперь выполним дискриминантный анализ на конкретном примере.
7.5. Пример из области социологии
В своём исследовании "Культурный прорыв. Изменение ценностей в западном мире" Рональд Инглехарт (Ronald Inglehart) приводит тезис, что в более зрелых возрастных группах значимо большее количество человек высказались в пользу материальных ценностей. Среди младших поколений, согласно Инглехарту, растёт доля постматериалистов. Склонность опрошенных к постматериалистическим ценностям зависит от их образования и профессиональной квалификации. Чем выше образование и профессиональная квалификация, тем выше склонность к постматериалистическим ценностям. Значение имеет также и социально-экономический статус отца; согласно мнению Инглехарта, чем он выше, тем значительней доля постматериалистов. При помощи дискриминантного анализа мы проверим гипотезу смены ценностей, сформулированную американским политологом.
· Загрузите файл:
postmat. sav
Этот файл содержит следующие переменные:
Имя переменной | Значения переменной |
ing_ind | Индекс Инглехарта (приоритет ценностей) |
1 Постматериалисты | |
2 Постматериалисты смешанного типа | |
3 Материалисты смешанного типа | |
4 Материалисты | |
5 Не могу дать ответ | |
6 Нет данных | |
statpaps | Социально-экономический статус отца (индекс) |
1 Низкий | |
5 Высокий | |
8 Формируется в данный момент (отсутствующее значение) | |
9 Безработный, в заключении, умер, пенсионер и т. д. (отсутствующее | |
значение) | |
schule | Уровень школьного образования опрашиваемых |
1 Без образования | |
2 Начальная школа | |
3 Незаконченное среднее | |
4 Среднее | |
alter | Возраст опрашиваемых |
1 18 до 29 лет | |
2 30 до 44 лет | |
3 45 до 59 лет | |
4 60 до 74 лет | |
5 75 до 88 лет | |
6 89 и старше | |
9 Не указан (отсутствующее значение) | |
ausbild | Профессиональное образование опрашиваемых |
0 Образование отсутствует (отсутствующее значение) | |
1 Краткосрочное образование | |
2 Ученик | |
3 Мастер/техник | |
4 Высшее образование |
Как видим, наряду с «чистыми» группами имеются и смешанные типы материалистов и постматериалистов. Разумеется, смешанные типы сложнее и труднее классифицировать – дискриминантный анализ в этом случае может дать неудовлетворительный результат. Поэтому, проведем анализ лишь для чистых типов: 1) материалисты и 4) постматериалисты.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 |


