Партнерка на США и Канаду по недвижимости, выплаты в крипто

  • 30% recurring commission
  • Выплаты в USDT
  • Вывод каждую неделю
  • Комиссия до 5 лет за каждого referral

Прежде чем продолжить описание процесса кластерного анализа, необходимо при­вести краткое описание других параметров. Среди них есть как полезные возмож­ности, так и фактически лишние (с точки зрения практических маркетинговых исследований). Так, например, главное диалоговое окно Hierarchial Cluster Analysis содержит поле Label Cases by, в которое при желании можно поместить текстовую переменную, идентифицирующую респондентов. В нашем случае для этих целей может служить переменная q4, кодирующая выбранные респондентами авиаком­пании. На практике сложно придумать рациональное объяснение использованию поля Label Cases by, поэтому можно спокойно всегда оставлять его пустым.


Рис. 5.47. Диалоговое окно создания новой переменной

 
 

Нечасто при проведении кластерного анализа используется диалоговое окно Sta­tistics, вызываемое одноименной кнопкой в главном диалоговом окне. Оно позво­ляет организовать вывод в окне SPSS Viewer таблицы Cluster Membership, в которой каждому респонденту в исходном файле данных сопоставляется номер кластера. Данная таблица при достаточно большом количестве респондентов (практически во всех примерах маркетинговых исследований) становится совершенно бесполез­ной, так как представляет собой длинную последовательность пар значений «но­мер респондента/номер кластера», в таком виде не поддающуюся интерпретации. Технически цель кластерного анализа всегда состоит в образовании в файле дан­ных дополнительной переменной, отражающей разделение респондентов на целе­вые группы (при помощи щелчка на кнопке Save в главном диалоговом окне клас­терного анализа). Эта переменная в совокупности с номерами респондентов и есть таблица Cluster Membership. Единственный практически полезный параметр в окне Statistics — вывод таблицы Average Linkage (Between Groups), однако он уже установ­лен по умолчанию. Таким образом, использование кнопки Statistics и вывод отдель­ной таблицы Cluster Membership в окне SPSS Viewer является нецелесообразным.

НЕ нашли? Не то? Что вы ищете?

Про кнопку Plots уже было сказано выше: ее следует дезактивизировать, отменив параметр Plots в главном диалоговом окне кластерного анализа.

Кроме этих редко используемых возможностей процедуры кластерного анализа, SPSS предлагает и весьма полезные параметры. Среди них прежде всего кнопка Save, позволяющая создать в исходном файле данных новую переменную, распре­деляющую респондентов по кластерам. Также в главном диалоговом окне суще­ствует область для выбора объекта кластеризации: респондентов или переменных. Об этой возможности говорилось выше в разделе 5.4. В первом случае кластерный анализ используется в основном для сегментирования респондентов по некото­рым критериям; во втором цель проведения кластерного анализа аналогична фак­торному анализу: классификация (сокращение числа) переменных.

Как видно из рис. 5.44, единственной не рассмотренной возможностью кластерно­го анализа является кнопка выбора метода проведения статистической процедуры Method. Эксперименты с данным Параметром позволяют добиться большей точно­сти при определении оптимального числа кластеров. Общий вид этого диалогово­го окна с параметрами, установленными по умолчанию, представлен на рис. 5.48.

Рис. 5.48. Диалоговое окно Method

 

 

Первое, что устанавливается в данном окне, — это метод формирования кластеров (то есть объединения наблюдений). Среди всех возможных вариантов статисти­ческих методик, предлагаемых SPSS, следует выбирать либо установленный по умолчанию метод Between-groups linkage, либо процедуру Ward (Ward's method). Первый метод используется чаще ввиду его универсальности и относительной простоты статистической процедуры, на которой он основан. При использовании этого метода расстояние между кластерами вычисляется как среднее значение рас­стояний между всеми возможными парами наблюдений, причем в каждой итера­ции принимает участие одно наблюдение из одного кластера, а второе — из друго­го. Информация, необходимая для расчетов расстояния между наблюдениями, находится на основании всех теоретически возможных пар наблюдений. Метод Ward более сложен для понимания и используется реже. Он состоит из множества этапов и основан на усреднении значений всех переменных для каждого наблюде­ния и последующем суммировании квадратов расстояний от вычисленных сред­них до каждого наблюдения. Для решения практических задач маркетинговых ис­следований мы рекомендуем всегда использовать метод Between-groups linkage, установленный по умолчанию.

После выбора статистической процедуры кластеризации следует выбрать метод для вычисления расстояний между наблюдениями (область Measure в диалоговом окне Method). Существуют различные методы определения расстояний для трех типов переменных, участвующих в кластерном анализе (критериев сегментирова­ния). Эти переменные могут иметь интервальную (Interval), номинальную (Counts) или дихотомическую (Binary) шкалу. Дихотомическая шкала (Binary) подразуме­вает только переменные, отражающие наступление/ненаступление какого-либо события (купил/не купил, да/нет и т. д.). Другие типы дихотомических перемен­ных (например, мужчина/женщина) следует рассматривать и анализировать как номинальные (Counts).

Наиболее часто используемым методом определения расстояний для интервальных переменных является квадрат евклидова расстояния (Squared Euclidean Distance), устанавливаемый по умолчанию. Именно этот метод зарекомендовал себя в марке­тинговых исследованиях как наиболее точный и универсальный. Однако для дихотомических переменных, где наблюдения представлены только двумя значениями (например, 0 и 1), данный метод не подходит. Дело в том, что он учитывает только взаимодействия между наблюдениями типа: X = 1,Y = 0 и X = 0, Y=l (где X и Y — переменные) и не учитывает другие типы взаимодействий. Наиболее комплексной мерой расстояния, учитывающей все важные типы взаимодействий между двумя дихотомическими переменными, является метод Лямбда (Lambda). Мы рекоменду­ем применять именно данный метод ввиду его универсальности. Однако существу­ют и другие методы, например Shape, Hamann или Anderbergs's D.

При указании метода определения расстояний для дихотомических переменных в соответствующем поле необходимо указать конкретные значения, которые мо­гут принимать исследуемые дихотомические переменные: в поле Present — коди­ровку ответа Да, а в поле Absent — Нет. Названия полей присутствует и отсутствует ассоциированы с тем, что в группе методов Binary предполагается использовать только дихотомические переменные, отражающие наступление/ненаступление какого-либо события. Для двух типов переменных Interval и Binary существует не­сколько методов определения расстояния. Для переменных с номинальным типом шкалы SPSS предлагает всего два метода: (Chi-square measure) и (Phi-square measure). Мы рекомендуем использовать первый метод как наиболее распростра­ненный.

В диалоговом окне Method есть область Transform Values, в которой находится поле Standardize. Данное поле применяется в том случае, когда в кластерном анализе при­нимают участие переменные с различным типом шкалы (например, интервальные и номинальные). Для того чтобы использовать эти переменные в кластерном анализе, следует провести стандартизацию, приводящую их к единому типу шкалы — интер­вальному. Самым распространенным методом стандартизации переменных являет­ся 2-стандартизация (Zscores): все переменные приводятся к единому диапазону зна­чений от -3 до +3 и после преобразования являются интервальными.

Так как все оптимальные методы (кластеризации и определения расстояний) ус­тановлены по умолчанию, целесообразно использовать диалоговое окно Method только для указания типа анализируемых переменных, а также для указания необ­ходимости произвести 2-стандартизацию переменных.

Итак, мы описали все основные возможности, предоставляемые SPSS для прове­дения кластерного анализа. Вернемся к описанию кластерного анализа, проводи­мого с целью сегментирования авиакомпаний. Напомним, что мы остановились на шестнадцатикластерном решении и создали в исходном файле данных новую пе­ременную clul6_l, распределяющую все анализируемые авиакомпании по кластерам.

Чтобы установить, насколько верно мы определили оптимальное число класте­ров, построим линейное распределение переменной clul6_l (меню Analyze ► Des­criptive Statistics ► Frequencies). Как видно на рис. 5.49, в кластерах с номерами 5-16 число респондентов составляет от 1 до 7. Наряду с вышеописанным универсаль­ным методом определения оптимального количества кластеров (на основании раз­ности между общим числом респондентов и первым скачком коэффициента агломе­рации) существует также дополнительная рекомендация: размер кластеров должен быть статистически значимым и практически приемлемым. При нашем размере выборки такое критическое значение можно установить хотя бы на уровне 10. Мы видим, что под данное условие попадают лишь кластеры с номерами 1-4. Поэтому

теперь необходимо пересчитать процедуру кластерного анализа с выводом четы-рехкластерного решения (будет создана новая переменная du4_l).

Рис. 5.49. Линейное распределение для 16-кластерного решения

 

 

Построив линейное распределение по вновь созданной переменной du4_l, мы уви­дим, что только в двух кластерах (1 и 2) число респондентов является практически значимым. Нам необходимо снова перестроить кластерную модель — теперь для двухкластерного решения. После этого построим распределение по переменной du2_l (рис. 5.50). Как вы видите из таблицы, двухкластерное решение имеет статистичес­ки и практически значимое число респондентов в каждом из двух сформированных кластеров: в кластере 1 — 695 респондентов; в кластере 2 — 40. Итак, мы определили оптимальное число кластеров для нашей задачи и провели собственно сегментиро­вание респондентов по семи избранным критериям. Теперь можно считать основ­ную цель нашей задачи достигнутой и приступать к завершающему этапу кластер­ного анализа — интерпретации полученных целевых групп (сегментов).

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41