В.,

НИУ ВШЭ

Статистическое оценивание в множественном анализе соответствий: применение методики бутстрепинга

Проблемная ситуация: анализ соответствий как разведочный метод анализа данных, применяемый к таблицам сопряженности, позволяет визуализировать большие объемы данных в пространстве сниженной размерности (как правило, 2 оси) и описывать структуру данных. Данный метод позволяет с наименьшими потерями информации изобразить структуру данных на плоскости и интерпретировать ее. Однако он не предусматривает процедуры статистического оценивания для генеральной совокупности, все полученные данные верны только для выборки.

Однако в области применения статистического аппарата к анализу соответствий есть некоторые разработки, позволяющие применять статистическое оценивание к картам восприятия. В данной статье будет рассмотрена методика статистического оценивания под названием «бутстреппинг»[1] применительно к множественному анализу соответствий.

Цель работы: описать механизм работы и продемонстрировать возможности применения методики бутстрепинга в рамках множественного анализа соответствий.

Чтобы ввести читателя в курс дела, напомним, в чем заключается суть множественного анализа соответствий как метода визуализации и анализа структуры ряда номинальных[2] переменных в пространстве сниженной размерности.

1. Основы множественного анализа соответствий

В качестве исходных данных для множественного анализа соответствий выступает индикаторная матрица, обозначаемая Z[3].

Матрица Z представляет собой матрицу размерности n на k, где n - объем выборки, k – количество категорий ответов. В индикаторной матрице для каждого респондента в одной из категорий, ему соответствующей, стоит 1, для остальных категорий 0 – и так для каждой переменной: Z = [Z1,…,Zk]. Zk – набор ответов, соответствующий k-ой переменной.

НЕ нашли? Не то? Что вы ищете?

Матрица Берта (все возможные таблицы сопряженности среди имеющихся переменных) получается путем умножения матрицы Z на саму себя транспонированную. Таким образом, получается следующая блочная матрица:

(1)

 
B = ZkT Zk =

Геометрическая взаимосвязь между анализами матриц B и Z следующая. Во-первых, стандартные координаты категорий (т. е. столбцов матрицы Z, и, аналогично, либо столбцов, либо строк матрицы B) одинаковы. И, во-вторых, значения главных инерций матрицы B являются квадратными корнями главных инерций Z.

Применяя множественный анализ соответствий к матрице Берта, или индикаторной матрице умноженной на саму себя транспонированную, исследователь получает возможность отобразить в заданных осях или точки, соответствующие категориям всех использованных в анализе переменных, или же точки, соответствующие респондентам.

Задача математического алгоритма множественного анализа соответствий применительно к матрице Берта состоит в поиске такой плоскости, на которую с наименьшими потерями информации можно будет спроецировать исходное многомерное облако точек (точек-категорий переменных и точек-респондентов). В множественном анализе соответствий используется ряд понятий, используемых также и в простом анализе соответствий (профили, массы профилей, объясненная инерция, абсолютные и относительные вклады точек в инерцию), так как это по сути есть простой анализ соответствий матрицы Берта. Проясним далее эти понятия.

Профиль – относительные частоты по строкам/столбцам таблицы сопряженности (количество респондентов в ячейке деленное на маргинальную сумму (по строке или столбцу)). Профили – примеры математических векторов[4]. Каждый профиль таблицы сопряженности вносит свой вклад в инерцию системы, который зависит от его массы и удаленности от начала координат (среднего профиля):

Inertia = r*d2, где

 

(2)

 

где r - масса точки,

d – расстояние до среднего профиля.

Чем больше в системе массивных объектов, расположенных далеко от начала координат, тем больше ее инерция.

Применительно к матрице Берта профили строк равны профилям столбцов, следовательно, профили строк и столбцов совпадают, и расстояния между строками равно расстоянию между профилями столбцов.

В результате применения процедуры сингулярного разложения к матрице Берта в множественном анализе соответствий получаются значения главных инерций, равномерно распределенные между осями, что означает практически равный процент объяснения для каждой из осей. Эта проблема возникает из-за больших значений частот по диагонали матрицы Берта (диагональная частота – на пересечении переменной самой с собой). Французский статистик Бензекри[5] указывает на то, что таким значениям инерции напрямую доверять и интерпретировать нельзя. Для того чтобы повысить относительную важность главных осей, Бензекри предложил вычислить модифицированные значения по следующей схеме.

1)  Вычислить среднее собственное число (среднее арифметическое от вычисленных собственных значений) ;

2)  Отобрать из собственных чисел только те, которые превышают среднее собственное значение;

3) 

(3)

 
Вычислить по формуле новые значения ;

4)  Затем, исходя из новых собственных значений, рассчитывается доля объясненной инерции:

(4)

 
,

Чем больше количество переменных содержатся в исходной матрице, тем меньше вычисленные собственные значения отличаются от модифицированных.

Для интерпретации получившегося решения, как правило, сначала интерпретируются оси на основе абсолютных вкладов категорий переменных (т. е. переменные, вклады которых превышают значения среднего вклада по модулю, используются для интерпретации). Затем уже в проинтерпретированных осях описывается взаиморасположение точек, соответствующих респондентам. Рассмотрим далее подробнее на примере, как это делается.

Однако, здесь хотелось бы уделить внимание методике, позволяющей применять статистическое оценивание к результатам работы множественного анализа соответствий. Она позволяет строить доверительные эллипсы для генеральной совокупности на картах соответствия и называется методикой бутстрепинга.

2. Бутстрепинг - методика построения доверительных интервалов

Бутстрепинг – непараметрический метод, использующийся для построения доверительных интервалов для выборочных оценок. Суть методики заключается в создании множества подвыборок из исходной выборки. Затем рассчитываются средние оценки и стандартная ошибка или другие параметры по всем подвыборкам. Далее оценивается распределение, аппроксимирующее полученное множество оценок. Предполагается, что в генеральной совокупности это распределение аналогично. На основе полученных значений стандартных ошибок строятся доверительные интервалы для полученных координат в пространстве (как правило, двумерном). Что касается количества подвыборок, то, здесь нет точного ответа на вопрос, сколько их нужно брать. Но рекомендуется формировать не менее 100 подвыборок.[6] Что касается объема выборки, необходимого для построения доверительных интервалов, то здесь действует классическое правило: чем больше, тем лучше. При очень маленьких объемах выборки имеется риск, что полученное распределение будет подогнано скорее к случайному шуму в исходных данных, чем к действительному распределению.

Методика бутстрепинга может дать хорошие результаты также при выполнении условия случайности выборки, не должно быть выборочных смещений. Выборка должна быть моделью генеральной совокупности.

Посредством применения методики бутстрепинга при условии выполнения предположения о многомерной нормальности распределения данных можно строить так называемые «доверительные эллипсы» на двумерных картах восприятия, как для переменных, так и для респондентов. Доверительные эллипсы строятся исходя из вычисленных стандартных ошибок по первой и второй осям.

Далее на содержательных примерах покажем, как работает методика бутстрепинга. Для проведения множественного анализа соответствий с использованием методики бутстрепинга будем использовать специальный синтаксис[7], разработанный в программе Matlab.

3. Анализ примера

В качестве примера для множественного анализа соответствий были иcпользованы данные первой волны (март 2008 г.) синдикативного исследования Insurance®Compass - Трекинг здоровья брендов на рынке розничных страховых услуг[8], собственником которого является «Исследовательская компания «РАДАР».

Цель исследования - на постоянной основе отслеживать динамику потребительского поведения, здоровья брендов и эффективности рекламы на рынке розничных страховых услуг. Метод опроса: личное интервью по месту жительства, длительностью до 40 мин. Опрашивались мужчины и женщины в возрасте 18-65 лет, постоянно проживающие в Москве не менее 6 месяцев и участвующие в принятии финансовых решений в домохозяйстве. Всего было проведено 1000 интервью.

Рассмотрим с помощью множественного анализа соответствий взаимосвязь между возрастом респондента и рядом психографических характеристик. Для простоты и наглядности возьмем 3% подвыборку и посмотрим, зависит ли от возраста мнение респондента по выбранному ряду психографических высказываний. Переменная «возраст» была предварительно разбита на интервалы: 1 – от 18 до 29 лет; 2 – от 30 до 45 лет; 3 - от 46 лет. Исходные шкалы по каждой из психографических характеристик, которые изначально были пятибальными (от «абсоляютно несогласен» до «полностью согласен»), были перекодированы в трехбальные номинальные шкалы с вариантами ответов: 1 – «не согласен»; 2 – «согласен»; 3 – «отчасти согласен, отчасти не согласен». Исходная матрица данных (матрица «объект-признак») выглядит следующим образом:

Таблица 1. Матрица «объект-признак» по возрасту и трём психографическим характеристикам для 29 респондентов (3% подвыборка)

Возраст

Я люблю рисковать

Я живу сегоднящним днем, не заботясь о завтрашнем

Я не могу жить без приключений

1

1

2

1

2

2

1

2

2

2

3

1

2

2

2

4

1

2

2

3

5

1

2

2

3

6

1

2

2

3

7

1

2

3

2

8

1

3

2

2

9

1

3

2

2

10

2

1

3

1

11

2

1

3

1

12

2

1

3

3

13

2

2

3

2

14

2

3

1

3

15

2

3

1

3

16

2

3

2

3

17

2

3

3

3

18

2

3

3

3

19

2

3

3

3

20

2

3

3

3

21

3

1

1

1

22

3

1

1

1

23

3

1

1

1

24

3

1

1

1

25

3

1

2

1

26

3

1

3

1

27

3

1

3

1

28

3

1

3

1

29

3

3

1

1

В итоге было получено двумерное решение.

Сначала рассмотрим, как располагаются точки категорий в двумерном пространстве. На следующей карте восприятия отображены точки, соответствующие категориям всех переменных, использованных в анализе (всего 12 категорий) и соответствующие им 95% доверительные эллипсы, построенные описанным раннее методом бутстрепинга (количество подвыборок = 1000). Доверительные эллипсы показывают, в какой области может располагаться точка, соответствующая категории, в генеральной совокупности. Чем меньше по площади эллипс, тем более эффективной является полученная оценка для генеральной совокупности.

Рис. 1. Расположение точек-категорий всех переменных и 95% доверительные эллипсы для них в двумерном пространстве, построенные по итогам применения множественного анализа соответствий и методики бутстрепинга

a1

18-29

a2

30-45

a3

46+

b1

не любят рисковать

b2

любят рисковать

b3

отчасти то, отчасти другое (1)

c1

не живут сегоднящним днем, не заботясь о завтрашнем

c2

живут сегоднящним днем, не заботясь о завтрашнем

c3

отчасти то, отчасти другое (2)

d1

могут жить без приключений

d2

не могут жить без приключений

d3

отчасти то, отчасти другое (3)

Сначала проинтерпретируем взаиморасположение всех категорий в пространстве, опираясь на полученные карты восприятия, затем дадим интерпретацию осей на основе формальных показателей (вклады категорий в оси) и проинтерпретируем в полученных осях расположение точек, соответствующих респондентам.

Глядя на карту восприятия, можно обнаружить несколько скоплений точек в пространстве. Так, например, в левом верхнем углу расположено плотное скопление точек a1, b2, d2, c2. Это категория самой молодой возрастной группы (18-29) и категории высказываний, соответствующих их жизненным убеждениям: любят рисковать, живут сегодняшним днем, не могут жить без приключений. Соответствующие эллипсы для генеральной совокупности тоже лежат практически в одном месте.

То же самое относится к категориям a3, b1, d1: старшая возрастная группа, не любят рисковать, могут жить без приключений. Точки и соответствующие им эллипсы расположены плотно, что закономерно. То же самое касается точек a2 (возрастная группа 30-45), b3 (отчасти то, отчасти другое(1)) и d3 (отчасти то, отчасти другое(3)). Как видно, две точки были оценены наименее эффективно в модели: это точки, соответствующие категориям c1(не живут сегодняшним днем) и с3(отчасти то, отчасти другое2) – соответствующие доверительные эллипсы имеют наибольшую площадь. Но поскольку мы видим, что доверительный эллипс категории c1 пересекается со скоплением эллипсов в правом верхнем углу карты, то соответствующую категорию мы скорее отнесем к данному скоплению точек – a3, d1, b1. Но необходимо также учитывать, что в данном случае в генеральной совокупности точка, соответствующая категории c3 может совпасть с точкой, соответствующей категории c1, поскольку соответствующие доверительные эллипсы пересекаются.

Далее проинтерпретируем решение, использую формальные показатели инерции и относительных вкладов точек-категорий в оси. В полученном решении на первую ось приходится 38% объясненной инерции, на вторую ось – 26% - в сумме 64%, что является хорошим показателем качества решения. Но, тем не менее, мы не можем руководствоваться этими показателями, потому что при их расчете используются частоты, расположенные по главной диагонали матрицы Берта (пересечение переменной с самой собой). Поэтому, необходимо скорректировать полученные показатели, опираясь на формулы 3,4.

В результате применения множественного анализа соответствий был получен следующий ряд собственных значений:

Таблица 2. Собственные значения в множественном анализе соответствий

λ1

λ2

λ3

λ4

λ5

λ6

λ7

λ8

0,7582

0,5288

0,2683

0,1839

0,1428

0,0629

0,0337

0,0215

Сначала выберем из них те, которые больше среднего собственного значения, равного 0,25 (1/4). Это первые 3 значения.

Затем модифицируем их по формуле 3. Получаем три модифицированных собственных значения: λ1 = 0,145; λ2 = 0,043; λ3 = 0,0001. Чтобы получить модифицированный процент объясненной инерции, нужно разделить соответствующие модифицированные собственные значения на их сумму (формула4). Итак, получаем следующие значения доли объясненной инерции для первых 2 осей. 77% и 23%. Это очень хорошие показатели качества решения. На третье собственное значение приходится только доля процента.

Далее на основе абсолютных вкладов категорий в каждую ось проинтерпретируем оси. Для этого сначала рассчитывается средний вклад всех высказываний в ось. Те высказывания, значения по которым превышают соответствующее среднее значение, используются для интерпретации оси.

Применительно к первой оси это будут следующие категории: a1, a3, b1, b2, c2, d1, d2. Среди них точки категорий, имеющие положительный знак по первой оси будут использованы для интерпретации правого полюса оси, имеющие отрицательный знак – левого полюса. В следующей таблице отображены данные категории, их вклады и координаты:

Таблица 3. Категории переменных, имеющих вклады выше среднего в первую ось, их вклады и координаты по первой оси

Название категорий переменных

Абсолютный вклад в ось 1

Координата на оси 1

18-29

0,69

-1,24

46+

0,62

1,17

не любят рисковать

0,69

1,06

любят рисковать

0,53

-1,18

живут сегоднящним днем, не заботясь о завтрашнем

0,43

-0,98

могут жить без приключений

0,76

1,11

не могут жить без приключений

0,42

-1,15

К левому полюсу относятся следующие категории: 18-29, любят рисковать, живут сегодняшним днем, не могут жить без приключений. Условно назовем этот полюс как «динамичность, нацеленность на настоящее». Соответственно, противоположный полюс назовем «стабильность, забота о будущем». К нему относятся категории: «46+», «не любят рисковать», «могут жить без приключений».

Для интерпретации второй оси используются категории a2, b3, d3:

Таблица 4. Категории переменных, имеющих вклады выше среднего во вторую ось, их вклады и координаты по второй оси

Название категорий переменных

Абсолютный вклад в ось 1

Координата на оси 1

30-45

0,82

-1,16

отчасти то, отчасти другое (1)

0,49

-0,96

отчасти то, отчасти другое (3)

0,57

-0,97

Все они характеризуют отрицательный полюс оси1. Условно говоря, отрицательный полюс по данной оси можно интерпретировать как неяркую выраженность установок определенного типа, а положительный – как яркую выраженность.

Далее, используя множественный анализ соответствий, изобразим в проинтерпретированных осях точки, соответствующие респондентам.

Рис. 2. Расположение точек-респондентов в двумерном пространстве и 95% доверительные эллипсы, построенные по итогам применения множественного анализа соответствий и методики бутстрепинга

29

 

 

На данной карте можно увидеть три достаточно плотных облака респондентов – в левое верхнее скопление точек попали респонденты, разделяющие активную позицию и нацеленные на настоящее, это молодежь. В нижнее облако попали люди средних возрастов, разделяющие промежуточную позицию. Их установки не ярко выражены. В правое верхнее облако попали респонденты старших возрастов, делающие упор на стабильность и заботу о будущем. При этом, мы можем сказать, что респонденты, попавшие в разные группы значимо отличаются друг от друга по своим установкам, потому что доверительные эллипсы респондентов, принадлежащих к разным группам не пересекаются между собой.

Таким образом, даже на маленьких выборках имеется возможность получения довольно четкой графической интерпретации решения с помощью применения множественного анализа соответствий и методики бутстрепинга.

4. Выводы и направления дальнейших исследований

Таким образом, в данной статье была продемонстрирована работа методики множественного анализа соответствий и возможности статистического оценивания в рамках нее. Преимущество методики бутстрепинга применительно к карте соответствий заключается в том, что она позволяет увидеть предположительную область размещения анализируемых категорий в генеральной совокупности. Это уже позволяет делать определенные выводы не только относительно выборки, но также и относительно генеральной совокупности.

Недостатком применения данной методики на данном этапе является то, что она труднореализуема и недоступна пользователям – ни в одном из распространенных статистических пакетов (Statistica, SPSS) она не реализована. Программа Matlab, в которой строились карты соответствий с доверительными эллипсами, предусматривает только работу в синтаксисе, что во многих случаях может быть очень неудобно. Синтаксис – очень гибкий инструмент, в связи с чем, приступая к работе с новыми данными, его требуется отладить и изменить в нем много параметров. Помимо этого, с ростом объема выборки увеличивается трудоемкость и время вычислений в программе, что также достаточно неудобно. Это также послужило одной из причин использования незначительной выборки в анализе.

В дальнейшем может быть перспективным внедрение процедуры бутстрепинга в статистические пакеты и ее адаптация под нужды не знакомого с основами программирования пользователя. Это позволит применять методику бутстрепинга к большим по объему выборкам и большему количеству переменных и получать интересные результаты.

[1] Efron B. Bootstrap methods: another look at the jacknife, 1979.

[2] Возможно также использование порядковых (категориальных) переменных

[3] Greenacre М. Multiple and joint correspondence analysis, Correspondence analysis in the social sciences, 1994.

[4] Greenacre М. Correspondence analysis and its interpretation. Correspondence analysis in the social sciences, 1994.

[5] Benzecri J-P. Correspondence Analysis Handbook, New York: Dekker (adapted from J. P & F. Benzecri, 1984), 1992, стр.412

[6] Efron B. Bootstrap methods: another look at the jacknife, 1979.

[7] Автор данной работы выражает благодарность автору синтаксиса Yoshio Takane за предоставление его на бесплатной основе

[8] http://radar-research. ru/rus/products/

Основные порталы (построено редакторами)

Домашний очаг

ДомДачаСадоводствоДетиАктивность ребенкаИгрыКрасотаЖенщины(Беременность)СемьяХобби
Здоровье: • АнатомияБолезниВредные привычкиДиагностикаНародная медицинаПервая помощьПитаниеФармацевтика
История: СССРИстория РоссииРоссийская Империя
Окружающий мир: Животный мирДомашние животныеНасекомыеРастенияПриродаКатаклизмыКосмосКлиматСтихийные бедствия

Справочная информация

ДокументыЗаконыИзвещенияУтверждения документовДоговораЗапросы предложенийТехнические заданияПланы развитияДокументоведениеАналитикаМероприятияКонкурсыИтогиАдминистрации городовПриказыКонтрактыВыполнение работПротоколы рассмотрения заявокАукционыПроектыПротоколыБюджетные организации
МуниципалитетыРайоныОбразованияПрограммы
Отчеты: • по упоминаниямДокументная базаЦенные бумаги
Положения: • Финансовые документы
Постановления: • Рубрикатор по темамФинансыгорода Российской Федерациирегионыпо точным датам
Регламенты
Термины: • Научная терминологияФинансоваяЭкономическая
Время: • Даты2015 год2016 год
Документы в финансовой сферев инвестиционнойФинансовые документы - программы

Техника

АвиацияАвтоВычислительная техникаОборудование(Электрооборудование)РадиоТехнологии(Аудио-видео)(Компьютеры)

Общество

БезопасностьГражданские права и свободыИскусство(Музыка)Культура(Этика)Мировые именаПолитика(Геополитика)(Идеологические конфликты)ВластьЗаговоры и переворотыГражданская позицияМиграцияРелигии и верования(Конфессии)ХристианствоМифологияРазвлеченияМасс МедиаСпорт (Боевые искусства)ТранспортТуризм
Войны и конфликты: АрмияВоенная техникаЗвания и награды

Образование и наука

Наука: Контрольные работыНаучно-технический прогрессПедагогикаРабочие программыФакультетыМетодические рекомендацииШколаПрофессиональное образованиеМотивация учащихся
Предметы: БиологияГеографияГеологияИсторияЛитератураЛитературные жанрыЛитературные героиМатематикаМедицинаМузыкаПравоЖилищное правоЗемельное правоУголовное правоКодексыПсихология (Логика) • Русский языкСоциологияФизикаФилологияФилософияХимияЮриспруденция

Мир

Регионы: АзияАмерикаАфрикаЕвропаПрибалтикаЕвропейская политикаОкеанияГорода мира
Россия: • МоскваКавказ
Регионы РоссииПрограммы регионовЭкономика

Бизнес и финансы

Бизнес: • БанкиБогатство и благосостояниеКоррупция(Преступность)МаркетингМенеджментИнвестицииЦенные бумаги: • УправлениеОткрытые акционерные обществаПроектыДокументыЦенные бумаги - контрольЦенные бумаги - оценкиОблигацииДолгиВалютаНедвижимость(Аренда)ПрофессииРаботаТорговляУслугиФинансыСтрахованиеБюджетФинансовые услугиКредитыКомпанииГосударственные предприятияЭкономикаМакроэкономикаМикроэкономикаНалогиАудит
Промышленность: • МеталлургияНефтьСельское хозяйствоЭнергетика
СтроительствоАрхитектураИнтерьерПолы и перекрытияПроцесс строительстваСтроительные материалыТеплоизоляцияЭкстерьерОрганизация и управление производством