Ошибки статистического анализа в психологических исследованиях

Краткие замечания к книге:

Леонова функциональных состояний человека.

М.: Изд-во Московского университета. 19с.

I. Необоснованное использование параметрического t-критерия Стьюдента для сравнения средних значений показателей по группам.

У автора отсутствует проверка допущения применения t-критерия Стьюдента - нормальное распределение исследуемых показателей. Полученные выводы (особенно, на таких малых выборках) нельзя считать статистически обоснованными.

Также неясно, какой t-критерий Стьюдента был использован – для зависимых или независимых выборок. Согласно представленным исследованиям, это должен был быть t-критерий Стьюдента для зависимым выборок.

3.2. АНАЛИЗ СТРАТЕГИЙ ПОИСКА ИНФОРМАЦИИ В КРАТКОВРЕМЕННОЙ ПАМЯТИ (С. 64-71)

Исследование процессов утомления: выполнение варианта методики С. Стернберга на «поиск информации в кратковременно памяти» в утренние часы (в начале) и вечером (после окончания 8-часового ра­бочего дня). В исследовании приняло участие 6 человек (с. 68). Для оценки достоверности различий использовался t-кри­терий Стьюдента (с. 70).

3.3. ПРОЦЕССЫ МАНИПУЛИРОВАНИЯ ЗРИТЕЛЬНЫМ ОБРАЗОМ (С. 71-81)

Исследование процессов утомления: методика для оценки эффективности манипулирования образами разноориентированных объектов. В эксперименте приняли участие 12 испытуемых (c. 75). Для оценки достоверности различий использовался t-кри­терий Стьюдента (c. 75-76).


Исследование процессов утомления: методика идентификации разноориентированных фигур. В экспериментах приняло участие 19 человек. Они были разделены на две группы 9 и 10 человек (с. 78), каждая из которых работала с одним из наборов стимульного материала. Достоверность различий между за­мерами определялась с помощью t-критерия Стьюдента (с. 79-80).


3.4. СЕМАНТИЧЕСКИЕ ПРЕОБРАЗОВАНИЯ ВЕРБАЛЬНОЙ ИНФОРМАЦИИ (С. 81-95)

На следующем этапе исследования была проведена апробация разработанного комплекса методик для диагностики утомления в условиях реального производства. В экспериментах приняла участие группа телеграфисток из 15 человек (с. 89). Достоверность различий между уров­нем выполнения в начале и конце смены определялась с по­мощью t-критерия Стьюдента (с. 89, 91).


5.3. СМЕННАЯ ДИНАМИКА РАБОТОСПОСОБНОСТИ (С. 136-149)

Исследование для операторов-контролеров (n) и операторов-сварщиков (m) динамики показателей (1) производительности труда и частоты сердечных сокращений (n=7, m=9), (2) выполнения психометрических методик (объем выборок не указан) и (3) субъективных симптомов утомления (n=21, m=18) (с. 140-142). Достоверность различий между уров­нем показателей при различных замерах в течение дня определялась с по­мощью t-критерия Стьюдента (с. 141-142, 145).


II. Отсутствие понимания различий в использовании непараметрических критериев для сравнения средних значений показателей по группам.

Автор использует критерий "U Вилкоксона-Манна-Уитни". Но в природе не существует подобного критерия. Есть критерий Вилкоксона для сравнения зависимых переменных, и критерий U Манна-Уитни для сравнения независимых переменных. В приведенном ниже исследовании для группы обследуемых сравниваются результаты выполнения ими различных методик. Таким образом, речь идет о зависимых выборках и мы должны использовать в этом случае критерий Вилкоксона. Прискорбно, но автор везде свои выводы строит на критерии U, из чего можно сделать вывод, что он все-таки имеет в виду критерий U Манна-Уитни, который обоснованно можно применять лишь для сравнения независимых переменных. В итоге все полученные выводы можно считать статистически необоснованными.

3.4. СЕМАНТИЧЕСКИЕ ПРЕОБРАЗОВАНИЯ ВЕРБАЛЬНОЙ ИНФОРМАЦИИ (С. 81-95)

Методика семантических преобразований вербальной информации. Были подготовлены три экспериментальных задания, различающихся степенью сложности выполняемых семантических операций и осмысленностью тестового мате­риала: методика «воспроизведение букв», методика «называния слов, методика «составления слов. В исследовании приняли участие 5 испытуемых (с. 84). Статистический анализ данных проводился с помощью непараметрического критерия "U Вилкоксона-Манна-Уитни" (с. 84, 87-88).


III. Отсутствие понимания в использовании критерия χ2 Пирсона.

Критерий χ2 отвечает на вопрос: с одинаковой ли частотой встречаются разные значения признака в двух (и более) эмпирических распределениях. При сопоставлении двух эмпирических распределений мы опреде­ляем степень расхождения между эмпирическими частотами. Чем больше расхождение между эмпирическими частотами двух сопоставляемых распре­делений, тем больше эмпирическое значение χ2. В приведенном ниже исследовании признак (обобщенные оценки по трем шкалам опросника САН - Самочувствие, Активность, Настроение) измеряется количественно, поэтому требуется предварительно объединить полученные значения в несколько разрядов и подсчитать полученную частоту. Этого не было выполнено. Но как в таком случае можно сравнить распределения частот? Второе, данный критерий позволяет нам проверить гипотезу: эмпирические распределения частот оценок САН в начале смены и в конце отличаются. Как при этом автор смог "достоверно" установить с помощью этого критерия снижение к концу смены усредненных оценок по САН? Данный критерий не предназначен для проверки этой гипотезы…

НЕ нашли? Не то? Что вы ищете?

4.1. ПРОБЛЕМА СПЕЦИФИЧНОСТИ ТЕСТА (С. 96-104)

Исследование процессов утомления: методикой многофакторного субъективного шкалиро­вания утомления - тест САН. Испытания теста САН проводились в начале и конце рабо­чего дня, в течение каждой из трех смен: утренней, вечерней и ночной. В ходе исследования было заполнено 1200 тестовых бланков. В большинстве случаев каждая телеграфистка заполняла бланк дважды в течение одного рабочего дня, кроме того, замеры повторялись в течение 2-3 дней. Среди испытуе­мых были выделены три основные группы по возрастным и квалификационным признакам: 18-21 год (телеграфистки 2-го и 3-го разрядов), 21-40 лет (телеграфистки 1-го разряда) и 41-57 лет (телеграфистки высшей квалификации). Статистическая обработка результатов оценки сдвига функционального состояния в течение смены производилась с помощью критерия χ2 (с. 99-100).

IV. Поверхностное и некритичное использование факторного анализа.

Приведенное ниже исследование является продолжением описанного выше – применение факторного анализа к оценкам по отдельным конструктам (парам прилагательных) опросника САН (обследуемые - телеграфистки). Из текста совершенно неясно, какой объем выборки был использован для каждого факторного анализа. Какая исходная матрица корреляций была использована для факторного анализа? Была ли выполнена проверка допущения о нормальности распределений переменных? Какова была процедура и критерии отбора главных компонент (общих факторов)? Каковы собственные значения главных компонент для различенных условий эксперимента, их доля в общей дисперсии, суммарная доля дисперсии отобранных главных компонент? Читателя просто ставят перед следующим выводом – "в целом выделялась четырехфакторная структура массива обрабатываемых данных", который он должен принять на веру.

Помимо критерия χ2 статистическая обработка результатов по опроснику САН включала факторный анализ по методу главных компонент (c. 99-100). Факторизация данных проводи­лась отдельно для 1) всего эксперимента в целом; 2) начала смены; 3) конца смены; 4) разных групп испытуемых.

Такая схема обработки позволила нам последовательно проанализи­ровать правомерность априорного выделения трех основных категорий (шкал) теста САН, дать детальную характеристику корре­ляционных связей отдельных субъективных признаков внутри каждой категории и между ними, выявить реальную факторную структуру описываемых переживаний.

Уже на уровне обобщенного анализа по всему экспе­рименту в целом выделялась четырехфакторная структура массива обрабатываемых данных (с. 101). Она хорошо воспроизводит­ся и содержательно конкретизируется при рассмотрении данных отдельно для начала и конца смены (до и после развития утомления), а также для разных групп испытуемых (табл. 9) (с. 102-103).

Для иллюстрации, к чему может привести такое "вольное" использование метода факторного анализа, рассмотрим некоторые конструкты из таблицы 9 (с. 102). Обратим внимание, что конструкт "напряженный – расслабленный" почему-то не вошел в фактор "Уровень напряженности". Остается открытым вопрос, почему конструкт "рассеянный – внимательный" оказался в факторе "Эмоциональный фон"? Также, на основании чего следующие конструкты: "настроение хорошее – плохое", "желание отдохнуть – работать", "полный надежд – разочарованный", "довольный – недовольный", были отнесены к фактору "Мотивация"? Содержательная интерпретация автором предложенных факторов (с. 102-103) мало проясняет ситуацию.


V. Необоснованное использование дисперсионного анализа

В приведенном ниже исследовании процессов утомления у операторов-контролеров и операторов сварщиков автор использовал метод дисперсионного анализа. Но в описании отсутствует упоминание проверки следующих значимых для выполнения этого анализа допущений: (1) нормальности распределения исследуемых признаков, (2) однородности – гомоскедактичности (равности) дисперсий исследуемых признаков. Неясно, в чем состояла суть "модели с дробной репликой" (используется для сокращения числа экспериментов полных факторных планов)? Кроме этого, не приведены значения критерия F и его уровня значимости для полученных результатов. Совершенно неясно, каким образом с помощью дисперсионного анализа производился отбор валидных показателей.

5.3. СМЕННАЯ ДИНАМИКА РАБОТОСПОСОБНОСТИ (С. 136-149)

В ходе специального исследования была проведена предварительная оценка чувствительности психометрических методик и валидизация показателей.

Правильность отбора валидных показателей проверялась с помощью двухфакторного дисперсионного анализа (модель с дробной репликой) (с. 138). Независимыми переменными являлись «порядковый номер замера» и «испытуемые». Адекватная динамика наблюдалась для трех показателей в методике ПВ (полного воспроизведения): правильность ответов по 1 и 2 позициям; сумма правильных ответов по всем позициям; и для двух показателей в методике ОП (опознания): правильность ответов по 1 и 2 позициям. Эти величины служили исходным материалом для получения интегрального показателя уровня выполнения.