Лекція 7
1 ЕЛЕМЕНТИ ОДНОФАКТОРНОГО ДИСПЕРСІЙНОГО АНАЛІЗУ ЗА ФІШЕРОМ (ANOVA)
1.1 Поняття про дисперсійний аналіз
1.2 Передумови та постановка задачі однофакторного дисперсійного аналізу в контексті перевірки статистичної гіпотези щодо рівності математичних очікувань багатьох вибірок
1.3 Загальна, факторна та залишкова суми квадратів відхилень та зв’язок між ними
1.4 Загальна, факторна та залишкова дисперсії
1.5 Алгоритм однофакторного дисперсійного аналізу за Фішером. Приклад.
1.6 Оцінка впливу фактора. Методи множинних порівнянь Шеффе та Тьюкі*
1.1 Поняття про дисперсійний аналіз [2]
1. Нехай генеральні сукупності
мають нормальне розподілення і мають однакову, хоча і невідому дисперсію. Математичні сподівання також невідомі, але можуть бути різними. Необхідно при заданому рівні значимості перевірити нульову гіпотезу:
![]()
.
2. (Задача щодо однорідності вибірок) Маємо
з вибірок. Дисперсії вибірок однакові за припущенням. Якщо дисперсійний аналіз покаже, що математичні сподівання однакові, то вибірки можна об’єднати в одну і таким чином отримати більшу інформацію щодо випадкової величини.
Подібні задачі вирішуються шляхом аналізу і порівняння дисперсій.
8.2 Передумови та постановка задачі однофакторного дисперсійного аналізу в контексті перевірки статистичної гіпотези щодо рівності математичних сподівань багатьох вибірок
Нехай на кількісну нормально розподілену величину
впливає фактор
, який має
постійних рівнів. Дисперсії
невідомі і рівні між собою. Маємо
досліджень на кожному рівні. Чи впливає фактор
на поведінку випадкової величини
?
Коротко:
1.
,
,
- невідома. Маємо вибірки:
,
,
…,
,
…,

2. Необхідно перевірити статистичну гіпотезу:
![]()
.
1.3 Загальна, факторна та залишкова суми квадратів відхилень та зв’язок між ними [1]
Маємо
вибірок по
спостережень у кожній:
, (1.1)
,
…,
,
…,

Тоді загальне середнє арифметичне:
, (1.2)
Середнє арифметичне
ї вибірки:
. (1.3)
Тоді загальна сума квадратів, що характеризує загальну варіацію всієї сукупності значень
відносно оцінки їх центру тяжіння
, буде мати вигляд:
, (1.4)
Враховуючи, що
(1.5)
можна записати як
(1.6)
Зауваження. Складова
.
Позначимо
, а
. Тоді (1.6) набуде вигляду:
. (1.7)
Тобто, загальна варіація складається з двох адитивних компонент: факторної
, що характеризує вплив досліджуваного фактора на
рівнях, та
, що характеризує похибку вимірювань.
1.4 Загальна, факторна та залишкова дисперсії
Поділивши суми квадратів відхилень на відповідну кількість ступенів свободи, отримаємо загальну, факторну та залишкову дисперсії:
,
,
, (1.8)
Зауваження.
.
8.5 Алгоритм однофакторного дисперсійного аналізу за Фішером. Приклад
Якщо виходити з передумов, то коректний алгоритм однофакторного дисперсійного аналізу за Фішером має складатися з наступних етапів.
1. Перевірка статистичної гіпотези щодо нормальності вибірок
. Тобто,
,
.
2. Перевірка статистичної гіпотези щодо однорідності дисперсій вибірок
. Тобто,
,
.
3. Розрахунок загальної, факторної та залишкової дисперсії.
4.Обчислення спостережуваного значення
критерію Фішера.
5. Обчислення критичного значення
критерію Фішера.
6. Якщо
, то
відхиляється, тобто досліджуваний фактор вважається таким, що впливає на досліджувану випадкову величину.
Зауваження по кожному пункту
1. Перевірка стат. гіпотези щодо нормальності вибірок
. Тобто,
,
.
Виконується з використанням параметричних і непараметричних критеріїв згідно з методиками, наведеними, наприклад у [1,2]. У [3] розглянуті питання щодо робастності процедури дисперсійного аналізу із застосуванням
-критерію для випадків відхилення закону розподілу досліджуваних вибірок від нормального. У особливо відповідальних випадках, або у випадку наявності суттєвих значень оцінок асиметрії слід використовувати модифікований
- критерій. Також у даних випадках доцільно застосувати непараметричний підхід з використанням критерію Крускалла-Уоллиса [7].
2. Перевірка стат. гіпотези щодо однорідності дисперсій вибірок
. Тобто,
,
.
Виконується згідно з використанням критеріїв Кохрена (для випадку вибірок однакової довжини) та критерію Бартлєтта (для випадку вибірок різної довжини) [5,6].
У випадках неоднорідності дисперсій слід відмовитися від схеми дисперсійного аналізу і доцільно застосувати непараметричний підхід з використанням критерію Крускалла-Уоллиса [7].
3. Розрахунок загальної, факторної та залишкової дисперсії. Згідно з (1.7).
У випадку неоднакової кількості спостережень на кожному рівні для розрахунку загальної, факторної та залишкової суми використовують методику, наведену у [5,6].
4.Обчислення спостережуваного значення
критерію Фішера за формулою:
. (1.8)
Приклад [8].
N |
|
|
|
1 | -4 | +7 | +19 |
2 | -12 | +11 | +2 |
3 | -21 | +30 | -13 |
4 | -4 | +28 | -9 |
5 | -4 | +27 | +2 |
Схема розв’язку:
1. Вважаємо розподіл вибірок нормальним.
2. Висуваємо та перевіряємо нуль-гіпотезу щодо однорідності дисперсій за критерієм Кохрена:
2.1
.
2.2 Отримуємо виправлені оцінки вибіркових дисперсій:
,
,
.
2.3 Обчислюємо спостережуване значення критерію Кохрена:
.
Знаходимо за таблицею критичних точок розподілу Кохрена [5, 6] критичне значення критерію:
![]()
Так як
, то нема підстав відхилити нуль-гіпотезу щодо однорідності дисперсій. Можемо переходити до схеми дисперсійного аналізу за Фішером.
3. Розраховуємо загальну, факторну та залишкову дисперсії:
Кількість спостережень:
.
Кількість рівнів факторів:
.
,
,
,
4. Обчислюємо спостережуване значення критерію Фішера:

5. Знаходимо критичне значення критерію Фішера за таблицею: 
6. Так як
, то нуль-гіпотезу щодо рівності групових математичних сподівань відкидаємо – фактор впливає на досліджувану випадкову величину.
Зауваження. У літературі прийнято результати дисперсійного аналізу представляти у вигляді таблиці, наведеній нижче. Саме така форма використовується у вихідних формах практично всіх спеціалізованих програмних пакетів:
ANOVA Table
Analysis of Variance
-------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-------
Between groups 2294,9,47 10,53 0,0023
Within groups 1308,0,0
-------
Total (Corr.) 3602,93 14
Зауваження. Враховуючи той факт, що критичні значення статистичних критеріїв обчислювати значно складніше ніж «хвостові» ймовірності (P-Value), що відповідають спостережуваним значенням, то в програмних пакетах процедура перевірки статистичної гіпотези зводиться не до порівняння критичного і спостережуваного значень критеріїв, а до порівняння
значення з заданою ймовірністю похибки першого роду
. Тобто, якщо
, то
відхиляється.
Література
1. МИ 199-79
2. ГОСТ российский.
3. Гласс Дж. Стэнли. Статистические методы в педагогике и психологии. Перев. с англ. Изд-во „Прогресс”, - М., 1976.
4. Чистяков теории вероятностей: Учеб. - 3-е изд., испр. - М.: Наука, Гл. Ред. Физ.-мат. Лит
5. Гмурман вероятностей и математическая статистика. Учеб. Пособие для втузов. Изд-е 5-е, перераб и доп., М., "Высш. Школа", 1977.
6. Гмурман к решению задач по теории вероятностей и математической статистике. М.: Высшая школа,1977 г.
7. Руни он и…
8. Смирнов, Дунин-Барковский.
* - Для самостійного вивчення.


