Лабораторная работа № 2
Статистика выводов
1. Подготовка к работе
Изучить основные компоненты статистики выводов: доверительные интервалы и критерии проверки гипотез. Рассмотреть t-распределение и способы его применения для создания статистических выводов, а также непараметрические критерии, в которых используется меньшее количество предположений о распределении данных.
2. Контрольные вопросы
2.1. Основные компоненты статистики выводов.
2.2. Что такое доверительный интервал?
2.3. Гипотеза и критерии проверки гипотезы.
2.4. Виды гипотез. Односторонние и двусторонние гипотезы.
2.5. Типы ошибок. Уровень значимости.
2.6. Что такое t-распределение?
2.7. Формулы t-статистики.
2.8. Что такое параметрический и непараметрический тесты? Виды непараметрического теста.
2.9. Что такое двухвыборочный t-тест? Виды двухвыборочного t-теста.
3. Задания на выполнение лабораторной работы
3.1. Задание 1. t-статистика
1) В выборке, включающей 25 нормально распределенных наблюдений с выборочным средним 50, вычислите 95%-ный интервал, если s = 20.
2) Используя функции Excel, необходимо решить задачу. Известно, что согласно утверждению одного из ведущих операторов связи после введения нового тарифного плана клиентам не придется тратить на оплату телефонных разговоров более 300 рублей в месяц. После опроса 36 случайно выбранных людей выборочное среднее оказалось равным 330 рублей, а стандартное отклонение – 45 рублей. Можно ли на основании этих данных утверждать, что заявление оператора не соответствует истине?
3.2. Задание 2. Применение t-теста для двухвыборочных данных
Для выполнения данного задания использовать приложение 1 к лабораторной работе, в котором собраны данные о процентной доле клиентов телекоммуникационной компании среди всех потребителей в 1968 и 1972 годах в 19 городах.
На основании этих данных нужно определить, демонстрирует ли данная выборка значительное увеличение процентной доли среди всех клиентов в 19 городах.
1) сформулировать гипотезы для данного исследования;
2) при помощи модуля StatPlus проверить гипотезы и создать доверительный интервал t-распределения для изменения процентной доли с 1968 по 1972 год. Для этого проанализировать значения диапазона Разность (Diff) для проверки уровня значимости отличия выборочного среднего от нуля;
3) создать гистограмму для разностей парных данных;
4) создать диаграмму плотности вероятности для разницы парных данных;
5) провести анализ парных данных с помощью знакового рангового теста Вилкоксона;
6) провести анализ парных данных с помощью знакового теста.
3.3. Задание 3. Двухвыборочный t-тест
Для выполнения данного задания использовать приложение 2 к лабораторной работе, в котором собраны данные об оплате абонентов за услуги связи в определенный период. Женщины (F) утверждают, что они тратят в среднем меньшую сумму по сравнению с мужчинами (M). Необходимо проверить обоснованность такого предположения.
1) Сформулировать нулевую и альтернативную гипотезы для данного исследования. Чему равен уровень значимости для данного теста?
2) Используя двухвыборочный t-тест для данных о выплатах, разбитых по половому признаку, проверить, подтверждаются ли по результатам теста высказанное предположение о разнице выплат у женщин и мужчин. Создайте гистограммы распределения выплат для женщин и мужчин.
3) Используйте двухвыборочный t-тест для значений переменной Категории профессии (Category of a trade). Есть ли разница в выплате у женщин и мужчин в зависимости от категории профессии?
4) Подытожьте полученные результаты. Есть ли основание считать, что женщины действительно платят меньшую сумму, чем мужчины? Если это так, то для каких должностей наблюдается такая разница? Какие факторы не учитывались в исходном предположении?
4. Методические указания
Для выполнения лабораторной работы необходимо загрузить подключаемый модуль StatPlus. Кроме того, для корректного действия данного модуля нужно установить на компьютере региональный стандарт Английский (США). Для этого в системе Windows следует выбрать команду Пуск Þ Панель управления, затем в диалоговом окне Панель управления нужно выбрать элемент Язык и региональные стандарты, после чего во вкладке Региональные параметры диалогового окна Язык и региональные стандарты выбрать в списке элемент Английский (США).
Выполнение лабораторной работы целесообразно начинать с изучения приведенных в методических указаниях примеров.
4.1. Функции t-статистики
Для определения доверительного интервала t-распределения необходимо использовать выражение:
.
Здесь
- это такая точка t-распределения с (n-1) степенями свободы, что вероятность найти значение случайной переменной t-распределения меньше (1-a/2). Для вычисления этого значения в Excel используется функция СТЬЮДРАСПОБР.
СТЬЮДРАСПОБР
Синтаксис:
СТЬЮДРАСПОБР(вероятность;степени_свободы)
Результат:
Возвращает t-значение распределения Стьюдента как функцию вероятности и числа степеней свободы
Аргументы:
Вероятность — вероятность, соответствующая двустороннему распределению Стьюдента (значение a).
Степени_свободы — число степеней свободы, характеризующее распределение. Если выборка состоит из n наблюдений, то степень свободы равна (n-1).
СТЬЮДРАСП
Синтаксис:
СТЬЮДРАСП(x;степени_свободы;хвосты)
Результат:
Возвращает процентные точки (вероятность) для t-распределения Стьюдента, где численное значение (x) — это вычисленное значение, для которого должны быть вычислены вероятности.
Аргументы:
x — численное значение, для которого требуется вычислить распределение.
Степени_свободы — целое, указывающее число степеней свободы.
Хвосты — число возвращаемых хвостов распределения. Если хвосты = 1, то функция СТЬЮДРАСП возвращает одностороннее распределение. Если хвосты = 2, то функция СТЬЮДРАСП возвращает двухстороннее распределение.
Пример использования функции СТЬЮДРАСП. После 25 опытов выборочное среднее оказалось равным 220, а стандартное отклонение – 25, хотя по утверждению среднее должно быть не больше 200. Соответствует ли истине данное утверждение?
Гипотезы: - нулевая гипотеза H0: среднее m0 равно 200;
- альтернативная гипотеза: Hа: среднее не равно 200.
t-статистика: 
Для проверки нулевой гипотезы используется функций СТЬЮДРАСП. Для данного примера запись такова: СТЬЮДРАСП(2;24;2). Получим, что функция возвращает p-значение 0,05694, поэтому нельзя отвергать нулевую гипотезу на уровне значимости, равном 5%. Таким образом, можно сделать следующий вывод: имеющихся данных недостаточно для опровержения утверждения.
4.1. Пример выполнения задания 2 и 3
После включения компьютера и загрузки операционной системы Widows для запуска Microsoft Excel необходимо активизировать команду в главном меню или активизировать соответствующую пиктограмму (ярлычок) на рабочем столе. После этого программа Excel загрузится в оперативную память и на экране будет открыта рабочая книга. Активизировать модуль StatPlus.
Имеется 15 наблюдений, на основании которых необходимо определить, демонстрирует ли данная выборка уменьшение процентной доли в 15 наблюдениях.

Рис. 1. Данные из рабочей книги
Для выполнения поставленной задачи необходимо сформулировать гипотезы, где m - это среднее изменение процентной доли:
- нулевая гипотеза H0: m0 = 0, т. е. процентная доля не изменяется;
- альтернативная гипотеза: Hа: m0 ¹ 0, т. е. процентная доля изменилась, но без предположения о направлении изменения.
- меню StatPlus Þ One Sample Tests Þ 1 Sample t-test.
· в диалоговом окне One sample or paired t-test выбирается переключатель 1 sample t-test (Одновыборочный t-тест).
· щелкните на кнопке Input и в диалоговом окне Input Options выберем переключатель Use Range References и указывается диапазон ячеек А1:А16.
· необходимо щелкнуть на кнопке Output, затем в диалоговом окне Output Options выберем переключатель New WorkSheet и указать имя нового листа. OK.

Рис.2. Диалоговое окно One sample or paired t-test

Рис.3. Результаты t-теста для данных из рабочей книги
На основании данного анализа становится ясно, что среднее увеличение процентной доли 1,08%. Этот результат имеет p-значение 0,607. поэтому принимается нулевая гипотеза. Т. о. процентная доля в данной выборке не изменяется. Также получили 95%-ный доверительный интервал -0,033153 до 0,054726.
Проанализируем те же данные непараметрическим тестом. В непараметрическом тесте используется гораздо меньше простых предположений о распределении данных. Большинство непараметрических тестов основано на рангах, а не на фактических значениях данных (это позволяет избежать использования специальных предположений о данных).
Рассмотрим один из непараметрических аналогов t-теста, которым является знаковый ранговый тест Вилкоксона, в котором вычисляется ранг всех абсолютных значений исходных данных по возрастанию, затем ранг умножается на знак исходного значения, те. —1, 0 или 1. При равенстве двух абсолютных значений им присваивается средний ранг.
В знаковом ранговом тесте Вилкоксона делается только одно предположение о том, что распределение данных симметрично относительно медианы. Если в рамках нулевой гипотезы считать медиану равной 0, то при этом предполагается, что количество положительных рангов равно количеству отрицательных рангов, а их сумма равна 0.
Гипотезы: - нулевая гипотеза Н0: медиана разниц парных данных = 0;
- альтернативная гипотеза На: медиана разниц парных данных ¹ 0.
· меню StatPlus Þ One Sample Tests Þ 1 Sample Wilcoxon Sign Rank Test.
· в диалоговом окне One sample or paired Wilcoxon Sign Rank Test выбирается переключатель 1 sample W-test (Одновыборочный тест Вилкоксона).
· щелкните на кнопке Input и в диалоговом окне Input Options выберем переключатель Use Range References и указывается диапазон ячеек А1:А16.
· необходимо щелкнуть на кнопке Output, затем в диалоговом окне Output Options выберем переключатель New WorkSheet и указать имя нового листа. OK.

Рис. 4. Результаты знакового рангового теста Вилкоксона
Результаты этого анализа на основе знакового рангового теста Вилкоксона подобны результатам t-теста. Но на этот раз нулевая гипотеза также принимается из-за р-значения, равного 0,163.
Рассмотрим еще один непараметрический тест – Знаковый тест. В нем вообще игнорируются значения данных, а учитывается только количество положительных и отрицательных значений. При этом проверяется точность равенства этих двух количеств. Этот тест аналогичен проверке равенства вероятностей выпадения каждой из двух сторон подбрасываемой монеты.
Гипотезы: - нулевая гипотеза Н0: вероятность отрицательного значения равна вероятности положительного значения;
- альтернативная гипотеза Н: вероятность отрицательного значения не равна вероятности положительного значения.
· меню StatPlus Þ One Sample Tests Þ 1 Sample Sign Test.
· в диалоговом окне One sample or paired Sign Test выбирается переключатель 1 sample s-test.
· щелкните на кнопке Input и в диалоговом окне Input Options выберем переключатель Use Range References и указывается диапазон ячеек А1:А16.
· необходимо щелкнуть на кнопке Output, затем в диалоговом окне Output Options выберем переключатель New WorkSheet и указать имя нового листа. OK.

Рис.5. Результаты знакового теста
Даже результаты знакового теста позволяют принять нулевую гипотезу, которая заключается в том, что процентная доля не изменилась; р-значение знакового теста равно 0,18.
При выполнении 3 задания следует обратить внимание на дополнительную категорию, по которым будет производиться анализ по полу или по профессии. Для этого необходимо выбрать: меню StatPlus Þ Two Sample Tests Þ 2-Sample t-test. В строке для категории необходимо указать категорию, по которой производится анализ.

Рис.6. Вид диалогового окна Perform Two Sample or Unpaired t-test


