Курс лекций для заочного отделения по дисциплине
«Анализ данных»
Содержание
ТЕМА 1: Статистика выводов
1.1. Доверительные интервалы
1.2. Проверка гипотез.
Типы ошибок
Области принятия и непринятия
ТЕМА 2: Регрессия и корреляция
2.1. Регрессия
Простая линейная взаимосвязь
Интерпретация параметров регрессии
2.2. Корреляция
2.3. Множественная регрессия
2.4. Нелинейная регрессия
ТЕМА 3: Временные ряды
3.1. Простое экспоненциальное сглаживание
3.2. Двухпараметрическое экспоненциальное сглаживание
Метод декомпозиции
ТЕМА 4: Когнитивный анализ. Графы.
Методика когнитивного анализа сложных ситуаций
Моделирование
Этапы моделирования:
ТЕМА 5: Системы аналитической обработки данных
5.1 OLAP – технология (Оперативная система аналитической обработки данных)
5.2. CRM – технология (Customer Relationship Management)
5.3. Интеллектуальный анализ данных (Data Mining)
Этапы исследования данных с помощью методов Data Mining
Методы Data Mining
1) Кластеризация
2) Ассоциация
3) Деревья решений
4) Метод «ближайших соседей»
5) Нейронные сети
6) Нечеткая логика
7) Генетические алгоритмы
8) Эволюционное программирование
9) Визуализация (когнитивная графика)
ТЕМА 1: Статистика выводов
Основные компоненты статистики выводов являются:
- Доверительные интервалы;
- Критерии проверки гипотез.
1.1. Доверительные интервалы
Доверительные интервалы помогают определить точность оценки истинного среднего на основе выборочного среднего.
Основные свойства распределения и выборки при определении доверительного интервала:
1) выборочное среднее приблизительно удовлетворяет нормальному распределению со средним распределением m и стандартным отклонением
, где n – размер выборки;
2) в нормальном распределении около 95% значений попадают в диапазон двух стандартных отклонений от среднего. Пример: если s = 10, а n = 25, то выборочное среднее удовлетворяет нормальному распределению со средним m и стандартным отклонением 2. Т. е. с вероятностью 95% выборочное среднее попадает в диапазон отклонения на 4 единицы от m. Это значит, что если выборочное среднее равно 20, то m с вероятность 95% находится в диапазоне от 16 до 24. Этот диапазон называется доверительным интервалом. Для уменьшения доверительного интервала нужно увеличить размер выборки.
Нужно вычесть среднее распределение m из выборочного среднего и разделить частное на стандартную ошибку. Полученное значение удовлетворяет стандартному нормальному распределению и называется z-статистикой:
.
Для случайной переменной Z должно выполняться условие:
(1.1)
Формула расчета доверительного интервала с учетом z-статистики:
(1.2)
где m - среднее отклонение;
s - стандартное отклонение;
n – размер выборки;
P – вероятность попадания в центр распределения;
a - вероятность попадания в один из хвостов распределения (которая равна 1-P);
Z – случайная переменная. При P=0,95 и a=0.05 Þ ![]()
Рис. 1.1. Двустороннее z-значение
Т. о. верхняя и нижняя границы доверительного интервала для m равны
.
1.2. Проверка гипотез.
Метод проверки гипотез основан на создании теории изучаемого явления и проверке ее обоснованности с помощью статистических параметров. В статистике сначала формулируется теория, затем собираются данные, и выполняется проверка.
Алгоритм создания и проверки теории (рис. 1.2):

Рис. 1.2. Создание и проверка теории
Проверка гипотезы включает четыре основных элемента:
1. Формулировка нулевой гипотезы
.
2. Формулировка альтернативной гипотезы
.
3. Вычисление статистики теста.
4. Определение области непринятия гипотезы.
Нулевая гипотеза, или нуль-гипотеза
представляет используемую по умолчанию или общепринятую теорию изучаемых явлений. Нулевая гипотеза считается истинной, если только нет убедительных контраргументов.
Альтернативная гипотеза
представляет альтернативную теорию, которая автоматически считается истинной, если отвергается нулевая гипотеза.
Статистика теста — это статистика, вычисленная после анализа данных, которые используются для принятия или непринятия нулевой гипотезы.
Область (или диапазон) непринятия гипотезы — это набор значений статистики теста, для которых нулевая гипотеза отвергается (или принимается).
Типы ошибок
1. Ошибка первого типа заключается в отказе от нулевой гипотезы, которая на самом деле является истинной. Обозначение: a.
2. Ошибка второго типа заключается в принятии нулевой гипотезы, тогда как на самом деле истинной является альтернативная гипотеза. Обозначение: b.
В статистике используется предельное значение, которое называется уровнем значимости и является самым высоким значением, допускающим вероятность возникновения ошибки первого типа. Чаще всего для уровня значимости используется величина 0,05; т. е. если нулевая гипотеза верна, то данные попадают в этот диапазон непринятия с вероятностью 0,05, причем в таком случае нулевая гипотеза отвергается.
Области принятия и непринятия
Область непринятия гипотезы. Наоборот, значения внутри данного диапазона образуют область принятия гипотезы, т. е. при попадании значений выборочного среднего в эту область нулевая гипотеза принимается. Верхняя и нижняя границы области принятия гипотезы называются критическими значениями, так как занимают критически важное положение при определении приемлемости или неприемлемости нулевой гипотезы.
Попробуем применить эту формулу в данном примере, где m0 = 50, s = 15, n = 25, a= 0,05, т. е. вероятность возникновения ошибки первого типа равна 5%. Поэтому область принятия гипотезы вычисляется так:
граница области принятия =
.
Любое значение меньше 44,12 или больше 55,88 дает основание для отказа от нулевой гипотезы. Поскольку 45 попадает в область принятия гипотезы, то следует принять нулевую гипотезу и не считать, что внедрение нового технологического процесса снижает количество дефектных резисторов в партии.
Вероятность того, что некое значение так же экстремально, как и наблюдаемое заданное значение, называется p-значением и вычисляется при помощи z-значения:
. p-значение для одностороннего теста вычисляется как:
р-зачение=НОРМСТРАСП(z).
Если р меньше, чем a=0,05 (при 95% доверительном интервале), то нулевая гипотеза отвергается с уровнем значимости a, иначе нулевая гипотеза принимается.
ТЕМА 2: Регрессия и корреляция
2.1. Регрессия
В регрессионном анализе рассматривается связь между одной переменной, называемой зависимой переменной, и несколькими другими, называемыми независимыми переменными. Эта связь представляется с помощью математической модели, т. е. уравнения, которое связывает зависимую переменную с независимыми с учетом множества соответствующих предположений. Независимые переменные связаны с зависимой посредством функции регрессии, зависящей также от набора неизвестных параметров. Если функция линейна относительно параметров (но необязательно линейна относительно независимых переменных), то говорят о линейной модели регрессии. В противном случае модель называется нелинейной.
Статистическими проблемами регрессионного анализа являются:
1) получение наилучших точечных и интервальных оценок неизвестных параметров регрессии;
2) проверка гипотез относительно этих параметров;
3) проверка адекватности предполагаемой модели;
4) проверка множества соответствующих предположений.
Две причины использования регрессионного анализа:
1. Описание зависимости между переменными помогает установить наличие возможной причинной связи.
2. Для получения предиктора для зависимой переменной, т. к. уравнение регрессии позволяет предсказывать значения зависимой переменной по значениям независимых переменным.
Величина линейной зависимости между двумя переменными измеряется посредством простого коэффициента корреляции, величина линейной зависимости одной переменной от нескольких измеряется множественным коэффициентом корреляции.
Простая линейная взаимосвязь
При выполнении анализа линейной регрессии пытаются найти такую линию, которая наилучшим образом оценивает взаимосвязь между двумя переменными (зависимой переменной y и независимой переменной x). Такая линия называется подогнанной линией регрессии, а описывающее ее уравнение – уравнением регрессии.
Уравнение регрессии
Для подгонки линии регрессии используется уравнение вида:
, где y – зависимая переменная, значения которой нужно предсказать; х — независимая переменная, или предиктор, на основе которой нужно сделать предсказание; а и b — коэффициенты.
На рис. 2.1 показана линия с коэффициентами а = 10 и b = 2. Короткие вертикальные отрезки представляют собой ошибки или остатки, т. е. промежутки между подогнанной линией и точками. Остаток — это разность между наблюдаемыми и предсказываемыми значениями.
Если линия направлена вниз так, что при возрастании значений переменной х уменьшаются значения переменной у, то линия регрессии имеет отрицательный наклон. Например, если переменная х обозначает возраст автомобиля в годах, а переменная у — его цену, то в таком случае наклон обозначает ежегодное снижение цены. В этом примере пересечение регрессии обозначает цену нового автомобиля, а остатки представляют разницу между фактической и предсказанной ценой. Если при прочих равных условиях линия регрессии правильно моделирует ситуацию, то положительный остаток означает завышенную цену данного автомобиля, а отрицательный — заниженную (т. е. выгодное предложение).

Рис. 2.1. Подогнанная линия регрессии
В Excel предусмотрено несколько функций для оценки регрессии на основе метода наименьших квадратов. В табл. 2.1 описаны две такие функции:
Табл. 2.1. Функции Excel для оценки регрессии на основе метода наименьших квадратов

Например, если значения переменной у находятся в ячейках диапазона А2:А11, а значения переменной x — в ячейках диапазона В2:В11, то функция ОТРЕЗОК (А2:А11, В2:В11) вернет значение коэффициента а, а функция НАКЛОН(А2:А11, В2:В11) — значение коэффициента b.
Для создания диаграммы для анализа регрессии необходимо выбрать меню Вставка Þ Диаграмма Þ Точечная диаграмма Þ Выбрать необходимый диапазон для анализа, состоящий из зависимой и независимой переменных Þ Добавить линию регрессии
Рис. 2.2. Подогнанная линия регрессии
Величина R2 – величина достоверности аппроксимации, которая измеряет процентную долю изменчивости значений зависимой переменной, которая может объясняться изменениями независимой переменной. Величина R2 может изменяться от 0 до 1. В данном случае значение 0,7654 говорит о том, что изменчивость, составляющая 76,54% может объясняться изменениями от независимой переменной. Оставшаяся доля (23,46%) изменчивости может объясняться случайной изменчивостью.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 |


