Курс лекций для заочного отделения по дисциплине «Анализ данных» (стр. 2 )

Для анализа регрессии используется инструменты модуля Пакет анализа (Analysis ToolPak) Þ Регрессия.

Рис. 2.3. Результат выполнения команды Регрессия из пакета анализа данных

Интерпретация параметров регрессии

- статистические параметры регрессии

Регрессионная статистика
Множественный R	(Коэффициент множественной корреляции) описывает корреляцию между предсказываемой переменной и линейной комбинацией предикторов
R-квадрат	Величина достоверности аппроксимации
Нормированный R-квадрат	Для анализа регрессии с несколькими предикторами
Стандартная ошибка	Типичное отклонение (x,y) от линии регрессии
Наблюдения	Размер выборки

- результат анализа изменчивости

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	2599.534	2599.534	45.66847	9.20184E-06
Остаток	14	796.9058	56.92184
Итого	15	3396.439

df – количество степеней свободы

SS – значения суммы квадратов. Общая сумма квадратов в ячейке на пересечении со строкой Итого содержит сумму квадратов отклонений уровня зависимой переменной от среднего. Общая сумма квадратов складывается из двух частей: одна определяется изменениями линии регрессии, а другая связана с хаотичными изменениями и указана в ячейке на пересечении со строкой Остаток.

MS – результат деления суммы квадратичных отклонений на количество степеней свободы (для определения стандартной ошибки).

F – результат отношения среднеквадратического значения для регрессии и среднеквадратического значения для остатков. Большая величина F - отношения означает большую статистическую значимость регрессии.

НЕ нашли? Не то? Что вы ищете?

- оценка статистических параметров

(см. предыдущую тему)

- остатки и предсказываемые значения

Наблюдение	Предсказанное	Остатки	Стандартные остатки
1	53.	14.	1.
…	…	…	…
16	99.	3.	0.458916

Остаток – разность между наблюдаемыми значениями и линией регрессии (предсказываемыми значениями).

Стандартные остатки – нормированные остатки, которые не зависят от исходной единицы измерения.

где n – количество наблюдений в наборе данных

2.2. Корреляция

Корреляция выражает силу взаимосвязи по безразмерной шкале от -1 до 1 (величина наклона в уравнении регрессии, зависящая от единицы измерения данных).

Положительная корреляция означает сильную положительную взаимосвязь, т. е. увёличение одной переменной вызывает увеличение другой переменной (рис. 2.4). Например, такая корреляция наблюдается между ростом и весом человека. Отрицательная корреляция означает сильную отрицательную взаимосвязь, т. е. увеличение одной переменной вызывает уменьшение другой переменной (см. рис. 2.4). Например, увеличение цены товара может сопровождаться уменьшением объема продаж. Близкая к нулю корреляция означает, что между двумя переменными нет никакой взаимосвязи. Кроме того, между переменными может существовать нелинейная взаимосвязь, которая характеризуется нулевой корреляцией.

Рис. 2.4. Примеры корреляции

Наклон корреляции может выражаться любым действительным числом, но корреляция всегда должна быть в промежутке от — 1 до +1. Корреляция + 1 означает, что все точки данных падают точно на одну линию с положительным наклоном. В таком случае все остатки равны нулю, а подогнанная линия регрессии точно проходит через все точки.

Для вычисления корреляции в Ехсеl предусмотрено несколько функций, некоторые из них перечислены в табл. 2.2.

Табл.2.2. Функции вычисления корреляции

Матрица корреляции

При наличии нескольких переменных полезно вычислить корреляцию между переменными. Таким образом, можно сразу же получить представление о взаимосвязи между переменными, определяя пары переменных с сильной и слабой связью. Один из способов анализа таких данных заключается в создании матрицы корреляции, в которой значения корреляции (и соответствующие р-значения) располагаются в квадратной решетке.

Для создания матрицы корреляции используется меню StatPlus Þ Multivariate Analysis Þ Correlation Matrix (StatPlus Þ Многовариантный анализ Þ Матрица корреляции).

Рис. 2.5. Матрица корреляции

2.3. Множественная регрессия

Множественная регрессия позволяет оценивать статистические отношения между двумя и более переменными. Множественная регрессия также позволяет составлять уравнения, в которых значение одной из переменных (зависимой переменной) может быть предсказано на основе значений одной или нескольких независимых переменных. Метод множественной регрессии используется для прогнозирования значений любых числовых показателей (например, цен, объемов продаж) на основе значений других числовых показателей.

Уравнение множественной регрессии записывается следующим образом:

где Y – зависимая переменная, значение которой может быть предсказано на основе значений независимых переменных .

Для четырех независимых переменных уравнение множественной регрессии записывается следующим образом:

Где коэффициенты - неизвестные параметры,

e - случайная ошибка с нормальным распределением со средним 0 и дисперсией .

Учтите, что предикторы могут быть функциями переменных, как в показанных ниже примерах моделей множественной регрессии.

Полиномиальная:

Тригонометрическая:

Логарифмическая:

Обратите внимание: все эти уравнения являются примерами линейных моделей, даже несмотря на использование в них тригонометрических и логарифмических функций. Слово “линейный” в определении линейная модель относится к коэффициентам и случайной ошибке e, т. е. данные уравнения линейны по отношению к этим значениям. Например, можно создать новые переменные l=sin(x) и k=cos(x), а затем еще одну модель на основе линейного уравнения у=b0+b1l+b2k+e.

После вычисления оценок для коэффициентов придется вставить их в уравнение для предсказания значений переменной y. Тогда оценочная модель регрессии выражается следующей формулой:

где — оценки коэффициентов , а остаток соответствует случайной ошибке e.

Одной из задач анализа регрессии является предсказание значений.

2.4. Нелинейная регрессия

Любая модель, вид которой не совпадает с уравнением линейной регрессии , называется моделью нелинейной регрессии и может быть представлена в виде

, i=1,…, n,

Где f( ) – нелинейная функция параметров ,

- некоррелированная ошибка.

Пример нелинейной функции и др.

ТЕМА 3: Временные ряды

Временной ряд — это последовательность наблюдений, зафиксированных в последовательные моменты времени, (например ежедневная температура, ежемесячные показатели стоимости ценных бумаг, ежеквартальные доходы или ежегодное потребление энергии). Анализ временных рядов включает поиск закономерности, которая помогла бы понять характер изменения данных и предсказать будущие наблюдения. Для некоторых временных рядов наблюдаются так называемые сезонные изменения, например, ежемесячные колебания объема продаж. Учет сезонных изменений имеет большое значение для точности предсказания.

Обычно наилучший способ анализа временных рядов — это создание диаграммы зависимости данных от времени для отображения тренда, сезонных изменений и выбросов.

Перед началом любых вычислений с временным рядом рекомендуется исследовать его графическими средствами:

команда меню Вставка – Диаграмма.

Рис. 3.1. Диаграмма временного ряда

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Курс лекций для заочного отделения по дисциплине «Анализ данных» (стр. 2 )

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы