Партнерка на США и Канаду по недвижимости, выплаты в крипто
- 30% recurring commission
- Выплаты в USDT
- Вывод каждую неделю
- Комиссия до 5 лет за каждого referral
Описание данных.
Данные взяты из журнала «Quattroruote» за сентябрь 2007года.
К анализу представлены 199 наблюдений над следующими переменными:
Цена (price) – стоимость автомобиля в $.
Тип (tipe) – индикатор производителя автомобиля, принимающий значение 1, если он отечественный и 2, если зарубежный.
Рабочий объем двигателя (OD) – величина, показывающая объем сжигаемого топлива за единицу времени, измеряется в см3.
Мощность (power) – величина, показывающая, какую работу двигатель совершает в единицу времени, измеряется в лошадиных силах (л. с.).
Время (time) – время, за которое автомобиль разгоняется до скорости 100 км/ч.
В ходе работы анализируется зависимость переменной Цена от остальных переменных (Тип, Рабочий объем двигателя, Мощность, Время).
Предварительные гипотезы.
Сформулируем ряд предположений, которые постараемся проверить в ходе работы:
К анализу представлены автомобиле двух Типов: отечественные и зарубежные. Скорее всего, у отечественных автомобилей зависимость Цены от остальных параметров будет выражены слабее, нежели у иномарок. Кроме того, вероятно, что зарубежные автомобили будут дороже. Между переменными Объем двигателя и Мощность существует зависимость. Предположим, что Объем двигателя и Мощность у иномарок превосходят отечественных автомобили. Вероятно, чем выше эти показатели, тем дороже машина. Сделаем предположение о том, что Время разгона машины зависит от ее Типа, так как иномарки, скорее всего, обладают большими Мощностью и Объемом двигателя, нежели отечественные автомобили. Предположим, что Время разгона влияет на Цену автомобиля. Чем меньше Время разгона, тем дороже должна быть машина.Разведочный анализ данных.
Построим и проанализируем диаграммы рассеяния для одной пары – (зависимая переменная, независимая переменная) при двух уровнях номинальной переменной.
Анализ диаграмм рассеяния.
Для каждого сочетания переменной Цена с переменными Объем двигателя, Мощность и Время разгона построим диаграмму рассеяния. По оси OY будем откладывать значения переменной Цена.
График1. Зависимость цены от объема двигателя.
тип1:

тип2:

Заметим, что у отечественных автомобилей зависимость цены от объема двигателя не прослеживается, так как у большей части этот показатель одинаков. У зарубежных автомобилей можно отметить положительную зависимость, что говорит в пользу предположения 2.
Можно отметить, что разброс точек по диаграмме не сильный, зависимость выражена достаточно ясно.
График 2. Зависимость цены от мощности
тип1:

тип2:

Из Графика 2 видно, что для отечественных автомобилей характерна мощность до 100 л. с., что вполне соответствует объему двигателя, приблизительно равному 1600 см3. Это подтверждает предположение 2. Кроме того, можно заметить, что, как и в случае с объемом двигателя на Графике 1, цена на автомобили меняется независимо от показателя. Для иномарок видна положительная зависимость цены от мощности, что говорит в пользу предположения 2.
Так же, можно заметить, что мощность иномарок превосходит отечественные автомобили, что тоже говорит в пользу предположения 2.
График 3. Зависимость цены от времени разгона.
тип1:

тип2:

Также видно, что для отечественных машин характерно в среднем одинаковое время разгона, не сильно влияющее на цену. В то же время у иномарок видна отрицательная зависимость цены от времени разгона, что говорит в пользу предположения 4. А так же на графике видно, что время разгона иномарок ниже, чем у отечественных автомобилей, что подтверждает предположение 3.
Построив несколько диаграмм рассеяния, мы получили предварительное представление о виде интересующей нас зависимости между переменными. Сопоставление диаграмм рассеяния позволяет предположить, что у зарубежных автомобилей связи выражены лучше и, таким образом, для одной и той же модели, для них дисперсия случайной составляющей будет меньше.
Проведение корреляционного анализа.
Проанализируем силу линейной зависимости «зависимой» переменной от «независимых».
Таблица1. Оценка корреляционной матрицы переменных участвующих в анализе для отечественных автомобилей.

Таблица2. Оценка корреляционной матрицы переменных участвующих в анализе для зарубежных автомобилей.

Таблица3. Оценка корреляционной матрицы переменных участвующих в анализе для всей выборки.

Интерпретация результатов.
Вспомним о сделанных в начале предположениях и сопоставим их с полученными результатами. Значимый и отрицательный коэффициент корреляции между ценой и временем разгона подтверждает предположение 4 о том, что цена уменьшается при увеличении времени разгона. Аналогичная зависимость прослеживается для объема двигателя у отечественных автомобилей. Довольно большой и значимый коэффициент корреляции между мощностью и ценой указывает на сильно выраженную линейную составляющую взаимосвязь между мощностью автомобиля и его стоимостью. Этот факт подтверждает предположение 2. Отрицательное значение коэффициента корреляции между временем разгона и ценой автомобиля говорит в пользу предположения 4.
Отметим, что коэффициенты корреляции у отечественных автомобилей меньше, нежели у иномарок. Это говорит в пользу предположения 1, где говорилось, что зависимость от параметров у наших автомобилей выражена слабее. Заметим, что коэффициент корреляции между объемом двигателя и мощностью довольно высок, что подтверждает предположение 2 об их взаимосвязи. То есть, чем больше объем двигателя автомобиля, тем большая у него мощность. Отрицательное значение коэффициента корреляции между мощностью и временем разгона показывает, что более мощный автомобиль разгоняется быстрее. Так же любопытно положительное, хоть и небольшое, значение коэффициента корреляции между объемом двигателя и временем разгона у отечественных автомобилей (таблица 1), так как это достаточно нелогично.
Построение линейной регрессионной модели.
Следующая часть работы посвящена построению регрессионных моделей, основанных на результатах корреляционного анализа:
- «Зависимая» переменная Цена имеет достоверную линейную зависимость от всех «независимых» переменных. Так как все «независимые» переменные коррелируют друг с другом, при построении моделей, содержащих больше одной «независимой» переменной, необходимо учитывать взаимодействия между ними.
Модель №1.
Построение регрессионной модели начнем с простейшей одномерной регрессии. В качестве объясняющей переменной выберем Мощность, поскольку его коэффициент корреляции с переменной Цена максимален по абсолютной величине относительно других «независимых» переменных.
таким образом мы изначально остановились на модели Цена = а0+а1*Мощность+v.
Таблица результатов оценивания имеет вид:
Таблица 4. Результаты оценивания модели №1.

Вычисленные р-значения позволяют при выполнении нормальной гипотезы отклонить гипотезу о не значимости и принять альтернативную о том, что все коэффициенты значимы с вероятностью ошибки первого рода менее 5%. Подставив оценки для коэффициентов в модель, получим
Цена = -1498192 + 15846,23*Мощность + v
Общее представление о качестве модели дает следующий график EViews:
График 4. Визуальный анализ качества модели №1.

Поскольку подогнанные значения (Fitted) расположены достаточно близко к истинным (Actual), можно предположить, что модель в целом соответствует данным. И все же есть ряд изменений, которые плохо описываются моделью.
Дадим краткую экономическую интерпретацию полученным результатам. Коэффициенты линейной регрессии определяют приращение цены при положительном изменении значения независимой переменной на одну единицу. Таким образом, при увеличении мощности автомобиля на одну лошадиную силу, его цена увеличивается в среднем на 15846$. Несколько сложнее дать интерпретацию константе. Прежде всего отметим, что наша модель достаточно примитивна и не учитывает большого числа критических факторов. Тем не менее, попытаемся проанализировать ситуацию. Заметим, что переменная Мощность не является относительной, поскольку для нее не определено значение «0», так как машин с нулевой мощностью не существует. Таким образом эта переменная, скорее всего, должна иметь некое минимальное допустимое положительное значение. Следовательно, константу нельзя связать с ситуацией, когда независимая переменная принимает значение «0». С другой стороны можно предположить существование автомобилей с очень низкой ценой, которой сопутствует определенное «неблагоприятное» значение мощности. Можно даже предположить, что это является причиной низкой цены. Таким образом, константа может определять множество таких «неблагоприятных» ситуаций. В данном случае 1498192 = 15846,23*Мощность и критическая мощность равна приблизительно 95 л. с. Отметим, что приведенные соображения в практической ситуации, безусловно, нуждаются в обсуждении со специалистом.
Проанализируем апостериорные остаточные разности. Прежде всего отметим, что статистика Дарбина-Уотсона приблизительно равна 0,5. Это означает, что наличие корреляции ближайших по номеру случайных составляющих весьма вероятно. Построим график нормальной кривой:
График 5. Анализ вида распределения с помощью нормальной кривой в модели №1.

Отчетливо видна асимметрия влево, то есть модель переоценивает истинную цену.
Проанализируем наличие гетероскедастичности.
Таблица 5. Проверка наличия гетероскедастичности с помощью критерия Уайта в модели №1.

Тест Уайта с учетом взаимодействий (приведена основная часть таблицы) позволяет отвергнуть гипотезу об ее отсутствии на 5% уровне, поскольку Probability<0,05. Таким образом есть основания для пересмотра значимости оценок параметров линейной регрессии.
Если заново определить значимость полученных оценок параметров линейной регрессии с использованием состоятельных оценок их дисперсий в форме Невье-Веста, то получится:

Модель №2.
Добавим в модель переменную Объем двигателя, которая имеет следующий по величине коэффициент корреляции с зависимой переменной и остановимся на модели Цена = а0 + а1*Мощность + а2*Объем двигателя + v. Таблица результатов оценивания имеет вид:
Таблица 6. Результаты оценивания модели №2.

Вычисленные р-значения позволяют при выполнении нормальной гипотезы отклонить гипотезу о не значимости и принять альтернативную о том, что все коэффициенты значимы с вероятностью ошибки первого рода менее 5%. Подставив оценки для коэффициентов в модель, получим:
Цена = -1120433 + 20288,23*Мощность – 462,35*Объем двигателя + v.
Общее представление о качестве модели дает следующий график:
График 6. Визуальный анализ качества модели №2.

Поскольку подогнанные значения (Fitted) расположены достаточно близко к истинным (Actual), можно предположить, что модель в целом соответствует данным. И все же есть ряд изменений, которые плохо описываются моделью.
Дадим краткую экономическую интерпретацию полученным результатам. Коэффициенты линейной регрессии определяют приращение цены при положительном изменении значения независимой переменной на одну единицу. Таким образом, при увеличении мощности автомобиля на одну лошадиную силу, его цена увеличивается в среднем на 20000 - 21000$. Объем двигателя оказывает отрицательное влияние: при увеличении его на один см3 цена автомобиля уменьшается приблизительно на 462-463$. Тем не менее не следует забывать, что объем двигателя оказывает влияние на мощность автомобиля, так как его увеличение является одним из способов увеличения мощности, что следует из результатов корреляционного анализа. Несколько сложнее дать интерпретацию константе. Прежде всего отметим, что наша модель достаточно примитивна и не учитывает большого числа критических факторов. Тем не менее, попытаемся проанализировать ситуацию. Отметим, что переменные Мощность и Объем двигателя, по сути, не являются относительными, поскольку для них не определено значение «0». Не существует автомобиля с нулевой мощностью или нулевым объемом двигателя. Таким образом, обе переменные, скорее всего, имеют некоторые минимальные допустимые положительные значения. Следовательно, константу нельзя связать с ситуацией, когда независимые переменные принимают значение «0». С другой стороны, можно предположить существование автомобилей с критически низкой ценой, которой сопутствуют определенные «неблагоприятные» сочетания мощности и объема двигателя автомобиля. Можно даже предположить, что они будут являться причиной низкой цены. Таким образом константа может определять множество таких «неблагоприятных» сочетаний. В данном случае: 1120433 = 20288,23*Мощность – 462,35*Объем двигателя. Отметим, что приведенные соображения в практической ситуации, безусловно, нуждаются в обсуждении со специалистом.
Проанализируем апостериорные остаточные разности. Прежде всего отметим, что статистика Дарбина-Уотсона приблизительно равна 0,6. Это означает, что наличие корреляции ближайших по номеру случайных составляющих весьма вероятно. Построим график нормальной кривой:
График 7. Анализ вида распределения с помощью нормальной кривой в модели №2.

Отчетливо видна асимметрия влево, то есть модель переоценивает истинную цену.
Проанализируем наличие гетероскедатичности.
Таблица 7. Проверка наличия гетероскедастичности с помощью критерия Уайта в модели №2.

Тест Уайта с учетом взаимодействий (приведена основная часть таблицы) позволяет отвергнуть гипотезу об ее отсутствии на 5% уровне, поскольку Probability<0,05. Таким образом есть основания для пересмотра значимости оценок параметров линейной регрессии.
Если заново определить значимость полученных оценок параметров линейной регрессии с использованием состоятельных оценок их дисперсий в форме Невье-Веста, то получится:

Построенная модель превосходит Модель №1 по качеству с точки зрения соотношения точность/простота. Статистики Акаики и Шварца имеют здесь меньшее значение, а статистика R2 – большее. Следовательно, усложнение модели было целесообразно.
Модель №3.
Дополним модель последней переменной – Время разгона. Приведем результаты расчетов.
Таблица 8. Результаты оценивания модели №3.

График 8. Визуальный анализ качества модели №3.

Отметим, что данный график мало отличается от Графика 6, в частности, расположение выбросов приблизительно одинаковое.
График 9. Анализ вида распределения с помощью нормальной кривой в модели №3.

По сравнению с Графиком 7 асимметрия стала меньше.
Проанализируем наличие гетероскедатичности.
Таблица 9. Проверка наличия гетероскедастичности с помощью критерия Уайта в модели №2.

Тест Уайта с учетом взаимодействий (приведена основная часть таблицы) позволяет отвергнуть гипотезу об ее отсутствии на 5% уровне, поскольку Probability<0,05. Таким образом есть основания для пересмотра значимости оценок параметров линейной регрессии.
Если заново определить значимость полученных оценок параметров линейной регрессии с использованием состоятельных оценок их дисперсий в форме Невье-Веста, то получится:

Используя тот же критерий, что и в моделях №1 и 2 мы можем отметить, что статистика Дарбина-Уотсона близка к 1. Это означает, что наличие корреляции ближайших по номеру случайных составляющих весьма вероятно.
Рассмотрим последствия включения в модель данных о времени разгона. В полном соответствии с результатами визуального анализа и анализа корреляционных матриц мы видим, что при выполнении теории о нормальности случайной составляющей видно положительное влияние времени разгона на цену автомобиля.
Отметим, что значение статистики Шварца несколько уменьшилось Schwarz criterion=30.0033 (30.21327), так же, как и значение статистики Акаике Akaike info criterion=29.93714 (30.16362). Значение R2 увеличилось Adjusted R-squared=0.824250 (0.77735). Таким образом, построенная модель превосходит модель №2 по качеству с точки зрения соотношения точность/простота.
Модель №4.
Рассмотрим еще один интересный вариант линейной регрессии. Можно предположить, что Объем двигателя – неоднозначная характеристика автомобиля. Мы уже знаем, что мощность автомобиля – значимая характеристика. Два автомобиля с одинаковым объемом двигателя могут обладать различной мощностью, в зависимости от других технических характеристик. Проверим это предположение. С точки зрения модели оно сводится к тому, что коэффициент линейной регрессии для объема двигателя зависит от мощности. Например, это может выглядеть так:
Цена = с + (a + b*Объем двигателя)*Мощность + v = c + a*Мощность + b*Объем двигателя*Мощность + v.
Результаты расчетов показывают следующее.
Таблица 10. Результаты оценивания модели №4.

График 10. Визуальный анализ качества модели №4.

График 11. Анализ вида распределения с помощью нормальной кривой в модели №4.

Таблица 11. Анализ наличия гетероскедастичности в модели №4.

Тест Уайта с учетом взаимодействий (приведена основная часть таблицы) позволяет отвергнуть гипотезу об ее отсутствии на 5% уровне, поскольку Probability<0,05. Таким образом, есть основания для пересмотра значимости оценок параметров линейной регрессии.
Если заново определить значимость полученных оценок параметров линейной регрессии с использованием состоятельных оценок их дисперсий в форме Невье-Веста, то получится:

Видно, что качество модели, судя по основным ее характеристикам, улучшилось по сравнению с моделью №2. Таким образом, эта модель так же имеет право на существование.


