Общие замечания

Откройте статовский файл с помощью выбора опций File/open.

Если файл большой, то предварительно добавляйте память с помощью команды set memory 500m

Все, что возникает на экране компьютера, рекомендуется записывать в лог-файл.

Его можно открыть с помощью опций File/Log/Begin,

Закрыть с помощью опций File/Log/Close

Оценка регрессий в пакете STATA

Для запуска пакета STATA достаточно дважды кликнуть левой кнопкой мышки по значку вашего файла с данными. Откроется 4 окна: Variables, Results, Command, Review.

Откройте необходимый файл с помощью выбора в главном меню команд

File/Open …

Если этот файл не открывается из-за нехватки памяти, то предварительно наберите в командном окне

Set memory …m

На месте точек – объем памяти, больший размера открываемого файла.

В окне Variables появятся имена содержащихся в файле переменных,

в окне Command набираются необходимые команды, копируемые в окно Review,

в окне Results после выполнения команды появляются результаты.

Вы можете выбрать удобное расположение окон с помощью пунктов меню Prefs и Window.

Оценка множественной регрессии

Множественной регрессией называется условное математическое ожидание  переменной Y как функция от  переменных X2,…,Xk.

Модель множественной линейной регрессии имеет вид:

, i = 1,…, n,

где n – число наблюдений, - независимые переменные, Y – зависимая переменная, ε – случайная составляющая, - коэффициенты регрессии.

Для нахождения оценок параметров используется метод наименьших квадратов (МНК), сводящийся к минимизации по суммы квадратов отклонений

НЕ нашли? Не то? Что вы ищете?

.

Оценки МНК параметров являются решениями системы нормальных уравнений:

,

где , I – единичный вектор - столбец размерности n,

, j = 2,…,k,

Если случайные величины при всех являются некоррелированными и ~, i = 1,…, n, X2,…,Xk являются детерминированными, то случайная величина , имеет распределение Стьюдента с n-k степенями свободы.

Гипотеза о конкретном значении коэффициента,

при двусторонней альтернативной гипотезе

проверяется с помощью тестовой статистики:

.

Если , где - выбранный уровень значимости, то основная гипотеза отвергается.

Если же альтернативная гипотеза односторонняя (), то основная гипотеза отвергается при ().

Проверка гипотезы о равенстве коэффициента, нулю (обычно при двусторонней альтернативной гипотезе) называется проверкой гипотезы о значимости этого коэффициента. Если гипотеза о равенстве нулю коэффициента не отвергается, то этот коэффициент называется незначимым.

При оценке регрессии статистическими пакетами Excel, Eviews, STATA, SPSS и др. автоматически проводится проверка гипотез о значимости коэффициентов. Для тестовой t – статистики вычисляется p - value (p - значение) – минимальный уровень значимости, при котором основная гипотеза отвергается. Если p – value превышает выбранный уровень значимости, то основная гипотеза (о равенстве коэффициента 0) не отвергается.

Если коэффициент является незначимым, то между переменной Xj, и переменной Y не существует статистически значимой линейной зависимости. Если коэффициент,является значимым, то его оценка интерпретируется следующим образом: при увеличении Xj на одну единицу Y изменяется на j единиц (в сторону увеличения при положительном j и уменьшения при отрицательном j) .

Очень важна проверка гипотезы об адекватности регрессии в целом.

Если гипотеза

отвергается в пользу альтернативной гипотезы

,

(при выбранном уровне значимости ), то регрессия

является адекватной.

Проверка гипотезы об адекватности регрессии проводится с помощью F - статистики Фишера с числом степеней свободы (k, n - k)

Значение тестовой статистики рассчитывается по формуле (где - объясненная с помощью регрессии сумма квадратов отклонений от среднего, - сумма квадратов остатков регрессии) и сравнивается с критическим (при выбранном уровне значимости ). Если рассчитанное значение F- статистики превышает критическое, то гипотеза отвергается.

Гипотеза об адекватности регрессии также автоматически проверяется статистическими пакетами Excel, Eviews, STATA, SPSS и др., выдается значение тестовой F-статистики и соответствующее p – value. Если p – value меньше выбранного уровня значимости, то регрессия является адекватной и можно интерпретировать оценки коэффициентов регрессии.

Показателем качества подгонки регрессии является коэффициент множественной детерминации R2, рассчитываемый по формуле , где - сумма квадратов отклонений от среднего. R2 изменяется в пределах [0; 1] и характеризует долю выборочной дисперсии Y, оцененной с помощью регрессии.

Чем ближе R2 к 1, тем лучше качество подгонки регрессии. Однако R2 в качестве показателя качества подгонки регрессии обладает существенным недостатком: R2 никогда не убывает при добавлении независимой переменной в уравнение регрессии. Однако при добавлении независимой переменной в уравнение регрессии может увеличиться дисперсия оценок коэффициентов, некоторые коэффициенты могут стать незначимыми.

Для устранения указанного недостатка вводится другой показатель качества оценки регрессии - коэффициент множественной детерминации, скорректированный на число степеней свободы .

Отметим, что R2 является показателем качества подгонки регрессии только в том случае, когда в определенной выше матрице X есть единичный столбец (в этом случае говорят, что в уравнение регрессии включена константа) или единичный столбец является линейной комбинацией столбцов матрицы Х.

R2 и выдаются при оценке регрессии с помощью МНК любыми статистическими пакетами.

Моделирование продаж одежды

В файле clothing. dta содержатся данные о продажах одежды в 400 голландских магазинах мужской одежды. Эти данные позаимствованы с сайта издательства книги Марно Вербика [4] http:///go/verbeek2ed.

Переменные:

tsales – среднегодовые продажи в гульденах,

sales - продажи в расчете на квадратный метр,

margin – маржинальная валовая прибыль,

nown – количество собственников (менеджеров),

nfull – количество полностью занятых работников,

npart - количество частично занятых работников,

naux – количество временно работающих,

hoursw – общее число отработанных часов,

hourspw – количество отработанных часов в расчете на одного работающего,

inv1 – капиталовложения в помещения,

inv2 - капиталовложения в автоматизацию,

ssize – размер магазина в м2,

start – год открытия магазина.

1) Оцените параметры уравнения множественной регрессии

.

2) Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по-отдельности.

3) Влияет ли общее число отработанных часов и размер магазина на продажи в расчете на квадратный метр (и каким образом)?

4) Улучшится ли качество подгонки регрессии при включении в модель переменной nown? А переменной npart? Поэкспериментируйте и с включением других переменных.

Методические рекомендации по выполнению упражнения 2

1) Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA».

2) Для оценки параметров уравнения регрессии

методом наименьших квадратов наберите в командном окне последовательно:

reg sales hoursw ssize

reg sales hoursw ssize nown

reg sales hoursw ssize npart

3) Проверьте адекватность регрессии с помощью p-value для F-статистики. Если p-value меньше выбранного Вами уровня значимости, например, 0.05, то регрессия адекватна.

4) Проверьте значимость коэффициентов бета, сравнивая рассчитанные для них значения p-value с выбранным уровнем значимости. Если p-value меньше выбранного Вами уровня значимости, то соответствующий коэффициент значим.

5) Если при включении дополнительной переменной увеличивается, то модель при включении этой переменной становится лучше.

Проверка гипотез

Для коэффициентов регрессии гипотеза о существовании r линейно независимых ограничений на коэффициенты регрессии

,

где Q – матрица ранга r, - вектор коэффициентов регрессии, q – r –мерный постоянный вектор

при альтернативной гипотезе

проверяется с помощью F – статистики, вычисляемой по формуле:

,

где RSSUR - сумма квадратов остатков в регрессии без ограничений,

а RSSR - сумма квадратов остатков в регрессии с инкорпорированными в уравнение регрессии ограничениями.

При выполнении нулевой гипотезы тестовая статистика имеет F – распределение со степенями свободы (r, nk).

Если рассчитанное значение F – статистики не превышает критическое , то основная гипотеза не отвергается.

Зависимость длительности обучения индивида от его способностей и длительности обучения родителей

Для выполнения приведенных ниже упражнений используются данные файла Dougherty. dta.

1.1 Проверка гипотезы об адекватности модели

Переменные:

S – длительность обучения индивида, SM - длительность обучения мамы индивида, SF длительность обучения отца индивида, ASVABC – обобщенный показатель способностей индивида, рассчитанный по результатам тестов.

1) Оцените параметры уравнения множественной регрессии

2) Сформулируйте гипотезу об адекватности регрессии. Является ли построенная регрессия адекватной?

3) Дайте экономическую интерпретацию полученным результатам.

1.2 Зависимость длительности обучения индивида от его способностей

1) Влияет ли на длительности обучения индивидуума длительность обучения его родителей (или только его способности)? Для ответа на этот вопрос оцените параметры уравнения множественной регрессии

.

2) Проверьте гипотезу об одновременном равенстве коэффициентов и нулю:

при альтернативной гипотезе

.

1.3 В равной ли степени родители влияют на длительность обучения индивида?

Для ответа на этот вопрос проверьте гипотезу о равенстве коэффициентов и в предыдущей модели:

при альтернативной гипотезе

1.4 Правильно ли выбраны веса в показателе, характеризующем способности индивида?

Значения переменной, характеризующей способности индивида, рассчитывались следующим образом: , где

ASVAB02 – результаты теста по арифметике,

ASVAB03 – результаты теста по правописанию,

ASVAB04 – результаты теста по пониманию прочитанного материала.

Оценив параметры уравнения множественной регрессии ,

проверьте, правильно ли были выбраны веса в переменной ASVABC?

Для этого проверьте гипотезу:

при альтернативной гипотезе

H1: гипотеза H0 не имеет места.

Методические рекомендации по выполнению упражнения 1

Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA»

1) Наберите в командном окне

reg S ASVABC SM SF

Найдите в появившейся таблице F-статистику, сравните p-value для F-статистики с выбранным уровнем значимости. Если p-value меньше выбранного уровня значимости, например, 0.05, то регрессия является адекватной.

2) Для проверки гипотезы о равенстве коэффициентов при переменных SM и SF одновременно 0 в командном окне следует набрать:

test SM SF

и сделать вывод с помощью p-value для F-статистики. Если p-value меньше выбранного уровня значимости, то гипотеза H0 отвергается.

3) Гипотеза о равенстве коэффициентов при переменных SM и SF может быть проверена аналогично предыдущей, только в последнем окне следует набрать команду

test (SM= SF)

4) Оцените регрессию, набрав в командном окне

reg S ASVAB02 ASVAB03 ASVAB04 SM SF

Гипотеза о правильности выбора весов может быть проверена с помощью команды

test (ASVAB02=2*ASVAB03) (ASVAB03= ASVAB04)

Проверка гипотезы о постоянной отдаче от масштаба для функции Кобба – Дугласа

В файле CobbDouglas. dta содержатся данные о 569 бельгийских фирмах.

Переменные:

Output – добавленная стоимость (в млн. евро),

Capital – общая стоимость основных фондов (в млн. евро),

Labor – количество рабочих,

Wage – затраты на заработную плату в расчете на одного рабочего (в тыс. евро).

Оцените регрессию

по данным файла CobbDouglas. dta и

проверьте гипотезу о постоянной отдаче от масштаба

при альтернативной гипотезе

.

Методические рекомендации по выполнению упражнения 2

1) Создайте новые переменные, набрав в командном окне поочередно

gen lnQ = log(output)

gen lnK = log(capital)

gen lnL = log(labor)

(если Вы не сохранили эти переменные после выполнения упражнения 3.1.3)

2) Оцените параметры уравнения регрессии с помощью команды

reg lnQ lnL lnK

3) Для проверки гипотезы в командном окне следует набрать:

test (lnL+lnK=1)

и сделать вывод с помощью p-value для F-статистики. Если p-value меньше выбранного уровня значимости, то гипотеза H0 отвергается.

Выбор между моделями с помощью теста Бокса-Кокса

Выбор между линейной и полулогарифмической моделями зависимости заработной платы от образования и способностей индивидуума в Америке

По данным файла Dougherty. dta, оцените параметры регрессии

Проведя тест Бокса – Кокса, найдите оценки параметров и интерпретируйте полученные результаты.

Методические рекомендации по выполнению упражнения

1) Тест Бокса – Кокса

Методические рекомендации

Наберите в командном окне

boxcox имя зависимой переменной имена независимых переменных, model (theta)

если Вы хотите преобразовать переменные левой и правой части по-отдельности или

boxcox имя зависимой переменной имена независимых переменных, model (lambda)

если Вы хотите преобразовать переменные левой и правой части одинаково или

boxcox имя зависимой переменной имена независимых переменных, model (lhsonly)

если Вы хотите преобразовать только зависимую переменную или

boxcox имя зависимой переменной имена независимых переменных, model (rhsonly)

если Вы хотите преобразовать только независимые переменные.

Внизу выдаются значения параметров и тестируются гипотезы о равенстве параметра

левой и/или части 0 (логарифмическая спецификация) или 1 (линейная спецификация).

Исследование структурной устойчивости коэффициентов регрессии с помощью теста Чоу (Chow)

Предположим, у нас есть две выборки, объема n1 и n2 соответственно для одного и того же набора переменных. По каждой выборке мы оцениваем коэффициенты уравнения регрессии:

, i = 1,…, n1,

, i = n1+ 1,…, n1+n2.

Нас интересует ответ на вопрос: что лучше, оценивать модель по объединенной выборке или по каждой выборке в отдельности?

Для проверки гипотезы

, , (т. е. лучше оценивать модель по объединенной выборке)

при альтернативной гипотезе

или (т. е. лучше оценивать модели по каждой выборке в отдельности)

Используется тест Чоу.

Тестовая статистика имеет вид:

,

где RSS1 – сумма квадратов остатков регрессии, оцененной по n1 наблюдениям,

RSS2 – сумма квадратов остатков регрессии, оцененной по n2 наблюдениям,

RSSP – сумма квадратов остатков регрессии, оцененной по всем наблюдениям.

При выполнении нулевой гипотезы тестовая статистика имеет F – распределение со степенями свободы .

Если рассчитанное значение F – статистики не превышает критическое , то основная гипотеза не отвергается, зависимость можно считать единой для двух наборов данных.

Различия в потреблении Россиянами основных типов продуктов

Используйте данные файла 2.3.

1)  Оцените зависимость потребления одного из видов товаров Y от его цены P и дохода домохозяйства I с помощью модели:

или .

2) Оцените коэффициенты регрессии по двум выборкам, например,

А) для жителей двух различных типов населенных пунктов (2 – город, 3 –поселок городского типа),

Б) для жителей двух различных административных образований (например, Москвы и Московской области)

В) Центрального и Северо-Западного округов

и общую.

3) С помощью теста Чоу ответьте на вопрос, можно ли считать, что для двух выделенных видов домохозяйств имеет место единая зависимость?

Методические рекомендации по выполнению упражнения 7.5

Предположим, Вы хотите оценить функцию спроса на картофель в виде линейной в логарифмах модели.

Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA».

1)  Создайте новую переменную, набрав в командном окне

gen lnpotat_c = log(buypotat_c)

2)  Аналогично создайте логарифмы остальных необходимых переменных

3)  Если Вы хотите оценить регрессию только для домохозяйств Центрального округа, то следует набрать команду:

reg lnpotat_c lnpr_potat lninc if fed_okr ==1

(сохраните RSS с помощью команды scalar rss1=e(rss)),

если для домохозяйств Северо-Западного округа, то:

reg lnpotat_c lnpr_potat lninc if fed_okr ==2

(сохраните RSS с помощью команды scalar rss2=e(rss)),

для оценки объединенной по двум округам регрессии

reg lnpotat_c lnpr_potat lninc if fed_okr ==1| fed_okr ==2

(сохраните RSS с помощью команды scalar rssp=e(rss)),

4)  Используя RSS из оцененных регрессий, следует рассчитать тестовую F – статистику

scalar F=((rssp-rss1-rss2)/3)/(rss1+rss2)/(306-2*3))

display F

и сравнить ее с критическим значением. Если рассчитанное значение F – статистики не превышает критическое , то основная гипотеза не отвергается, зависимость можно считать единой для двух наборов данных.

Основные порталы (построено редакторами)

Домашний очаг

ДомДачаСадоводствоДетиАктивность ребенкаИгрыКрасотаЖенщины(Беременность)СемьяХобби
Здоровье: • АнатомияБолезниВредные привычкиДиагностикаНародная медицинаПервая помощьПитаниеФармацевтика
История: СССРИстория РоссииРоссийская Империя
Окружающий мир: Животный мирДомашние животныеНасекомыеРастенияПриродаКатаклизмыКосмосКлиматСтихийные бедствия

Справочная информация

ДокументыЗаконыИзвещенияУтверждения документовДоговораЗапросы предложенийТехнические заданияПланы развитияДокументоведениеАналитикаМероприятияКонкурсыИтогиАдминистрации городовПриказыКонтрактыВыполнение работПротоколы рассмотрения заявокАукционыПроектыПротоколыБюджетные организации
МуниципалитетыРайоныОбразованияПрограммы
Отчеты: • по упоминаниямДокументная базаЦенные бумаги
Положения: • Финансовые документы
Постановления: • Рубрикатор по темамФинансыгорода Российской Федерациирегионыпо точным датам
Регламенты
Термины: • Научная терминологияФинансоваяЭкономическая
Время: • Даты2015 год2016 год
Документы в финансовой сферев инвестиционнойФинансовые документы - программы

Техника

АвиацияАвтоВычислительная техникаОборудование(Электрооборудование)РадиоТехнологии(Аудио-видео)(Компьютеры)

Общество

БезопасностьГражданские права и свободыИскусство(Музыка)Культура(Этика)Мировые именаПолитика(Геополитика)(Идеологические конфликты)ВластьЗаговоры и переворотыГражданская позицияМиграцияРелигии и верования(Конфессии)ХристианствоМифологияРазвлеченияМасс МедиаСпорт (Боевые искусства)ТранспортТуризм
Войны и конфликты: АрмияВоенная техникаЗвания и награды

Образование и наука

Наука: Контрольные работыНаучно-технический прогрессПедагогикаРабочие программыФакультетыМетодические рекомендацииШколаПрофессиональное образованиеМотивация учащихся
Предметы: БиологияГеографияГеологияИсторияЛитератураЛитературные жанрыЛитературные героиМатематикаМедицинаМузыкаПравоЖилищное правоЗемельное правоУголовное правоКодексыПсихология (Логика) • Русский языкСоциологияФизикаФилологияФилософияХимияЮриспруденция

Мир

Регионы: АзияАмерикаАфрикаЕвропаПрибалтикаЕвропейская политикаОкеанияГорода мира
Россия: • МоскваКавказ
Регионы РоссииПрограммы регионовЭкономика

Бизнес и финансы

Бизнес: • БанкиБогатство и благосостояниеКоррупция(Преступность)МаркетингМенеджментИнвестицииЦенные бумаги: • УправлениеОткрытые акционерные обществаПроектыДокументыЦенные бумаги - контрольЦенные бумаги - оценкиОблигацииДолгиВалютаНедвижимость(Аренда)ПрофессииРаботаТорговляУслугиФинансыСтрахованиеБюджетФинансовые услугиКредитыКомпанииГосударственные предприятияЭкономикаМакроэкономикаМикроэкономикаНалогиАудит
Промышленность: • МеталлургияНефтьСельское хозяйствоЭнергетика
СтроительствоАрхитектураИнтерьерПолы и перекрытияПроцесс строительстваСтроительные материалыТеплоизоляцияЭкстерьерОрганизация и управление производством