На лекции нам говорили, что в большинстве случаев результаты, получаемые при помощи моделей logit и probit очень схожи. Мы не упустили возможность подтвердить это.

Dependent Variable: INLF

 

Method: ML - Binary Logit

 

Sample: 1 753

 

Included observations: 753

 

Convergence achieved after 7 iterations

 

Covariance matrix computed using second derivatives

 

Variable

Coefficient

Std. Error

z-Statistic

Prob.

C

1.783748

0.854837

2.086654

0.0369

AGE

-0.097963

0.013652

-7.175865

0.0000

EDUC

0.194363

0.040801

4.763717

0.0000

EXPER

0.206966

0.032050

6.457580

0.0000

EXPERSQ

-0.003073

0.001018

-3.019382

0.0025

HUSHRS

-0.000290

0.000148

-1.963113

0.0496

KIDSLT6

-1.468572

0.201601

-7.284542

0.0000

UNEM

-0.036691

0.028055

-1.307825

0.1909

Mean dependent var

0.568393

S. D. dependent var

0.495630

S. E. of regression

0.427147

Akaike info criterion

1.091258

Sum squared resid

135.9287

Schwarz criterion

1.140385

Log likelihood

-402.8585

Hannan-Quinn criter.

1.110184

Restr. log likelihood

-514.8732

Avg. log likelihood

-0.535005

LR statistic (7 df)

224.0294

McFadden R-squared

0.217558

Probability(LR stat)

0.000000

Obs with Dep=0

325

Total obs

753

Obs with Dep=1

428

Видим, что все коэффициенты в logit приблизительно в раз больше, чем в probit. Все p–значения, а также все значения во второй части вывода практически совпадают.

НЕ нашли? Не то? Что вы ищете?

Эти модели очень похожи и по качеству предсказаний, что можно видеть на графике, с где с одной стороны точность модели (количество правильно предсказанных INLF для разного C) для probit, а с другой — для logit.

5. Построение оценок МНК

Для построение оценки МНК мы выберем факторы, которые априори формируют зарплату на рынке труда, поэтому в модель войдут личные характеристики женщины и состояние рынка труда. В дополнение к предложенным регрессорам AGE, EXPER, EXPERSQ было решено добавить CITY, EDUC, UNEM. Ясно, что зарплата сильно зависит от образования человека и от возраста, тесно коррелирует с опытом работы и с каждым дополнительным годом заявленного опыта растет медленнее при большом опыте. Стоит ожидать положительного и соответственно отрицательного коэффициентов при EXPER, EXPERSQ. Исторически сложилось, что в городе зарплаты выше и этот фактор тоже может влиять на уровень зарплаты (однако на это можно возразить, что в городе и уровень образования выше как и другие факторы, которые положительно влияют на зарплату — влияет ли фактор города на зарплату сам по себе, не ясно). Как известно в случае высокой безработицы зарплаты ниже и наоборот, поэтому уровень безработицы должен влиять на зависимую переменную.

Переменная HOURS, если мы её включим в регрессии, будет высоко значима, однако, с точки зрения работодателя, количество рабочих часов не влияет на почасовую зарплату. Эти переменные будут скоррелированы, но по другим причинам — проблема эндогенности.

Для оценки по методу наименьших квадратов возьмем в качестве зависимой переменной LWAGE и LOG(WAGE+1) (последнее является альтернативой LWAGE и лучше в том плане, что годится для оценивания цензурированной tobit–модели и не придаёт слишком большого веса зарплатам близким к нулю для урезанной tobit–модели, но хуже в том плане, что WAGE обычно не велико и это затрудняет интерпретацию коэффициентов в регрессиях, так как LWAGE и LOG(WAGE+1) могут существенно отличаться). Именно единица добавляется к WAGE для того, чтобы получившееся отображение оставляло 0 на месте (для использования в моделях tobit и Хекмана).

Dependent Variable: LWAGE

Method: Least Squares

Sample(adjusted): IF INLF=1

Included observations: 428 after adjusting endpoints

Variable

Coefficient

Std. Error

t-Statistic

Prob.

C

-0.504705

0.282383

-1.787305

0.0746

AGE

-1.98E-05

0.004919

-0.004028

0.9968

CITY

0.058767

0.069574

0.844673

0.3988

EDUC

0.106243

0.014455

7.349817

0.0000

EXPER

0.041370

0.013248

3.122619

0.0019

EXPERSQ

-0.000805

0.000402

-2.003742

0.0457

UNEM

-0.004349

0.010956

-0.396939

0.6916

R-squared

0.158401

Mean dependent var

1.190173

Adjusted R-squared

0.146406

S. D. dependent var

0.723198

S. E. of regression

0.668163

Akaike info criterion

2.047652

Sum squared resid

187.9522

Schwarz criterion

2.114040

Log likelihood

-431.1975

F-statistic

13.20634

Durbin-Watson stat

1.870331

Prob(F-statistic)

0.000000

Тест Уайта на гетероскедастичность ошибок:

White Heteroskedasticity Test:

F-statistic

1.857191

Probability

0.049439

Obs*R-squared

18.24906

Probability

0.050905

Dependent Variable: LOG(WAGE+1)

Method: Least Squares

Sample(adjusted): IF INLF=1

Included observations: 428 after adjusting endpoints

Variable

Coefficient

Std. Error

t-Statistic

Prob.

C

0.236242

0.197577

1.195692

0.2325

AGE

6.66E-06

0.003442

0.001936

0.9985

CITY

0.048648

0.048679

0.999360

0.3182

EDUC

0.083181

0.010114

8.224325

0.0000

EXPER

0.024424

0.009270

2.634839

0.0087

EXPERSQ

-0.000453

0.000281

-1.610610

0.1080

UNEM

-0.003412

0.007665

-0.445153

0.6564

R-squared

0.176009

Mean dependent var

1.503598

Adjusted R-squared

0.164266

S. D. dependent var

0.511383

S. E. of regression

0.467499

Akaike info criterion

1.333381

Sum squared resid

92.01176

Schwarz criterion

1.399768

Log likelihood

-278.3434

F-statistic

14.98803

Durbin-Watson stat

1.966488

Prob(F-statistic)

0.000000

Тест Уайта на гетероскедастичность ошибок:

White Heteroskedasticity Test:

F-statistic

2.160173

Probability

0.019342

Obs*R-squared

21.07958

Probability

0.020545

Видим, что обе регрессии по многим позициям не отличаются, хотя в некоторых местах отличия существенны (например, коефициент при EDUC различается в два раза). Конечно, эти регрессии не стоит воспринимать всерьёз, потому что они построены по урезанным выборкам и оценки коэффициентов являются смещёнными и несостоятельными. Однако на них можно смотреть как на оценку коэффициентов частной корреляции зависимой переменной и регрессоров. Интерпретация коэффициентов в модели линейной регрессии очень проста. Мы вернёмся к этим регрессиям позже.

Так же заметим, что ошибки регрессии не являются гомоскедастичными. Пересчитывать p–значения в форме Уайта мы не будем, так как нам сейчас это далеко не принципиально — задача проекта не в этом.

Ниже мы покажем, что решение работать или нет не зависят от зарплаты (грубо говоря), поэтому оценки МНК будут несмещёнными и состоятельными. Однако в этом случае отвергается гипотеза гомоскедастичности ошибок, что говорит о том, что ничего из того что мы делаем не является истинным ибо во всех моделях от probit до модели Хекмана мы предполагаем совместное нормальное распределение ошибок.

6. Построение урезанной tobit–модели

Построим урезанную tobit–модель, используя те же регрессоры, что и в МНК. Совершенно не удивительно, что мы получаем почти один в один те же коэффициенты, что и в МНК. Дело в том, что функция правдоподобия для оценивания урезанной tobit–модели совпадает с функцией правдоподобия для оценивания нормальной линейной регрессионной модели, а оценки ММП и МНК для классической нормальной линейной регрессионной модели совпадают. То небольшое различие, которое присутствует, можно объяснить вычислительными погрешностями и различными методами подсчёта одной и той же величины.

Dependent Variable: LOG(WAGE+1)

Method: ML - Censored Normal (TOBIT)

Sample(adjusted):

Included observations: 428 after adjusting endpoints

Truncated sample

Left censoring (value) at zero

Convergence achieved after 8 iterations

Covariance matrix computed using second derivatives

Coefficient

Std. Error

z-Statistic

Prob.

C

0.216108

0.199637

1.082507

0.2790

AGE

-2.52E-05

0.003463

-0.007291

0.9942

CITY

0.049552

0.048994

1.011391

0.3118

EDUC

0.084362

0.010240

8.238758

0.0000

EXPER

0.024931

0.009361

2.663207

0.0077

EXPERSQ

-0.000464

0.000284

-1.634674

0.1021

UNEM

-0.003485

0.007710

-0.451990

0.6513

Error Distribution

SCALE:C(8)

0.466905

0.016463

28.36066

0.0000

R-squared

0.176810

Mean dependent var

1.503598

Adjusted R-squared

0.163091

S. D. dependent var

0.511383

S. E. of regression

0.467828

Akaike info criterion

1.334568

Sum squared resid

91.92233

Schwarz criterion

1.410440

Log likelihood

-277.5976

Hannan-Quinn criter.

1.364533

Avg. log likelihood

-0.648593

Left censored obs

0

Right censored obs

0

Uncensored obs

428

Total obs

428

Понимая, что модель очень плохая, мы всё же чисто формально немного поработаем с ней. Для начала обоснуем возможность выбрасывания всех статистически незначимых регрессоров.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7