7. Построение модели Хекмана

Модель Хекмана мы оценивали двухшаговым методом и с помощью метода максимального правдоподобия. Оба метода были сделаны, следуя рекомендации, в EViews и в Stata. Поскольку нам здесь не надо использовать отсечение по значению зависимой переменной, то для простоты интерпредации и вообще для удобства будем в качестве зависимой переменной использовать LWAGE, а не LOG(WAGE+1).

Начнём с двухшагового метода в EViews. Оцениваем модель [2].

Dependent Variable: LWAGE

Method: Least Squares

Sample(adjusted): IF INLF=1

Included observations: 428 after adjusting endpoints

Variable

Coefficient

Std. Error

t-Statistic

Prob.

C

-0.452887

0.317737

-1.425353

0.1548

AGE

0.001276

0.006116

0.208578

0.8349

CITY

0.058350

0.069656

0.837690

0.4027

EDUC

0.103421

0.016487

6.272776

0.0000

EXPER

0.036795

0.018438

1.995534

0.0466

EXPERSQ

-0.000729

0.000456

-1.600406

0.1103

UNEM

-0.003798

0.011075

-0.342962

0.7318

IMILLS

-0.062396

0.174704

-0.357150

0.7212

R-squared

0.158656

Mean dependent var

1.190173

Adjusted R-squared

0.144634

S. D. dependent var

0.723198

S. E. of regression

0.668857

Akaike info criterion

2.052021

Sum squared resid

187.8952

Schwarz criterion

2.127893

Log likelihood

-431.1325

F-statistic

11.31449

Durbin-Watson stat

1.868758

Prob(F-statistic)

0.000000

Получились правильные знаки и коефициенты с p–значениями во многом похожие на то, что мы получали раньше. Теперь повторим то же самое в Stata и получим примерно тоже, хотя отличия явно больше простой вычислительной погрешности. Очевидно, есть достаточно сильное влияние алгоритма на результат.

НЕ нашли? Не то? Что вы ищете?

Heckman selection model -- two-step estimates Number of obs = 753

(regression model with sample selection) Censored obs = 325

Uncensored obs = 428

Wald chi2(12) = 200.97

Prob > chi2 = 0.0000

-

| Coef. Std. Err. z P>|z| [95% Conf. Interval]

--+

lwage |

age | .00132 0.131378

city | .06027 0.58872

educ | .10329 0.54218

exper | .03650 0.2391

expersq | -.000760 0.01604

unem | -.003835 0.176721

_cons | -.449943 0.688235

--+

select |

age | -.058129 0.0425418

city | -.063457 0.551544

exper | .12444 0.12352

expersq | -.001809 0.0006807

educ | .11849 0.58667

kidslt6 | -.882852 0.6528675

hushrs | -.000105 0..90e-06

unem | -.020018 0.131963

_cons | 1.0640 0.56003

--+

mills |

lambda | -.065138 0.737386

--+

rho | -0.09816

sigma | .

lambda | -.06519

-

Проведём тесты Вальда на незначимость AGE и CITY в обоих пакетах. В Eviews:

Wald Test:

Null Hypothesis:

C(2)=0

C(3)=0

F-statistic

0.360540

Probability

0.697514

Chi-square

0.721081

Probability

0.697299

И в Stata:

( 1) [lwage]age - [lwage]city = 0

( 2) [lwage]age = 0

chi2( 2) = 0.83

Prob > chi2 = 0.6607

Снова видим, что хотя результаты похожи, но различия куда существенней простых погрешностей в вычислениях.

Теперь оценим модель Хекмана с помощью ММП. В EViews в качестве начального значеного приближения будем использовать результаты двухшагового метода. Заметим, что в примере HECKMAN1.PRG имеется ошибка, которая приводит к сбою, когда ошибки решения работать – не работать коррелированны отрицательно. Дело в том, что там этот коефициент используется в квадрате, а где нужно использовать его напрямую, там берётся арифметический корень. Естественно, метод максимизации функции правдоподобия будет очень плохо себя вести, при подходе к 0, а подходить туда он будет так как максимум правдоподобия находится «за» нулём. Короче говоря, ошибка исправляется тем, что вместо того чтобы хранить квадрат корреляции ошибок мы используем в качестве параметра собственно корреляцию. После исправления этой ошибки [3], нам удалось построить и оценить следующую модель.

LogL: LL

Method: Maximum Likelihood (Marquardt)

Sample: 1 753

Included observations: 753

Evaluation order: By observation

Initial Values: B(1)=1.07602, B(2)=-0.05876, B(3)=0.11631,

B(4)=0.12411, B(5)=-0.00184, B(6)=-0.00018, B(7)=-0.88388,

B(8)=-0.02142, C(1)=-0.45289, C(2)=0.00128, C(3)=0.05835,

C(4)=0.10342, C(5)=0.03679, C(6)=-0.00073, C(7)=-0.00380,

SIG2(1)=0.44087, RHO2(1)=-0.09397

Convergence achieved after 42 iterations

Coefficient

Std. Error

z-Statistic

Prob.

B(1)

1.082675

0.504567

2.145752

0.0319

B(2)

-0.058745

0.008111

-7.242333

0.0000

B(3)

0.115854

0.024283

4.771062

0.0000

B(4)

0.124119

0.018913

6.562623

0.0000

B(5)

-0.001842

0.000609

-3.026918

0.0025

B(6)

-0.000176

8.61E-05

-2.040904

0.0413

B(7)

-0.884797

0.121305

-7.294010

0.0000

B(8)

-0.021490

0.017348

-1.238765

0.2154

C(1)

-0.482428

0.327182

-1.474497

0.1403

C(2)

0.000537

0.005323

0.100964

0.9196

C(3)

0.058577

0.075948

0.771277

0.4405

C(4)

0.105027

0.018714

5.612102

0.0000

C(5)

0.039406

0.017723

2.223381

0.0262

C(6)

-0.000773

0.000473

-1.632698

0.1025

C(7)

-0.004112

0.012899

-0.318818

0.7499

SIG2(1)

0.439461

0.020296

21.65225

0.0000

RHO2(1)

-0.040421

0.211523

-0.191096

0.8485

Log likelihood

-833.3620

Akaike info criterion

2.258598

Avg. log likelihood

-1.106723

Schwarz criterion

2.362992

Number of Coefs.

17

Hannan-Quinn criter.

2.298816

Ниже представлена спецификация модели.

@LOGL LOGL1

XB0 = B(1)+B(2)*AGE+B(3)*EDUC+B(4)*EXPER+B(5)*EXPERSQ+B(6)*HUSHRS+B(7)*KIDSLT6+B(8)*UNEM

LOGP0 = LOG(1-@CNORM(XB0))

XB1 = C(1)+C(2)*AGE+C(3)*CITY+C(4)*EDUC+C(5)*EXPER+C(6)*EXPERSQ+ C(7)*UNEM

SRES = (LWAGE-XB1)/@SQRT(SIG2(1))

INDEX = (XB0+SRES*RHO2(1))/@SQRT(1-RHO2(1)^2)

LOGP1 = -LOG(2*3.)/2-LOG(SIG2(1))/2-SRES^2/2+LOG(@CNORM(INDEX))

LOGL1 = @RECODE(INLF=0,LOGP0,LOGP1)

Оценим ту же модель в Stata.

Iteration 0: log likelihood = -833.24833

Iteration 1: log likelihood = -833.19838

Iteration 2: log likelihood = -833.19769

Iteration 3: log likelihood = -833.19768

Heckman selection model Number of obs = 753

(regression model with sample selection) Censored obs = 325

Uncensored obs = 428

Wald chi2(6) = 57.11

Log likelihood = -833.1977 Prob > chi2 = 0.0000

-

| Coef. Std. Err. z P>|z| [95% Conf. Interval]

--+

lwage |

age | .0005 0.112039

city | .05946 0.47758

educ | .10495 0.49785

exper | .03931 0.00068

expersq | -.000782 0.000588

unem | -.004138 0.72572

_cons | -.481162 0.0033

--+

select |

age | -.058128 0.0425133

city | -.06357 0.546763

exper | .12455 0.12327

expersq | -.001809 0.0006832

educ | .11797 0.54984

kidslt6 | -.883753 0.537485

hushrs | -.0006 0..43e-06

unem | -.02009 0.1313

_cons | 1.0701 0.64458

--+

/athrho | -.042324 0.016544

/lnsigma | -.4110

--+

rho | -.0422681

sigma | .662997

lambda | -.0280558

-

LR test of indep. eqns. (rho = 0): chi2(1) = 0.06 Prob > chi2 = 0.8063

Снова AGE и CITY в обоих регрессиях оказываются незначимыми (речь идёт о регрессии для зарплаты). Проводим тесты Вальда. В EViews:

Wald Test:

Null Hypothesis:

C(2)=0

C(3)=0

Chi-square

0.615715

Probability

0.735020

В Stata:

( 1) [lwage]age - [lwage]city = 0

( 2) [lwage]age = 0

chi2( 2) = 0.77

Prob > chi2 = 0.6807

Оба теста не отвергают гипотезы о том, что соответствующие коэффициенты при CITY и AGE равны 0. Исключим их из регрессоров для зарплаты и получаем окончательную модель.

Iteration 0: log likelihood = -833.59156

Iteration 1: log likelihood = -833.58217

Iteration 2: log likelihood = -833.58216

Heckman selection model Number of obs = 753

(regression model with sample selection) Censored obs = 325

Uncensored obs = 428

Wald chi2(4) = 56.64

Log likelihood = -833.5822 Prob > chi2 = 0.0000

-

| Coef. Std. Err. z P>|z| [95% Conf. Interval]

--+

lwage |

educ | .10713 0.66521

exper | .04069 0.03216

expersq | -.00078 0.000336

unem | -.002624 0.184972

_cons | -.479480 0.436641

--+

select |

age | -.058128 0.0425257

city | -.06256 0.562494

exper | .12454 0.2366

expersq | -.001809 0.0006821

educ | .11817 0.56903

kidslt6 | -.883453 0.6533582

hushrs | -.000105 0..22e-06

unem | -.020019 0.131365

_cons | 1.061 0.61101

--+

/athrho | -.023615 0.798347

/lnsigma | -.4104

--+

rho | -.0236159

sigma | .663302

lambda | -.0156169

-

LR test of indep. eqns. (rho = 0): chi2(1) = 0.02 Prob > chi2 = 0.8778

Заметим, что знаки коефициентов как и сами коефициенты по–прежнему в основном соответствуют интуиции. Они интерпретируются так же как и в probit–модели и модели линейной регрессии (мы этого не будем делать, поскольку они получили почти точно такими же, как раньше). Заметим также, что коэффициент при /athrho незначим. Если он равен нулю, то это означает, что решения об уровне зарплаты и работать или нет принимаются некоррелированно (независимо). Но последнее (если истинно) будет означать, что кроме оценок в probit и модели Хекмана «хорошими» являются также оценки МНК для цензурированной выборки, что, конечно же, является большим везением.

8. Выводы

Нами были построены различные модели. Как мы и считали с самого начала, довольно хорошими моделями оказались probit, logit и модель Хекмана. Вопреки нашему предположению, нельзя отвергнуть гипотезу о некоррелированности решений о работе и о зарплате, поэтому оценка МНК (она же урезанная tobit) так же может оказаться пригодной для изучения рынка труда (по крайней мере для данной выборки). Однако если встать на эту точку зрения, то окажется, что ошибки, которые мы предполагали гомоскедастичными, таковыми не являются, поэтому наши спецификации всех моделей кроме модели линейной регрессии являются неверными. Таким образом (кто бы ожидал) модель линейной регрессии может оказаться наиболее пригодной для оценки зарплаты по этим данным так как во–первых решения о работе и о зарплате некоррелированны, а во–вторых в МНК лучше чем где–либо разработаны методы борьбы с гетероскедастичностью.

Что касается цензурированной модели tobit, то её мы считать подходящей для данной задачи не можем, так как её спецификация весьма далека от реальности (более подробное обсуждение этого вопроса выше) не говоря уже о том что опять–таки функция правдоподобия заведомо не является близкой к реальности (в плане ошибок).

В заключение отметим, что во всех моделях наличие маленьких детей существенно влияет на нежелание женщины работать как и большой возраст. В то же время опыт работы и образование влияют положительно на решение работать. Зарплата тоже положительно зависит от опыта и образования.

9. Приложение: инструкции для EViews

1.  Построение графика зависимости точности предсказаний модели дискретного выбора от выбора критического уровня вероятности (границы отсечения):

fit inlfhat

series gr

series inlff

scalar n=753

scalar p

for! i = 1 to n

gr(!i) = (inlfhat > !i/n and inlf = 1) + (inlfhat <= !i/n and inlf = 0)

inlff = inlfhat > !i/n

inlff = inlff*inlf+(1-inlff)*(1-inlf)

p = @sum(inlff)/n

gr(!i) = p

next

if @isobject("pp") then delete pp endif

graph pp. xy @trend/n gr

2.  Оценка модели Хекмана двухшаговым методом с использованием отношения Миллса:

equation h1.binary inlf c age educ exper expersq hushrs kidslt6 unem

coef(7) b = h1.@coefs

h1.fit(i) xbhat

series imills = @dnorm(xbhat)/@cnorm(xbhat)

series delta = imills*(imills+xbhat)

smpl @all if inlf=1

ls lwage c age city educ exper expersq unem imills

3.  Оценка модели Хекмана методом максимального правдоподобия:

smpl @all

equation h1.binary inlf c age educ exper expersq hushrs kidslt6 unem

coef(8) b = h1.@coefs

h1.fit(i) xbhat

series imills = @dnorm(xbhat)/@cnorm(xbhat)

series delta = imills*(imills+xbhat)

smpl @all if inlf=1

equation h2.ls lwage c age city educ exper expersq unem imills

h2.makeresid resid2

coef(1) sig2 = @sumsq(resid2)/h2.@regobs+@mean(delta)*h2.c(8)^2

coef(1) rho2 = h2.c(8)/@sqrt(sig2(1))

if @isobject("ll") then delete ll endif

logl ll

ll. append @logl logl1

ll. append xb0 = b(1)+b(2)*age+b(3)*educ+b(4)*exper+b(5)*expersq+b(6)*hushrs+b(7)*kidslt6+b(8)*unem

ll. append logp0 = log(1-@cnorm(xb0))

ll. append xb1 = c(1)+c(2)*age+c(3)*city+c(4)*educ+c(5)*exper+c(6)*expersq+c(7)*unem

ll. append sres = (lwage-xb1)/@sqrt(sig2(1))

ll. append index = (xb0+sres*rho2(1))/@sqrt(1-rho2(1)^2)

ll. append logp1 = -log(2*@acos(-1))/2-log(sig2(1))/2-sres^2/2+log(@cnorm(index))

ll. append logl1 = @recode(inlf=0,logp0,logp1)

smpl @all

ll. ml(d)

show ll. output

6. Список литературы

Mroz, T. A. (1987), “The sensitivity of an empirical model of married women’s hours of work to economic and statistical assumptions,” Econometrica 54, 657-678. , , Пересецкий . Начальный курс. — М.: Дело, 2000. , Пересецкий задач по начальному курсу эконометрики. — М.: Дело, 1999. , Мхитарян статистика и основы эконометрики. — М.: ЮНИТИ, 1998. Интернет.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7