7. Построение модели Хекмана
Модель Хекмана мы оценивали двухшаговым методом и с помощью метода максимального правдоподобия. Оба метода были сделаны, следуя рекомендации, в EViews и в Stata. Поскольку нам здесь не надо использовать отсечение по значению зависимой переменной, то для простоты интерпредации и вообще для удобства будем в качестве зависимой переменной использовать LWAGE, а не LOG(WAGE+1).
Начнём с двухшагового метода в EViews. Оцениваем модель [2].
Dependent Variable: LWAGE | ||||
Method: Least Squares | ||||
Sample(adjusted): IF INLF=1 | ||||
Included observations: 428 after adjusting endpoints | ||||
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | -0.452887 | 0.317737 | -1.425353 | 0.1548 |
AGE | 0.001276 | 0.006116 | 0.208578 | 0.8349 |
CITY | 0.058350 | 0.069656 | 0.837690 | 0.4027 |
EDUC | 0.103421 | 0.016487 | 6.272776 | 0.0000 |
EXPER | 0.036795 | 0.018438 | 1.995534 | 0.0466 |
EXPERSQ | -0.000729 | 0.000456 | -1.600406 | 0.1103 |
UNEM | -0.003798 | 0.011075 | -0.342962 | 0.7318 |
IMILLS | -0.062396 | 0.174704 | -0.357150 | 0.7212 |
R-squared | 0.158656 | Mean dependent var | 1.190173 | |
Adjusted R-squared | 0.144634 | S. D. dependent var | 0.723198 | |
S. E. of regression | 0.668857 | Akaike info criterion | 2.052021 | |
Sum squared resid | 187.8952 | Schwarz criterion | 2.127893 | |
Log likelihood | -431.1325 | F-statistic | 11.31449 | |
Durbin-Watson stat | 1.868758 | Prob(F-statistic) | 0.000000 |
Получились правильные знаки и коефициенты с p–значениями во многом похожие на то, что мы получали раньше. Теперь повторим то же самое в Stata и получим примерно тоже, хотя отличия явно больше простой вычислительной погрешности. Очевидно, есть достаточно сильное влияние алгоритма на результат.
Heckman selection model -- two-step estimates Number of obs = 753
(regression model with sample selection) Censored obs = 325
Uncensored obs = 428
Wald chi2(12) = 200.97
Prob > chi2 = 0.0000
-
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
--+
lwage |
age | .00132 0.131378
city | .06027 0.58872
educ | .10329 0.54218
exper | .03650 0.2391
expersq | -.000760 0.01604
unem | -.003835 0.176721
_cons | -.449943 0.688235
--+
select |
age | -.058129 0.0425418
city | -.063457 0.551544
exper | .12444 0.12352
expersq | -.001809 0.0006807
educ | .11849 0.58667
kidslt6 | -.882852 0.6528675
hushrs | -.000105 0..90e-06
unem | -.020018 0.131963
_cons | 1.0640 0.56003
--+
mills |
lambda | -.065138 0.737386
--+
rho | -0.09816
sigma | .
lambda | -.06519
-
Проведём тесты Вальда на незначимость AGE и CITY в обоих пакетах. В Eviews:
Wald Test: | ||||
Null Hypothesis: | C(2)=0 | |||
C(3)=0 | ||||
F-statistic | 0.360540 | Probability | 0.697514 | |
Chi-square | 0.721081 | Probability | 0.697299 |
И в Stata:
( 1) [lwage]age - [lwage]city = 0
( 2) [lwage]age = 0
chi2( 2) = 0.83
Prob > chi2 = 0.6607
Снова видим, что хотя результаты похожи, но различия куда существенней простых погрешностей в вычислениях.
Теперь оценим модель Хекмана с помощью ММП. В EViews в качестве начального значеного приближения будем использовать результаты двухшагового метода. Заметим, что в примере HECKMAN1.PRG имеется ошибка, которая приводит к сбою, когда ошибки решения работать – не работать коррелированны отрицательно. Дело в том, что там этот коефициент используется в квадрате, а где нужно использовать его напрямую, там берётся арифметический корень. Естественно, метод максимизации функции правдоподобия будет очень плохо себя вести, при подходе к 0, а подходить туда он будет так как максимум правдоподобия находится «за» нулём. Короче говоря, ошибка исправляется тем, что вместо того чтобы хранить квадрат корреляции ошибок мы используем в качестве параметра собственно корреляцию. После исправления этой ошибки [3], нам удалось построить и оценить следующую модель.
LogL: LL | ||||
Method: Maximum Likelihood (Marquardt) | ||||
Sample: 1 753 | ||||
Included observations: 753 | ||||
Evaluation order: By observation | ||||
Initial Values: B(1)=1.07602, B(2)=-0.05876, B(3)=0.11631, | ||||
B(4)=0.12411, B(5)=-0.00184, B(6)=-0.00018, B(7)=-0.88388, | ||||
B(8)=-0.02142, C(1)=-0.45289, C(2)=0.00128, C(3)=0.05835, | ||||
C(4)=0.10342, C(5)=0.03679, C(6)=-0.00073, C(7)=-0.00380, | ||||
SIG2(1)=0.44087, RHO2(1)=-0.09397 | ||||
Convergence achieved after 42 iterations | ||||
Coefficient | Std. Error | z-Statistic | Prob. | |
B(1) | 1.082675 | 0.504567 | 2.145752 | 0.0319 |
B(2) | -0.058745 | 0.008111 | -7.242333 | 0.0000 |
B(3) | 0.115854 | 0.024283 | 4.771062 | 0.0000 |
B(4) | 0.124119 | 0.018913 | 6.562623 | 0.0000 |
B(5) | -0.001842 | 0.000609 | -3.026918 | 0.0025 |
B(6) | -0.000176 | 8.61E-05 | -2.040904 | 0.0413 |
B(7) | -0.884797 | 0.121305 | -7.294010 | 0.0000 |
B(8) | -0.021490 | 0.017348 | -1.238765 | 0.2154 |
C(1) | -0.482428 | 0.327182 | -1.474497 | 0.1403 |
C(2) | 0.000537 | 0.005323 | 0.100964 | 0.9196 |
C(3) | 0.058577 | 0.075948 | 0.771277 | 0.4405 |
C(4) | 0.105027 | 0.018714 | 5.612102 | 0.0000 |
C(5) | 0.039406 | 0.017723 | 2.223381 | 0.0262 |
C(6) | -0.000773 | 0.000473 | -1.632698 | 0.1025 |
C(7) | -0.004112 | 0.012899 | -0.318818 | 0.7499 |
SIG2(1) | 0.439461 | 0.020296 | 21.65225 | 0.0000 |
RHO2(1) | -0.040421 | 0.211523 | -0.191096 | 0.8485 |
Log likelihood | -833.3620 | Akaike info criterion | 2.258598 | |
Avg. log likelihood | -1.106723 | Schwarz criterion | 2.362992 | |
Number of Coefs. | 17 | Hannan-Quinn criter. | 2.298816 |
Ниже представлена спецификация модели.
@LOGL LOGL1
XB0 = B(1)+B(2)*AGE+B(3)*EDUC+B(4)*EXPER+B(5)*EXPERSQ+B(6)*HUSHRS+B(7)*KIDSLT6+B(8)*UNEM
LOGP0 = LOG(1-@CNORM(XB0))
XB1 = C(1)+C(2)*AGE+C(3)*CITY+C(4)*EDUC+C(5)*EXPER+C(6)*EXPERSQ+ C(7)*UNEM
SRES = (LWAGE-XB1)/@SQRT(SIG2(1))
INDEX = (XB0+SRES*RHO2(1))/@SQRT(1-RHO2(1)^2)
LOGP1 = -LOG(2*3.)/2-LOG(SIG2(1))/2-SRES^2/2+LOG(@CNORM(INDEX))
LOGL1 = @RECODE(INLF=0,LOGP0,LOGP1)
Оценим ту же модель в Stata.
Iteration 0: log likelihood = -833.24833
Iteration 1: log likelihood = -833.19838
Iteration 2: log likelihood = -833.19769
Iteration 3: log likelihood = -833.19768
Heckman selection model Number of obs = 753
(regression model with sample selection) Censored obs = 325
Uncensored obs = 428
Wald chi2(6) = 57.11
Log likelihood = -833.1977 Prob > chi2 = 0.0000
-
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
--+
lwage |
age | .0005 0.112039
city | .05946 0.47758
educ | .10495 0.49785
exper | .03931 0.00068
expersq | -.000782 0.000588
unem | -.004138 0.72572
_cons | -.481162 0.0033
--+
select |
age | -.058128 0.0425133
city | -.06357 0.546763
exper | .12455 0.12327
expersq | -.001809 0.0006832
educ | .11797 0.54984
kidslt6 | -.883753 0.537485
hushrs | -.0006 0..43e-06
unem | -.02009 0.1313
_cons | 1.0701 0.64458
--+
/athrho | -.042324 0.016544
/lnsigma | -.4110
--+
rho | -.0422681
sigma | .662997
lambda | -.0280558
-
LR test of indep. eqns. (rho = 0): chi2(1) = 0.06 Prob > chi2 = 0.8063
Снова AGE и CITY в обоих регрессиях оказываются незначимыми (речь идёт о регрессии для зарплаты). Проводим тесты Вальда. В EViews:
Wald Test: | ||||
Null Hypothesis: | C(2)=0 | |||
C(3)=0 | ||||
Chi-square | 0.615715 | Probability | 0.735020 |
В Stata:
( 1) [lwage]age - [lwage]city = 0
( 2) [lwage]age = 0
chi2( 2) = 0.77
Prob > chi2 = 0.6807
Оба теста не отвергают гипотезы о том, что соответствующие коэффициенты при CITY и AGE равны 0. Исключим их из регрессоров для зарплаты и получаем окончательную модель.
Iteration 0: log likelihood = -833.59156
Iteration 1: log likelihood = -833.58217
Iteration 2: log likelihood = -833.58216
Heckman selection model Number of obs = 753
(regression model with sample selection) Censored obs = 325
Uncensored obs = 428
Wald chi2(4) = 56.64
Log likelihood = -833.5822 Prob > chi2 = 0.0000
-
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
--+
lwage |
educ | .10713 0.66521
exper | .04069 0.03216
expersq | -.00078 0.000336
unem | -.002624 0.184972
_cons | -.479480 0.436641
--+
select |
age | -.058128 0.0425257
city | -.06256 0.562494
exper | .12454 0.2366
expersq | -.001809 0.0006821
educ | .11817 0.56903
kidslt6 | -.883453 0.6533582
hushrs | -.000105 0..22e-06
unem | -.020019 0.131365
_cons | 1.061 0.61101
--+
/athrho | -.023615 0.798347
/lnsigma | -.4104
--+
rho | -.0236159
sigma | .663302
lambda | -.0156169
-
LR test of indep. eqns. (rho = 0): chi2(1) = 0.02 Prob > chi2 = 0.8778
Заметим, что знаки коефициентов как и сами коефициенты по–прежнему в основном соответствуют интуиции. Они интерпретируются так же как и в probit–модели и модели линейной регрессии (мы этого не будем делать, поскольку они получили почти точно такими же, как раньше). Заметим также, что коэффициент при /athrho незначим. Если он равен нулю, то это означает, что решения об уровне зарплаты и работать или нет принимаются некоррелированно (независимо). Но последнее (если истинно) будет означать, что кроме оценок в probit и модели Хекмана «хорошими» являются также оценки МНК для цензурированной выборки, что, конечно же, является большим везением.
8. Выводы
Нами были построены различные модели. Как мы и считали с самого начала, довольно хорошими моделями оказались probit, logit и модель Хекмана. Вопреки нашему предположению, нельзя отвергнуть гипотезу о некоррелированности решений о работе и о зарплате, поэтому оценка МНК (она же урезанная tobit) так же может оказаться пригодной для изучения рынка труда (по крайней мере для данной выборки). Однако если встать на эту точку зрения, то окажется, что ошибки, которые мы предполагали гомоскедастичными, таковыми не являются, поэтому наши спецификации всех моделей кроме модели линейной регрессии являются неверными. Таким образом (кто бы ожидал) модель линейной регрессии может оказаться наиболее пригодной для оценки зарплаты по этим данным так как во–первых решения о работе и о зарплате некоррелированны, а во–вторых в МНК лучше чем где–либо разработаны методы борьбы с гетероскедастичностью.
Что касается цензурированной модели tobit, то её мы считать подходящей для данной задачи не можем, так как её спецификация весьма далека от реальности (более подробное обсуждение этого вопроса выше) не говоря уже о том что опять–таки функция правдоподобия заведомо не является близкой к реальности (в плане ошибок).
В заключение отметим, что во всех моделях наличие маленьких детей существенно влияет на нежелание женщины работать как и большой возраст. В то же время опыт работы и образование влияют положительно на решение работать. Зарплата тоже положительно зависит от опыта и образования.
9. Приложение: инструкции для EViews
1. Построение графика зависимости точности предсказаний модели дискретного выбора от выбора критического уровня вероятности (границы отсечения):
fit inlfhat
series gr
series inlff
scalar n=753
scalar p
for! i = 1 to n
gr(!i) = (inlfhat > !i/n and inlf = 1) + (inlfhat <= !i/n and inlf = 0)
inlff = inlfhat > !i/n
inlff = inlff*inlf+(1-inlff)*(1-inlf)
p = @sum(inlff)/n
gr(!i) = p
next
if @isobject("pp") then delete pp endif
graph pp. xy @trend/n gr
2. Оценка модели Хекмана двухшаговым методом с использованием отношения Миллса:
equation h1.binary inlf c age educ exper expersq hushrs kidslt6 unem
coef(7) b = h1.@coefs
h1.fit(i) xbhat
series imills = @dnorm(xbhat)/@cnorm(xbhat)
series delta = imills*(imills+xbhat)
smpl @all if inlf=1
ls lwage c age city educ exper expersq unem imills
3. Оценка модели Хекмана методом максимального правдоподобия:
smpl @all
equation h1.binary inlf c age educ exper expersq hushrs kidslt6 unem
coef(8) b = h1.@coefs
h1.fit(i) xbhat
series imills = @dnorm(xbhat)/@cnorm(xbhat)
series delta = imills*(imills+xbhat)
smpl @all if inlf=1
equation h2.ls lwage c age city educ exper expersq unem imills
h2.makeresid resid2
coef(1) sig2 = @sumsq(resid2)/h2.@regobs+@mean(delta)*h2.c(8)^2
coef(1) rho2 = h2.c(8)/@sqrt(sig2(1))
if @isobject("ll") then delete ll endif
logl ll
ll. append @logl logl1
ll. append xb0 = b(1)+b(2)*age+b(3)*educ+b(4)*exper+b(5)*expersq+b(6)*hushrs+b(7)*kidslt6+b(8)*unem
ll. append logp0 = log(1-@cnorm(xb0))
ll. append xb1 = c(1)+c(2)*age+c(3)*city+c(4)*educ+c(5)*exper+c(6)*expersq+c(7)*unem
ll. append sres = (lwage-xb1)/@sqrt(sig2(1))
ll. append index = (xb0+sres*rho2(1))/@sqrt(1-rho2(1)^2)
ll. append logp1 = -log(2*@acos(-1))/2-log(sig2(1))/2-sres^2/2+log(@cnorm(index))
ll. append logl1 = @recode(inlf=0,logp0,logp1)
smpl @all
ll. ml(d)
show ll. output
6. Список литературы
Mroz, T. A. (1987), “The sensitivity of an empirical model of married women’s hours of work to economic and statistical assumptions,” Econometrica 54, 657-678. , , Пересецкий . Начальный курс. — М.: Дело, 2000. , Пересецкий задач по начальному курсу эконометрики. — М.: Дело, 1999. , Мхитарян статистика и основы эконометрики. — М.: ЮНИТИ, 1998. Интернет.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 |


