На лекции нам говорили, что в большинстве случаев результаты, получаемые при помощи моделей logit и probit очень схожи. Мы не упустили возможность подтвердить это.
Dependent Variable: INLF |
| |||
Method: ML - Binary Logit |
| |||
Sample: 1 753 |
| |||
Included observations: 753 |
| |||
Convergence achieved after 7 iterations |
| |||
Covariance matrix computed using second derivatives |
| |||
Variable | Coefficient | Std. Error | z-Statistic | Prob. |
C | 1.783748 | 0.854837 | 2.086654 | 0.0369 |
AGE | -0.097963 | 0.013652 | -7.175865 | 0.0000 |
EDUC | 0.194363 | 0.040801 | 4.763717 | 0.0000 |
EXPER | 0.206966 | 0.032050 | 6.457580 | 0.0000 |
EXPERSQ | -0.003073 | 0.001018 | -3.019382 | 0.0025 |
HUSHRS | -0.000290 | 0.000148 | -1.963113 | 0.0496 |
KIDSLT6 | -1.468572 | 0.201601 | -7.284542 | 0.0000 |
UNEM | -0.036691 | 0.028055 | -1.307825 | 0.1909 |
Mean dependent var | 0.568393 | S. D. dependent var | 0.495630 | |
S. E. of regression | 0.427147 | Akaike info criterion | 1.091258 | |
Sum squared resid | 135.9287 | Schwarz criterion | 1.140385 | |
Log likelihood | -402.8585 | Hannan-Quinn criter. | 1.110184 | |
Restr. log likelihood | -514.8732 | Avg. log likelihood | -0.535005 | |
LR statistic (7 df) | 224.0294 | McFadden R-squared | 0.217558 | |
Probability(LR stat) | 0.000000 | |||
Obs with Dep=0 | 325 | Total obs | 753 | |
Obs with Dep=1 | 428 | |||
Видим, что все коэффициенты в logit приблизительно в
раз больше, чем в probit. Все p–значения, а также все значения во второй части вывода практически совпадают.
Эти модели очень похожи и по качеству предсказаний, что можно видеть на графике, с где с одной стороны точность модели (количество правильно предсказанных INLF для разного C) для probit, а с другой — для logit.

5. Построение оценок МНК
Для построение оценки МНК мы выберем факторы, которые априори формируют зарплату на рынке труда, поэтому в модель войдут личные характеристики женщины и состояние рынка труда. В дополнение к предложенным регрессорам AGE, EXPER, EXPERSQ было решено добавить CITY, EDUC, UNEM. Ясно, что зарплата сильно зависит от образования человека и от возраста, тесно коррелирует с опытом работы и с каждым дополнительным годом заявленного опыта растет медленнее при большом опыте. Стоит ожидать положительного и соответственно отрицательного коэффициентов при EXPER, EXPERSQ. Исторически сложилось, что в городе зарплаты выше и этот фактор тоже может влиять на уровень зарплаты (однако на это можно возразить, что в городе и уровень образования выше как и другие факторы, которые положительно влияют на зарплату — влияет ли фактор города на зарплату сам по себе, не ясно). Как известно в случае высокой безработицы зарплаты ниже и наоборот, поэтому уровень безработицы должен влиять на зависимую переменную.
Переменная HOURS, если мы её включим в регрессии, будет высоко значима, однако, с точки зрения работодателя, количество рабочих часов не влияет на почасовую зарплату. Эти переменные будут скоррелированы, но по другим причинам — проблема эндогенности.
Для оценки по методу наименьших квадратов возьмем в качестве зависимой переменной LWAGE и LOG(WAGE+1) (последнее является альтернативой LWAGE и лучше в том плане, что годится для оценивания цензурированной tobit–модели и не придаёт слишком большого веса зарплатам близким к нулю для урезанной tobit–модели, но хуже в том плане, что WAGE обычно не велико и это затрудняет интерпретацию коэффициентов в регрессиях, так как LWAGE и LOG(WAGE+1) могут существенно отличаться). Именно единица добавляется к WAGE для того, чтобы получившееся отображение оставляло 0 на месте (для использования в моделях tobit и Хекмана).
Dependent Variable: LWAGE | ||||
Method: Least Squares | ||||
Sample(adjusted): IF INLF=1 | ||||
Included observations: 428 after adjusting endpoints | ||||
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | -0.504705 | 0.282383 | -1.787305 | 0.0746 |
AGE | -1.98E-05 | 0.004919 | -0.004028 | 0.9968 |
CITY | 0.058767 | 0.069574 | 0.844673 | 0.3988 |
EDUC | 0.106243 | 0.014455 | 7.349817 | 0.0000 |
EXPER | 0.041370 | 0.013248 | 3.122619 | 0.0019 |
EXPERSQ | -0.000805 | 0.000402 | -2.003742 | 0.0457 |
UNEM | -0.004349 | 0.010956 | -0.396939 | 0.6916 |
R-squared | 0.158401 | Mean dependent var | 1.190173 | |
Adjusted R-squared | 0.146406 | S. D. dependent var | 0.723198 | |
S. E. of regression | 0.668163 | Akaike info criterion | 2.047652 | |
Sum squared resid | 187.9522 | Schwarz criterion | 2.114040 | |
Log likelihood | -431.1975 | F-statistic | 13.20634 | |
Durbin-Watson stat | 1.870331 | Prob(F-statistic) | 0.000000 |
Тест Уайта на гетероскедастичность ошибок:
White Heteroskedasticity Test: | |||
F-statistic | 1.857191 | Probability | 0.049439 |
Obs*R-squared | 18.24906 | Probability | 0.050905 |
Dependent Variable: LOG(WAGE+1) | ||||
Method: Least Squares | ||||
Sample(adjusted): IF INLF=1 | ||||
Included observations: 428 after adjusting endpoints | ||||
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | 0.236242 | 0.197577 | 1.195692 | 0.2325 |
AGE | 6.66E-06 | 0.003442 | 0.001936 | 0.9985 |
CITY | 0.048648 | 0.048679 | 0.999360 | 0.3182 |
EDUC | 0.083181 | 0.010114 | 8.224325 | 0.0000 |
EXPER | 0.024424 | 0.009270 | 2.634839 | 0.0087 |
EXPERSQ | -0.000453 | 0.000281 | -1.610610 | 0.1080 |
UNEM | -0.003412 | 0.007665 | -0.445153 | 0.6564 |
R-squared | 0.176009 | Mean dependent var | 1.503598 | |
Adjusted R-squared | 0.164266 | S. D. dependent var | 0.511383 | |
S. E. of regression | 0.467499 | Akaike info criterion | 1.333381 | |
Sum squared resid | 92.01176 | Schwarz criterion | 1.399768 | |
Log likelihood | -278.3434 | F-statistic | 14.98803 | |
Durbin-Watson stat | 1.966488 | Prob(F-statistic) | 0.000000 |
Тест Уайта на гетероскедастичность ошибок:
White Heteroskedasticity Test: | |||
F-statistic | 2.160173 | Probability | 0.019342 |
Obs*R-squared | 21.07958 | Probability | 0.020545 |
Видим, что обе регрессии по многим позициям не отличаются, хотя в некоторых местах отличия существенны (например, коефициент при EDUC различается в два раза). Конечно, эти регрессии не стоит воспринимать всерьёз, потому что они построены по урезанным выборкам и оценки коэффициентов являются смещёнными и несостоятельными. Однако на них можно смотреть как на оценку коэффициентов частной корреляции зависимой переменной и регрессоров. Интерпретация коэффициентов в модели линейной регрессии очень проста. Мы вернёмся к этим регрессиям позже.
Так же заметим, что ошибки регрессии не являются гомоскедастичными. Пересчитывать p–значения в форме Уайта мы не будем, так как нам сейчас это далеко не принципиально — задача проекта не в этом.
Ниже мы покажем, что решение работать или нет не зависят от зарплаты (грубо говоря), поэтому оценки МНК будут несмещёнными и состоятельными. Однако в этом случае отвергается гипотеза гомоскедастичности ошибок, что говорит о том, что ничего из того что мы делаем не является истинным ибо во всех моделях от probit до модели Хекмана мы предполагаем совместное нормальное распределение ошибок.
6. Построение урезанной tobit–модели
Построим урезанную tobit–модель, используя те же регрессоры, что и в МНК. Совершенно не удивительно, что мы получаем почти один в один те же коэффициенты, что и в МНК. Дело в том, что функция правдоподобия для оценивания урезанной tobit–модели совпадает с функцией правдоподобия для оценивания нормальной линейной регрессионной модели, а оценки ММП и МНК для классической нормальной линейной регрессионной модели совпадают. То небольшое различие, которое присутствует, можно объяснить вычислительными погрешностями и различными методами подсчёта одной и той же величины.
Dependent Variable: LOG(WAGE+1) | ||||
Method: ML - Censored Normal (TOBIT) | ||||
Sample(adjusted): | ||||
Included observations: 428 after adjusting endpoints | ||||
Truncated sample | ||||
Left censoring (value) at zero | ||||
Convergence achieved after 8 iterations | ||||
Covariance matrix computed using second derivatives | ||||
Coefficient | Std. Error | z-Statistic | Prob. | |
C | 0.216108 | 0.199637 | 1.082507 | 0.2790 |
AGE | -2.52E-05 | 0.003463 | -0.007291 | 0.9942 |
CITY | 0.049552 | 0.048994 | 1.011391 | 0.3118 |
EDUC | 0.084362 | 0.010240 | 8.238758 | 0.0000 |
EXPER | 0.024931 | 0.009361 | 2.663207 | 0.0077 |
EXPERSQ | -0.000464 | 0.000284 | -1.634674 | 0.1021 |
UNEM | -0.003485 | 0.007710 | -0.451990 | 0.6513 |
Error Distribution | ||||
SCALE:C(8) | 0.466905 | 0.016463 | 28.36066 | 0.0000 |
R-squared | 0.176810 | Mean dependent var | 1.503598 | |
Adjusted R-squared | 0.163091 | S. D. dependent var | 0.511383 | |
S. E. of regression | 0.467828 | Akaike info criterion | 1.334568 | |
Sum squared resid | 91.92233 | Schwarz criterion | 1.410440 | |
Log likelihood | -277.5976 | Hannan-Quinn criter. | 1.364533 | |
Avg. log likelihood | -0.648593 | |||
Left censored obs | 0 | Right censored obs | 0 | |
Uncensored obs | 428 | Total obs | 428 |
Понимая, что модель очень плохая, мы всё же чисто формально немного поработаем с ней. Для начала обоснуем возможность выбрасывания всех статистически незначимых регрессоров.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 |


