Проект по курсу «Эконометрика–2»
Эконометрический анализ зарплаты замужних женщин США в 1975 году
Выполнили: Забирник Алексей
Зенкова Елена
Холодов Алексей
Москва, 2006
1. Введение
Целью данной работы проанализировать факторы, влияющие на решение замужних женщин работать или не работать, а также на величину их зарплаты. Мы использовали данные с сайта PSID (Panel Study of Income Dynamics), на которых основывалась статья [1]. Это результат опроса 753 замужних женщин США (изначально было 6373 наблюдений, но данные были основательно почищены).
Статья [1] посвящена анализу того, как различные предположения влияют на результаты разных эконометрических тестов и вид моделей. В ней на небольшой базе данных воспроизводятся модели и тесты многих других статей и делается вывод о том, что различные предположения, которые авторы этих статей делают перед построением и тестированием моделей очень сильно влияют на то, какие выводы будут получены. Зная это, можно предположить, что на курсе в разных группах получатся очень разные результаты, иногда даже противоположные. Не ставя перед собой столь амбициозных целей, мы просто построим какие–то модели сделав какие–то предположения и этим ограничимся.
Для анализа мы пользовались модели: probit, logit, tobit, классическая линейная регрессионная и Хекмана. Ниже будет дано более подробное обсуждение этих моделей, но уже сейчас скажем, что tobit и классическая линейная регрессионная модель не кажутся нам в достаточной мере адекватно описывающими процесс формирования зарплаты и решения женщин работать или не работать.
В нашей работе мы использовали эконометрические пакеты EViews и Stata. В квадратных скобках в тексте будут ссылки на текст соответствующих команд в приложении или ссылки на литературу из списка. Из контекста будет понятно, что мы имеем в виду.
2. Предварительный анализ данных
Как уже говорилось, данные были взяты с сайта PSID (www. umich. edu/~psid/). После этого они были существенно почищены и обработаны. Выброшены были семьи с неслучайным низким доходом (2876 наблюдений); не проживающие в США в 1975 и/или в 1наблюдений); семьи, в которых с 1975 по 1976 менялся муж или жена (331); дублирующиеся данные (379); семьи, в которых жены являются главой семьи (590); семьи, не являвшиеся официально зарегистрированными в 1975 и/или 1; семьи, в которых глава семьи находился на пенсии, являлся инвалидом или не работал в 1975 году по другой причине (362); семьи, в которых интервьюеры не общались с женой в 1; наблюдения с неполной информацией о дате рождения детей (5); наблюдения, где домохозяйством управлял неженатый человек (146); семьи, где жене в 1975 году было меньше 30 лет (613); семьи, где жене в 1975 было больше 60 лет (31); семьи, где мужу в 1975 было меньше 30 лет (9); семьи, где мужу в 1975 было больше 60 лет (28); семьи, в которых муж в 1975 году проработал больше 5200 часов (3); наблюдения, в которых доход семьи был больше $99999 и, поэтому, о нём не было точной информации (3); наблюдения с неизвестным облагаемым налогом доходом в 1и, наконец, одна семья, где муж заявил, что он ничего не заработал. Итого из 6373 наблюдений остались всего 753. Поскольку практически все критерии отбора основывались на экзогенных переменных, то мы будем получать несмещённые оценки в регрессиях на этих данных. Несколько смущают выброшенные 2876 наблюдений с низким доходом, но мы уже ничего не можем с этим поделать; если так сделал Мроз, наверное, он имел на то веские основания.
Но это ещё не конец. После этого данные были следующим образом переработаны. Все бюджетные ограничения были линеаризованы: средняя валовая зарплата была заменена на маржинальную чистую (после вычета налогов), а нетрудовой доход семьи был заменён на соответствующую константу (рисунок справа). Таким образом обработанные данные и были представлены нам для проекта. Все пропущенные данные были заменены нулём.
Как видим, оставшаяся выборка довольно однородна, хорошо почищена и обработана, поэтому мы можем надеяться получить робастные и легко интерпретируемые модели. В городе на момент пороса проживали 64.0% женщин. Проработали хотя–бы час в течение года 56.8%; ниже приведена гистограмма и выборочные статистики по количеству рабочих часов для тех женщин, которые работали.

Большинство (50.6%) женщин имели двенадцатилетнее образование. Меньше и больше больше двенадцати лет учились примерно поровну женщин (21.2% и 28.2% соответственно).

Разброс образования у мужчин больше чем у женщин в полтора раза, хотя средние практически совпадают. 27.6% учились меньше 12 лет, 33.2% учились ровно 12 лет и 39.2% больше 12 лет.

Что интересно, картина для образования старшего поколения (родителей жены) существенно отличается, от того, что мы наблюдали выше. Во–первых для старшего поколение модой является не 12 лет образования, а 7 (хотя следующим по частоте встречается именно двенадцатилетнее образование). Интересно, что для всех четырёх образований (образование мужа, жены, матери и отца) максимумом один и тот же — 17 лет.


В 80.5% семей не было детей дошкольного возраста, 15.7% имели одного ребёнка до 6 лет, 3.5% — двух и всего в трёх семьях было три ребёнка до шести лет. Зато детей старше шести лет в семьях было гораздо больше. В самой многодетной семье их было аж 8!

Безработица в различных регионах варьировалась от 3% до 14%. Негладкость распределения и отсутствие многих промежуточных значений объясняется тем, что безработица агрегировалась по достаточно крупным регионам (округам).

Ниже приведены выборочные статистики по некоторым личным характеристикам женщин (возраст, опыт работы), по характеристикам их работы (зарплата и количество отработанных в 1975 году часов) и некоторые характеристики мужа и семьи в целом (возраст мужа, его зарплата, количество часов, которые он работает, общий доход семьи (в долларах США) и доход семьи без учёта зарплаты жены (в тысячах долларов США)). Отрицательный доход семьи без учёта зарплаты жены (-29 долларов США) не должен нас смущать, так как это не реальный доход, а результат линеаризации бюджетного множества (см. выше).
AGE | EXPER | WAGE | HOURS | |
Mean | 42.53785 | 10.63081 | 4.177682 | 740.5764 |
Median | 43.00000 | 9.000000 | 3.481900 | 288.0000 |
Maximum | 60.00000 | 45.00000 | 25.00000 | 4950.000 |
Minimum | 30.00000 | 0.000000 | 0.128200 | 0.000000 |
Std. Dev. | 8.072574 | 8.069130 | 3.310282 | 871.3142 |
Skewness | 0.150879 | 0.960512 | 3.080139 | 0.922531 |
Kurtosis | 1.981077 | 3.701370 | 16.82129 | 3.193949 |
HUSAGE | HUSWAGE | HUSHRS | FAMINC | NWIFEINC | |
Mean | 45.12085 | 7.482179 | 2267.271 | 23080.59 | 20.12896 |
Median | 46.00000 | 6.975800 | 2164.000 | 20880.00 | 17.70000 |
Maximum | 60.00000 | 40.50900 | 5010.000 | 96000.00 | 96.00000 |
Minimum | 30.00000 | 0.412100 | 175.0000 | 1500.000 | -0.029057 |
Std. Dev. | 8.058793 | 4.230559 | 595.5666 | 12190.20 | 11.63480 |
Skewness | -0.064469 | 2.267192 | 0.566451 | 1.901387 | 2.210530 |
Kurtosis | 1.995900 | 14.50451 | 4.850939 | 9.482974 | 11.38358 |
Для женщины одна и самых главных вещей на свете это дети, поэтому логично предположить, что они будут не последними факторами, определяющими в частности и то, хочет ли женщина работать и если хочет, то на какую зарплату она согласится.
На «теневую» и реальную зарплату женщины могут напрямую или косвенно оказывать влияние такие факторы как AGE, EDUC и EXPER. По поводу последнего фактора имеется небольшое замечание, касающееся эндогенности. Предположим (утрированно) что все женщины делятся на два типа: трудоголики и лентяи. Тогда у лентяев будет очень маленький опыт и лентяи будут очень мало работать даже если работодатели будут предлагать всем одинаковые условия труда вне зависимости от опыта работы. Но в регрессиях опыт будет значим! Этот (несколько надуманный пример) показывает нам, что к этому регрессору необходимо относиться с осторожностью. К сожалению, отделить прямое влияние опыта на решение человека работать или нет и на какую зарплату соглашаться (и на решение работодателя брать на работу или нет и если брать, то какую зарплату платить) от эффекта omitted variables (в качестве пропущенной значимой переменной здесь выступают личные характеристики человека наподобие уже упомянутой лени) не представляется возможным в рамках данной работы.
Общий доход семьи FAMINC мы заведомо не можем включать в регрессоры потому что он напрямую зависит в том числе и от дохода жены, который в случае, если женщина ещё не определилась с выбором, нам не ясен. Казалось бы NWIFEINC может быть заменой FAMINC, ведь на него не влияет (явно) работа жены, но тут возникает проблема эндогенности. Дело в том, что муж с женой заранее планируют кто будет работать и сколько будет получать и решения о работе жены и мужа принимаются одновременно, что означает их большую коррелированность (в рамках одной семьи эта корреляция будет отрицательна, ведь чем больше работает муж, тем больше нужно делать дел по дому жене, и тем меньше ей нужно идти и зарабатывать деньги самой (проблема эндогенности); в то же время зарплата мужа HUSWAGE, зарплата жены, и нетрудовой доход коррелируют положительно с «крутостью» или «богатостью» семьи (omitted variables)). Всё это говорит о том, оценки влияния этих факторов на зарплату жены и решение жены работать могут быть смещены как в ту так и в другую сторону.
Так же логично предположить что ситуация в больших городах отличается от средней по стране. И уж, конечно, на зарплаты и на работу влияет уровень безработицы в штате просто по своему определению: высокая безработица это когда люди, которые обычно работают, уходят с работы или начинают получать более низкую зарплату (так как мы рассматриваем определённую социальную группу, то мы предположим что общая безработица UNEM положительно коррелированна с безработицей среди замужних женщин в возрасте от 30 до 60).
Итак нами как наиболее интересные выделены такие регрессоры: KIDSLT6+KIDSGT6, KIDSLT6, AGE, EDUC, EXPER, NWIFEINC, HUSWAGE, CITY и UNEM.
KIDSLT6+KIDSGE6 | KIDSLT6 | |
AGE | -0.503989 | -0.433949 |
CITY | -0.045628 | -0.042631 |
EDUC | -0.014235 | 0.108690 |
EXPER | -0.340290 | -0.194037 |
FAMINC | -0.027599 | -0.027781 |
FATHEDUC | 0.010221 | 0.096076 |
MOTHEDUC | 0.067950 | 0.107829 |
HOURS | -0.161574 | -0.222063 |
HUSEDUC | 0.056467 | 0.133623 |
HUSAGE | -0.475411 | -0.442991 |
HUSHRS | 0.098525 | 0.024292 |
HUSWAGE | -0.015229 | 0.032384 |
NWIFEINC | 0.036085 | 0.038201 |
UNEM | 0.009658 | -0.009050 |
WAGE | -0.086880 | -0.122895 |
Начнём с детей. Заметим, что маленькие дети, как и просто общее количество детей почти одинаково коррелируют со всеми показателями.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 |



