Домашняя работа семестр 2. Регрессионный анализ
Скачать 50.64 Kb.
|
Домашняя работа по дисциплине «Эконометрика» тема: «Регрессионный анализ» В рамках данного задания мы будем проводить небольшое эконометрическое исследование на данных Российского мониторинга экономического положения и здоровья населения (РМЭЗ, он же RLMS). Опишем предварительные шаги, которые Вам надо будет сделать, прежде чем приступать к работе с данными. 1) Первый шаг - это выбрать данные согласно своему варианту. 2) Для загрузки данных в R необходимо воспользоваться пакетом rlms: Пакет rlms предназначен для работы с данными исследования RLMS в R. Пакет можно установить командами: install.packages("devtools") devtools::install_github("bdemeshev/rlms") или devtools::install("./rlms-master") 3) Для исследования необходимо составить массив данных с отобранными переменными1: Заработной платой на основе переменной *j13.2 Возрастом на основе переменной *_age Полом на основе переменной *h5 Наличием высшего образования на основе переменной *j72.5a Типом населенного пункта на основе переменной status Средней продолжительностью рабочей недели на основе переменной *j6.2 Семейным положением на основе переменной *j322 Удовлетворенностью условиями труда на основе переменной *j1.1.2 Описание переменных можно посмотреть файле описания для конкретной волны. Чтобы получить массив для анализа нужно сделать следующие шаги: 1) Подгрузить пакеты и файл. 2) Отобрать только 8 переменных, описанных выше. 3) Отобрать только тех людей, у которых семейное положение входит в данный список: Никогда в браке не состоял(а) Состоите в первом зарегистрированном браке Состоите в повторном зарегистрированном браке Разведены Вдовец/вдова 4) Отобрать только два типа населённого пункта: город и областной центр. 5) Отобрать только две категории степени удовлетворенности условиями труда: полностью удовлетворен и скорее удовлетворен. 6) Отобрать только тех людей, кто на вопрос про высшее образование ответил: Учились Учитесь Нет 7) Из переменной тип населенного пункта сделать дамми-переменную, равную 1 для города и 0 для областного центра. 8) Из переменной удовлетворённость условиями труда сделать дамми-переменную, равную 1 для полностью удовлетворен и 0 для скорее удовлетворен. 9) Из переменной пол сделать дамми-переменную, равную 1 для мужчин и 0 для женщин. 10) Переменную семейное положение необходимо превратить в набор фиктивных переменных. Использовать будем следующие категории: Никогда в браке не состоял(а) Состоите в зарегистрированном браке или состоите в повторном зарегистрированном браке Разведены Вдовец/вдова В итоге Вы должны получить 4 фиктивные переменные, отвечающие за принадлежность респондента к одной из этих категорий. 11) Из переменной высшее образование сделать дамми-переменную, равную 1 для тех, кто получил или получает высшее образование, и 0 для тех, кто не получал. 12) Создать массив данных, очищенный от пропущенных наблюдений, NA. Таким образом, у Вас должно получиться массив данных без NA! Теперь, когда данные скачаны, загружены в R и отобраны в массив, Вы можете приступать к выполнению заданий. Задание 1. Рассчитайте основные характеристики для всех рядов вашего массива данных. Определите чему равно количество женатых мужчин в его выборке? Чему равно миниальное значение заработной платы, указанной респондентами? Примечание: в этом задании необходимо представить таблицу с характеристиками переменных, такими как среднее значение, стандартное отклонение или вариация, минимальное максимальное значение и медиана, как в целом по выборке, так и отдельно по мужчинам и женщинам. Сделайте вывод. Задание 2. Проведите графический анализ данных: постройте гистограммы заработной платы в зависимости от пола респондента, места проживания и наличия высшего образования и семейного положения. Примечание: в итоге у Вас должно получиться четыре графика. Сделайте вывод. Задание 3. Оцените зависимость заработной платы в рублях, респондента от дамми на пол , возраста в годах, дамми на наличие высшего образования , дамми на проживание в городе или областном центре , дамми на удовлетворённость условиями труда , средней продолжительности рабочей недели в часах и три дамми на семейный статус, беря одиноких людей за базовую категорию. Дайте характеристику качества полученной модели: укажите чему равен скорректированный , как интерпретируется тест Фишера, а также укажите переменные значимо влияющие на результат, дайте их интерпретацию. Выпишите уравнение для разведенной женщины, проживающей в городе, имеющей высшее образование. Примечание: в данном задании надо привести таблицу с коэффициентами модели, а также с указанием качественных характеристик модели. Выпишите уравнение для разведенной женщины, проживающей в городе, имеющей высшее образование Задание 4. С помощью критерия VIF проверьте построенную в п.3 модель на мультиколлинеарность. Для этого используйте пакет library(car) . Сделайте вывод. Задание 5. Оценив регрессию, проведите формальный тест на гетероскедастичность, а именно тест Бройша-Пагана. Для этого используйте пакет library(lmtest) . Чему равно наблюдаемое значение тестовой статистики в данном тесте? И какой можно сделать вывод. Задание 6. Если есть гетероскедастичность в данных, оцените регрессию и проверьте гипотезы, используя стандартные ошибки с поправкой на гетероскедастичность. Для этого используйте пакет library(lmtest) . Какие факторы являются значимыми при робастных ошибках? Как изменились Ваши выводы относительно влияния переменных по сравнению с выводами из п.3? Для чего необходимо было переходить к робастным оценкам? Примечание: как и в п.3 в этом задании должна быть представлена таблица с результатами анализа. Задание 7. Вам необходимо проверить, можно ли использовать более короткую модель без дамми на семейный статус с помощью теста Вальда. Для этого используйте пакет library(lmtest) функцию waldtest(). Альтернативная модель имеет следующйи вид: При тестировании гипотезы о нескольких линейных ограничениях, как рассчитывается и чему равно значение тестовой статистики? И какой Вы сделаете вывод. Задание 8. Также сравните две модели с помощью информационных критериев AIC и BIC. Для этого используйте пакет library(memisc) . Какой вывод Вы можете сделать? Задание 9. Возможно в Вашей первой модели есть пропущенные переменные в данных, поэтому необходимо провести тест Рамсея на пропущенные переменные. Для этого используйте пакет library(lmtest) . Какой вывод после проведения теста можете сделать? Предложите свою спецификацию модели. Оцените её и проверьте с помощью теста Рамсея на пропущенные переменные. Задание 10. Теория человеческого капитала утверждает, что модель заработной платы – это полулогарифмическую модель: Оцените уравнение полулогарифмической модели, дайте интерпретацию всех значимых оценок коэффициентов модели. Какая из моделей (из п.3 или п.10) лучше описывает исходные данные? Для ответа на этот вопрос проведите тест Бокса-Кокса (в ответе приведите гипотезу теста и его результат). Если данная модель лучше модели из п.3, повторите для нее все задания с 4 по 9. 1 Вместо «*» ставим букву согласно своей волне. |