эконометрика 2 задание. Множественная линейная регрессия
Скачать 234.5 Kb.
|
РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИННОВАЦИОННЫХТЕХНОЛОГИЙ И ПРЕДПРИНИМАТЕЛЬСТВА ПЕНЗЕНСКИЙ ФИЛИАЛ ОТЧЕТ о выполнении лабораторной работы №2 ДисциплинаЭконометрика Тема: «Множественная линейная регрессия» Выполнил: студент гр. 08э2 Макуев Тимур Проверил: преподаватель И.Ю. Денисова 2011Цели работы: рассмотреть множественную линейную регрессию и ее характеристики; закрепить навыки решением типовой задачи на основе использованияIBMSPSSStatistics. Ход работы: Условие задачи (43) Для изучения проблемы рассмотрите следующие показатели и их значения по территориям Центрального федерального округа за 2001 г.: y1– численность безработных, тыс. чел.; x1– годовой фонд заработной платы занятых в экономике региона, млрд руб.; x2 – численность мигрантов за год, тыс. чел.; x3 – численность безработных в расчете на одну заявленную вакансию, чел.; x4 – число малых предприятий в регионе, тыс. Задание: Установить зависимость числа совершенных преступлений в регионе от социально-экономических факторов, оказывающих наибольшее воздействие на данный процесс. Выполните расчет прогнозного значения результата, предполагая, что прогнозные значения факторов составят 102,9% от их среднего уровня. Необходимо: 1. Построить линейное уравнение множественной регрессии с полным перечнем заданных показателей и оценить его; 2. Провести исключение неинформативных переменных и получить модель только с информативными переменными для уровня значимости α = 10%; 3. Построить матрицу парных коэффициентов корреляции. Установить, какие факторы мультиколлинеарны.Рассчитать множественный коэффициент корреляции; 4. Дать оценку полученного уравнения на основе коэффициента детерминации и общего F-критерия Фишера. 5. Выполнить анализ результатов, построить прогноз уровня результата, указав, при каких условиях он будет возрастать и при каких – снижаться. Таблица 1. Исходные данные
Решение задачи 1.Необходимо построить линейное уравнение множественной регрессии с полным перечнем заданных показателей и оценить его. Так как у нас после вывода результатов остались 2 надежные модели, то мы получим 2 линейных уравнения множественной регрессии для соответствующих моделей. Уравнение первой модели выглядит следующим образом: y=11,149+1,401x1 Уравнение второй модели выглядит следующим образом: y=-0,381+1,371x1+7,703x3
Величины a1=11,149 и a2=-0,381 оценивают агрегированное влияние прочих (кроме учтенных в моделях факторов x1 и x3) факторов на результат y.Величины b1 и b2 указывают, что с увеличением x1 и x2 на единицу их значений результат увеличивается соответственно на 1,401 и 1,371+7,703=9,074 соответственно. Сравнивать эти значения не следует, так как они зависят от единиц измерения каждого признака и потому несопоставимы между собой. 2. Необходимо провести исключение неинформативных переменных и получить модель только с информативными переменными для уровня значимости α = 10%. В таблице 2 фиксируется процесс пошагового включения/исключения переменных в регрессионную модель. Как видно из таблицы, очередность включения переменных такова: x1, x3. Переменные x2 и x4 не были включены, также не потребовалось исключать какую–либо переменную. Можно отметить следующие основания или критерии для такой приоритетности, хотя они и не являются полностью взаимно независимыми: Статистическая значимость, связанная с принятием данной переменной в регрессию. Значение критерия Фишера для включения каждой из этих переменных <0,1, для исключения > 0,1. Другими словами, нулевая гипотеза, состоящая в том, что результат действия случаен и статистически незначим, отвергается в первом случае и не отвергается во втором; Таблица 2. Выходная информация множественной регрессии
Модель 1 (только переменная x1) –таблица 3– объясняет почти 48% вариации зависимой переменной (R2= 0,473, скорректированныйR2 = 0,435, что несущественно). Модель 2, где добавляется переменная x3, поднимает R2, а значит, и уровень объяснения вариации до 0,627 (0,570) или чуть больше, чем на 15%. То есть основная доля вариации объясняется переменной x1. Таблица 3. Сводка для моделей
3. Построить матрицу парных коэффициентов корреляции. Установить, какие факторы мультиколлинеарны.Рассчитать множественный коэффициент корреляции. При построении уравнения множественной регрессии возникает проблема мультиколлинеарности факторов, их тесной линейной взаимозависимости. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) формах. Обычно считается, что две переменные явно коллинеарны или находятся между собой в линейной зависимости, если их коэффициент корреляции > 0,7. Однако по величине парных коэффициентов корреляции обнаруживаетсялишь явная коллинеарность факторов. Наибольшие трудности при использовании аппарата множественной регрессии возникают при наличии стохастической (скрытой) мультиколлинеарности: чем она сильнее, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с использованием R2. Точных количественных критериев для определения наличия или отсутствия скрытой коллинеарности не существует – можно говорить лишь о некоторых эвристических подходах к ее выявлению. Для оценки мультиколлинеарности факторов используется определитель матрицы парных коэффициентов корреляции между факторами: чем ближе он к нулю, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии, и наоборот. Для уравнения регрессии (где в качестве зависимой переменной выступает y1), сравним различные варианты набора независимых переменных: x1, x3; x1, x3, x2; x1, x2, x3, x4. Для каждого из этих вариантов построим матрицу парных коэффициентов корреляции и рассчитаем ее определитель. Откроем исходный файл и выполним последовательность команд Анализ ► Снижение размерности ► Факторный анализ. В диалоговом окне Факторный анализ зададим сначала переменные x1и x3, после чего нажмем кнопку Дескриптивные. Затем в окне Факторный анализ: Дескриптивные активизируем позиции для корреляционной матрицы Коэффициенты и Детерминант. Снова скомандуем ОК. Повторим эту процедуру еще два раза, задавая последовательно в качестве переменных x1, x3, x2 и x1, x3, x2,x4. В таблицах 4, 5, 6 показаны результаты – матрицы парных коэффициентов корреляции и значения детерминантов для каждого из перечисленных вариантов. Таблица 4. Корреляционная матрица для двух переменных
Таблица 5. Корреляционная матрица для трех переменных
Таблица 6. Корреляционная матрица для четырех переменных
Как видно из этих таблиц, в первом варианте (определитель равен 0,999) мультиколлинеарность невыражена, и практически равна 1, что говорит о надежности результатов множественной регрессии. Во втором варианте (0,879) с добавлением новой независимой переменной x2происходит некоторое появление, но определитель все равно остается достаточно большим. Но для третьего варианта, последобавления переменной x4, можно говорить о появлении достаточно выраженной мультиколлинеарности – определитель уменьшается в 2 раза (0,424). Отсюда следует, что данная переменная практически линейно не связана с другими. 4. Дать оценку полученного уравнения на основе коэффициента детерминации и общего F-критерия Фишера. Максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости. , где уровень значимости берется равным 0,05. Вычисляется критическое значения с помощью функции ExcelFРАСПОБР, которая возвращает обратное значение для одностороннего F-распределения вероятностей. Степени свободы берутся соответственно 1 и 14. При сравнении фактического и критического значений F-критерия Фишера для оценивания статистической надежности результатов регрессионного моделирования, выясняется, что лучшей моделью является первая модель ( , но вторая модель () также является надежной. Это означает, что гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Квадрат коэффициента корреляции Rесть индекс детерминации, определяющий качество построенной модели. Чем ближе R2к единице, тем лучше регрессия описывает связь между независимыми и зависимой переменной. В нашем случае, как видно из таблицы 3, коэффициенты детерминации в обеих моделях не высокий, но достаточно значимый, во второй модели достигает практически 0,6. Значения R2и скорректированного R2существенно различаются, это говорит о том, что используется слишком много независимых переменных при недостаточном объеме выборки. В таком случае скорректированныйR2заслуживает большего доверия. По своему математическому смыслу R2характеризует долю от общей дисперсии зависимой переменной Y, объясняемую регрессией. Иначе говоря, коэффициент детерминации определяется как отношение дисперсии, обусловленной регрессией, к общей регрессии. 5. Выполнить анализ результатов, построить прогноз уровня результата, указав, при каких условиях он будет возрастать и при каких – снижаться. Используя аналитическую систему SPSS, я получил следующие данные по коэффициентам: Таблица 7. Коэффициенты
tтабл для числа степеней свободы df=n-2=16-2=14 и =0,05 по таблице составит 2,144. Для первой модели: Случайные ошибки : . Фактическое значение не превосходит табличное, поэтому гипотеза не откланяется, правда превосходит, т.е. статистически значим. Доверительные интервалы: ; ; ; ; Анализ границ доверительных интегралов приводит к выводу о том, чтотолько параметрb1является статистически значимым. Если прогнозные значения факторов составят 102,9% от их среднего уровня, то , то Ошибка прогноза: Предельная ошибка прогноза: . Доверительный интервал прогноза: ; ; ; Диапазон границ доверительного интервала: . Для второй модели: Случайные ошибки : . Доверительные интервалы: ; ; ; ; ; ; Анализ границ доверительных интегралов приводит к выводу о том, чтотолько параметры b1и b2 являются статистически значимыми. Если прогнозные значения факторов составят 102,9% от их среднего уровня, то , , то Ошибка прогноза: Предельная ошибка прогноза: . Доверительный интервал прогноза: ; ; ; Диапазон границ доверительного интервала: . Выводы: я рассмотрел множественную линейную регрессию и ее характеристики; я закрепил навыки решением типовой задачи на основе использованияIBMSPSSStatistics. Данная работа скачена с сайта Банк рефератов http://www.vzfeiinfo.ru. ID работы: 26976 Данная работа скачена с сайта Банк рефератов http://www.vzfeiinfo.ru. ID работы: 26976 |