эконометрика. Московская финансовопромышленная академия Кафедра Математических методов принятия решений
Скачать 1.01 Mb.
|
Тема 2. Линейные и нелинейные модели парной регрессии Оценка параметров парной линейной регрессии. Метод наименьших квадратов (МНК). Оценка значимости параметров регрессии и модели в целом. Точечный и интервальный прогноз по уравнению регрессии. Линеаризация нелинейной модели. Задачи изучения: понять суть идентификации эконометрической модели и основную идею МНК, научиться оценивать параметры эконометрической модели по статистическим данным, научиться оценивать качество модели, научиться осуществлять прогнозирование по результатам моделирования, научиться преобразовывать нелинейные модели к линейным моделям. Теоретический материал Определение. Парная регрессия представляет зависимость результативного признака только от одного факторного признака. Модель имеет вид: Подбор типа функции для построения выборочного уравнения регрессии в случае парной регрессии чаще всего осуществляется на основе графического представления выборочных данных. Более точный анализ связан с получением нескольких моделей различных типов с последующим выбором наилучшей модели, более адекватно описывающей реальную связь признаков. Типы функциональной зависимости: - линейная ; - квадратическая ; - гиперболическая и др. - параметры. Критерии оптимальности модели. Используются показатели, характеризующие суммарное отклонение выборочных значений результативного признака от соответствующих значений , рассчитанных по выборочному уравнению регрессии вида . К ним, в частности, относятся: - средняя ошибка аппроксимации ; - остаточная дисперсия ; - сумма квадратов остатков . Определения и формулы. Парная линейная регрессия характеризует линейную корреляционную зависимость от . Корреляционная зависимость: Оценка корреляционной зависимости (выборочное уравнение): Уравнение регрессии: Оценка уравнения регрессии: Теоретическое отклонение: Оценка теоретического отклонения (остаток или невязка регрессии): . Выборочные значения параметров являются точечными оценками параметров парной линейной регрессии соответственно . Величина называется коэффициентом линейной регрессии. Она характеризует степень чувствительности результата от вариации фактора. Оценки параметров находят методом наименьших квадратов по формулам: , Вывод формул. . , или или Статистическое оценивание параметров регрессии. Для проверки гипотез о значимости используются критерии Стьюдента, выборочные значения которых вычисляются по формулам: , , где - оценка среднего квадратического отклонения выборочных значений факторного признака от выборочной средней, - оценка среднего квадратического отклонения выборочных значений результативного признака от соответствующих им теоретических значений, вычисленных с учетом уравнения регрессии: , , , . Далее делаются выводы: если выборочные значения параметров по абсолютной величине больше критического значения критерия Стьюдента при заданном уровне значимости, то соответствующие параметры признаются значимыми, а модель – пригодной для практического использования. В противном случае производятся дополнительные исследования, в частности, связанные с увеличением объема выборочных данных. Определение интервальных оценок параметров модели производится стандартным образом по формулам: , , где - точечные оценки средних квадратических отклонений значений параметров по выборочным данным: , . Оценка качества уравнения в целом. Оценка значимости уравнения регрессии в целом производится на основе -критерия Фишера, которому предшествует дисперсионный анализ. В математической статистике дисперсионный анализ рассматривается как самостоятельный инструмент статистического анализа. В эконометрике он применяется как вспомогательное средство для изучения качества регрессионной модели. Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной от среднего значения раскладывается на две части – «объясненную» и «необъясненную»: , где – общая сумма квадратов отклонений; – сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений); – остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов. Схема дисперсионного анализа имеет вид, представленный в таблице ( – число наблюдений, – число параметров при переменной ).
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину - критерия Фишера: . Фактическое значение -критерия Фишера сравнивается с табличным значением при уровне значимости и степенях свободы и . При этом, если фактическое значение -критерия больше табличного, то признается статистическая значимость уравнения в целом. Для парной линейной регрессии , поэтому . Величина -критерия связана с коэффициентом детерминации , и ее можно рассчитать по следующей формуле: . Прогнозирование. Построенная регрессионная модель применяется для прогнозирования результата при заданном значении фактора . Точечная оценка индивидуального прогнозного значения определяется по формуле: . Доверительный интервал для среднего значения находят по формуле: , где величина является точечной оценкой среднего квадратического отклонения прогнозного значения результата: . Доверительный интервал для оценки индивидуального значения результата определяется с учетом вариации значения результативного признака при фиксированном значении фактора: , где - оценка общей вариации результата, обусловленной действием случайных факторов , а также ошибками выборочного исследования уравнения регрессии: . Линеаризация моделей. Для приведения нелинейных моделей к линейному виду используют процедуры замены переменных и логарифмирования. Далее приведены примеры линеаризации наиболее распространенных функций. Гиперболическая функция: Сделаем замену переменных: , уравнение примет вид: . Полулогарифмическая функция: Сделаем замену переменных: , уравнение примет вид: . Обратная функция: Сделаем замену переменных: , уравнение примет вид: . Показательная функция: Прологарифмируем уравнение: , сделаем замену переменных: , , уравнение примет вид: Степенная функция: Прологарифмируем уравнение: , сделаем замену переменных: , , , уравнение примет вид: . Пример. Исследование зависимости розничного товарооборота магазинов от среднесписочного числа работников. В таблице приведены данные по 8 магазинам. x – численность работающих, (чел.), y – величина розничного товарооборота (млн. руб.).
Средние значения показателей: Вспомогательные значения для определения параметров регрессионной модели: Показатели вариации показателей: Оценки параметров парной линейной регрессии: Выборочное уравнение регрессии: Интерпретация модели: При увеличении численности занятых на одного работника величина товарооборота возрастет на 19 тысяч рублей. Свободный член в модели не имеет экономического смысла (он равен здесь величине товарооборота при нулевой численности работников). Оценки вариации параметров уравнения регрессии: Расчетные значения статистики Стьюдента: Оба коэффициента значимы при . Это означает, что ошибаясь в 5 случаях из 100, можно утверждать, что связь между x и y существенна. Коэффициент детерминации: . Это означает, что вариация товарооборота на 97% процентов обусловлена численностью работников и только на 3% - остальными факторами. Интервальные оценки для коэффициентов при : Это означает, что истинные значения коэффициентов в модели с вероятностью 95% лежат в указанных пределах. Используем модель для прогнозирования. Найдем оценку прогнозного значения товарооборота для численности работников 140 человек. Точечная оценка прогноза: Стандартная ошибка среднего значения прогноза: Интервальная оценка среднего значения прогноза: или Стандартная ошибка индивидуального значения прогноза: Интервальная оценка индивидуального значения прогноза: или . Вопросы для самопроверки Что представляет собой парная регрессионная линейная модель? В чем суть МНК? Что значит оценить значимость параметров уравнения регрессии? Каков алгоритм оценки значимости параметров парной линейной регрессии? Что значит оценить качество уравнения регрессии в целом? Каков алгоритм оценки качества парной регрессионной модели? Что такое коэффициент детерминации? Как использовать регрессионную модуль для прогнозирования? Каков алгоритм прогнозирования с использованием парной линейной регрессионной модели? Какие существуют парные нелинейные регрессионные модели? Какие существуют способы приведения нелинейных регрессионных моделей к линейным моделям? Дополнительная литература Айвазян С.А. Иванова С.С. Эконометрика. Краткий курс: учеб. пособие. – М.: Маркет ДС, 2007. – 104 с. (глава 1, п. 1.1). Доугерти К. Введение в эконометрику. – М.: ИНФРА – М, 2009. – 465 с. (Главы 1, 2,4). Елисеева И.И. Эконометрика: Учебник / под. ред. И.И. Елисеевой. – 2-е изд., перераб. и доп. – М.: Финансы и статистика, 2006. – 344 с. (глава 2). Интернет-ресурсы http://www.nsu.ru/ef/tsy/ecmr/index.htm http://subscribe.ru/archive/science.humanity.econometrika/200007/17050500.html http://www.statsoft.ru/home/textbook/glossary/default.htm Тема 3. Модели множественной регрессии Подбор факторов множественной регрессии. Оценка параметров и их значимости уравнения множественной линейной регрессии. Точечный и интервальный прогноз по уравнению регрессии. Фиктивные переменные. Задачи изучения: научиться отбирать факторы для модели множественной регрессии, научиться оценивать параметры модели множественной регрессии, научиться оценивать качество модели множественной регрессии, научиться использовать модель множественной регрессии для прогноза, научиться строить модель с фиктивными переменными. Теоретический материал Выбор факторов. В большинстве случаев существенное влияние на результат оказывают несколько факторов. Модель множественной регрессии, характеризующая зависимость между тремя и более признаками имеет вид: . Функция корреляционную зависимость признака от факторов . Построение моделей множественной регрессии включает следующие взаимосвязанные задачи: - отбор факторных признаков; - выбор формы связи; - статистическое оценивание параметров уравнения регрессии; - проверка адекватности модели. Для решения проблемы отбора факторных признаков используют следующие методы: - метод экспертных оценок, основанный на интуитивно-логических предпосылках и содержательно-качественном анализе информации с привлечением специальных экспертов; - метод корреляции, базирующийся наанализе выборочных значений показателей связи различных факторов; - метод шаговой регрессии, который заключается в последовательном включении факторов в уравнение регрессии и последующей проверке их значимости. Критериями отбора факторов методом корреляции являются следующие соотношения: , где - коэффициенты корреляции между результатом и каждым из факторов, - коэффициент корреляции между факторами. Невыполнение последнего неравенства свидетельствует о наличии явления мультиколлинеарности - тесной связи между факторными признаками, которое приводит к искажению величин параметров модели. Устранение явления мультиколлинеарности реализуют путем устранения одного из факторов, либо их объединения в один общий фактор. Шаговая регрессия является наиболее приемлемым способом отбора факторных признаков. При проверке значимости очередного введенного фактора определяется, насколько уменьшается сумма квадратов остатков и увеличивается величина коэффициента множественной корреляции. Фактор считается несущественным, если: - его включение в уравнение регрессии только изменяет значение коэффициентов регрессии, не изменяя суммы квадратов остатков; - коэффициенты регрессии меняют не только величину, но и знаки, а множественный коэффициент корреляции не возрастает; - на основе результатов статистического оценивания поверки значимости. Фактор считается существенным, если увеличивается значение множественного коэффициента корреляции при неизменном коэффициенте регрессии. Выбор формы связи осуществляется перебором моделей с учетом показателей меры отклонений эмпирических и теоретических данных, как и в случае парной регрессии. Линейные модели множественной регрессии. Наиболее распространены линейные модели множественной регрессии. Они имеют вид: . - детерминированная составляющая. - выборочное уравнение регрессии. - регрессионная модель, найденная по выборочным данным. Оценка параметров выборочного уравнения регрессии производится на основе метода наименьших квадратов, применяемого в матричном виде. Вывод формулы для оценок коэффициентов регрессии. В матричном виде: Нормальное уравнение: Окончательно: , где величины , , представляют матричную форму записи значений параметров и признаков, определенных по выборочным данным: , , , . Значения представляют собой средние значения признака по результатам -го наблюдения при фиксированных значениях всех учитываемых факторов: . Коэффициент детерминации и скорректированный коэффициент детерминации Коэффициентом детерминации . R2 возрастает при добавлении еще одного регрессора, поэтому для выбора между несколькими регрессионными уравнениями не следует полагаться только на R2. Попыткой устранить эффект, связанный с ростом R2 при увеличении числа регрессоров, является коррекция R2 на число регрессоров - наложение "штрафа" за увеличение числа независимых переменных. Скорректированный R2 . Здесь в числителе - несмещенная оценка дисперсии ошибок, в знаменателе - несмещенная оценка дисперсии Y. Свойства скорректированного R2: 1. ; 2. ; 3. Использование для сравнении регрессий при изменении числа регрессоров более корректно. Оценка качества модели. Проблема практической пригодности моделей множественной регрессии связана с решением двух взаимосвязанных задач: - статистическое оценивание параметров уравнения регрессии; - проверка гипотезы о несоответствии заложенных в уравнение регрессии и реально существующих связей между признаками. В соответствии с решением этих задач возможны следующие варианты выводов о приемлемости модели: - если все параметры значимы и сформулированная гипотеза отвергается, то модель считается пригодной для принятия решений; - если часть параметров незначима и гипотеза отвергается, то модель неприменима при решении задачи прогнозирования, однако может быть использована в экономическом анализе путем интерпретации отдельных ее параметров; - если все параметры незначимы, то модель считается непригодной для практического использования. Оценка значимости параметров регрессии производится с использованием критерия Стьюдента в виде: , . Величина является оценкой среднего квадратического для : , где - диагональные элементы матрицы , - оценка среднего квадратического остатков: . Доверительные интервалы параметров регрессии находят по формулам: . Анализ адекватности модели осуществляется как проверка гипотезы о несоответствии заложенных в уравнение и реально существующих связей. Используется статистический критерий Фишера: . С целью расширения возможностей экономического анализа используются частные коэффициенты эластичности, определяемые по формулам: , где - средние выборочные значения признаков . Коэффициент эластичности показывает, на сколько процентов в среднем изменится значение результативного признака при изменении -го фактора на один процент. Прогнозирование. Доверительный интервал прогноза находят по формуле: , , где - вектор заданных значений факторов. Фиктивные переменные. Может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными. Вопросы для самопроверки Что представляет собой модель множественной регрессии? Каковы проблемы подбора факторов в модели множественной регрессии? Каков алгоритм подбора факторов в множественной регрессии? Какие существуют методы оценки параметров множественной регрессии? Каков алгоритм применения МНК для оценки параметров множественной линейной регрессии? Каков алгоритм оценки значимости параметров множественной линейной регрессии? Каков алгоритм оценки качества уравнения множественной линейной регрессии в целом? Каков алгоритм прогнозирования с использованием модели множественной линейной регрессии? Что означают фиктивные переменные? Каков алгоритм применения фиктивных переменных в моделях множественной линейной регрессии? Дополнительная литература Айвазян С.А. Иванова С.С. Эконометрика. Краткий курс: учеб. пособие. – М.: Маркет ДС, 2007. – 104 с. (глава 1, п. 1.2, глава 2, п.2.1). Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. – М.: Юнити, 2001. – 430 с. (глава 1, глава 2, п. 2.2, п.2.3). Доугерти К. Введение в эконометрику. – М.: ИНФРА – М, 2009. – 465 с. (Главы 3, 5). Елисеева И.И. Эконометрика: Учебник / под. ред. И.И. Елисеевой. – 2-е изд., перераб. и доп. – М.: Финансы и статистика, 2006. – 344 с. (глава 3, п.3.1- п.3.9). Интернет-ресурсы http://www.nsu.ru/ef/tsy/ecmr/index.htm http://subscribe.ru/archive/science.humanity.econometrika/200007/17050500.html http://www.statsoft.ru/home/textbook/glossary/default.htm |