Гефан Г.Д. Эконометрика, 2005. Учебное пособие для студентов специальностей Бухгалтерский учёт, анализ и аудит
Скачать 0.9 Mb.
|
Пример 11. На основе данных примера 10 проверим значимость ко- эффициента регрессии a при = 0.05. Основная гипотеза имеет вид 0 : 0 a H при конкурирующей гипотезе 0 : 1 a H . Ранее было получе- но: 011 0 , 12 0 * a s a Следовательно, наблюдаемое значение критерия 18 3 ) 3 , 05 0 ( 2 011 0 12 0 cr a t t T (Критическая точка найдена по приложению 1.) Основная гипотеза отвер- гается. Влияние числа зарегистрированных автомобилей на число дорож- но-транспортных происшествий значимо. 6.4. Как анализировать вариацию по уравнению регрессии? Зададимся вопросом: какую часть вариации признака Y описывает регрессия по X ? По сути, это вопрос о качестве регрессии. Для ответа на него применяется метод дисперсионного анализа, в котором полная вариа- ция признака «разбивается на части», соответствующие различным причи- нам (объясняемым и случайным). Общая дисперсия значений Y относительно выборочной средней арифметической y равна 25 ). ( ) ( 2 ) ( 1 ) ( 1 ) ( 1 ) ( 1 2 2 2 2 y y y y n y y n y y n y y y y n y y n D x x i x x i x x i i Рассмотрим последнее из трёх слагаемых. 0 ) ( 1 ) )( ( 1 ) ( ) ( ) ( ) )( ( 1 2 2 * 2 * * * * * x x xy xy i i i i i i i x x x i a x x n a x x y y n a x x x x a y y n a x x a y y y y y y n Здесь y x xy x x y y n i i xy ) )( ( 1 – оценка ковариации. Таким об- разом, в формуле для общей дисперсии остаётся два слагаемых, из кото- рых первое описывает рассеивание наблюдаемых значений Y относительно линии регрессии, а второе – вариацию Y, объясняемую вариацией X (ана- лог межгрупповой дисперсии). Домножив эту формулу на n, получим 2 2 2 r e S S S , где 2 2 ) ( y y S i – полная сумма квадратов; 2 2 ) ( y y S x r – сумма квадратов, объясняемая регрессией; 2 2 ) ( x i e y y S – остаточная сумма квадратов. Коэффициентом детерминации регрессионной модели называется величина 2 2 2 S S r r В силу определения, 1 0 2 r . Идеальный случай 1 2 r означает, что результаты всех наблюдений лежат на линии регрессии, а все ос- татки регрессии равны нулю. Чем выше r 2 , тем выше качество рег- рессии. Коэффициент детерминации равен квадрату коэффициента линейной корреляции ( 2 2 xy r r ). 26 6.5. Как связаны между собой коэффициент детерминации и коэффициент линейной корреляции? Легко видеть, что 2 2 2 2 * 2 2 2 * 2 2 2 ) ( ) ( ) ( ) ( ) ( ) ( xy y x i i i x r a y y x x a y y y y r , т.е. коэффициент детерминации равен квадрату коэффициента корреляции. Замечание. Коэффициент детерминации может использоваться не только в модели линейной регрессии. Однако в нелинейных моделях коэф- фициент линейной корреляции xy r утрачивает смысл. В этих случаях из- мерителем тесноты корреляции является так называемое корреляционное отношение, определяемое как корень квадратный из коэффициента детер- минации. 6.6. Как убедиться, что регрессия является значимой? Даже если между Y и X отсутствует зависимость, коэффициент де- терминации, вычисленный по некоторой выборке, вряд ли окажется в точ- ности равным нулю (это может произойти только случайно). Следователь- но, при относительно небольших значениях 2 r (скажем, менее 0.3) возни- кает проблема: действительно ли существует регрессионная зависимость между Y и X , или отличие 2 r от нуля является случайным (незначимым). Конечно, этот вопрос достаточно тесно связан с проблемой значимости ко- эффициента регрессии a (см. п. 6.3), однако для ответа на него существует особый способ, называемый F - тестом. F -статистикой парной регрессии называется величина 2 2 2 2 2 : s S n S S F r e r , т.е. отношение объясняемой суммы квадратов к квадрату стандарт- ной ошибки оценки Y . Легко связать F -статистику с коэффициентом детерминации. Поде- лим числитель и знаменатель на полную сумму квадратов 2 S : ) 2 ( 1 ) 2 ( : ) 2 ( : 2 2 2 2 2 2 2 2 2 2 2 n r r n S S S S S n S S S S F r r e r Пусть имеется оценка регрессии уравнением * * b x a y x и вычислена F - статистика. Сформулируем правило проверки гипотезы о том, что ко- эффициент детерминации незначим, т.е. регрессия имеет нулевое качество. 27 При заданном уровне значимости гипотезы находим критическую точку распределения Фишера (см. приложение 2). При ) 2 , 1 , ( n F F cr нет оснований отклонить основную гипотезу, иначе H 0 отвергается. Последнее будет означать: такая величина ко- эффициента детерминации не могла появиться случайно. Пример 12. В течение 5 лет в городе Nсопоставлялись данные об уровне потребления алкогольных напитков (Х, усл. ед. на 1 чел.) и уровне травматизма (Y, число травмированных на 1000 жителей). Требуется: оценить линейную регрессию Y на X уравнением * * b x a y x ; с помощью коэффициента детерминации r 2 выявить долю вариации (%), объясняемую линейной регрессией Y по X; с помощью F - теста проверить значимость регрессии. Решение. Удобно составить следующую таблицу: Итак, 63 30 685 3 x y x , S 2 = 524.8, 2 r S 396.5, 2 e S 128.3, r 2 = 0.756. Это значит, что 75.6% вариации уровня травматизма объясняется вариацией уровня потребления алкогольных напитков, а остальные 24.4% – вариацией других факторов, не учтённых в модели. Значение F -статистики: F 9.27. Критическая точка распределения Фишера: ) 3 , 1 , 05 0 ( cr F 10.13. Т.к. ) 2 , 1 , ( n F F cr , регрессия оказыва- ется незначимой. Интерпретация полученного результата такова. Возможно, что низ- кое качество регрессии объясняется слабой связью количественных при- знаков. Однако для большей уверенности необходимо увеличить количе- ство наблюдений. Если при этом коэффициент детерминации не упадёт, то, возможно, регрессия будет признана значимой. i x 15 13 17 18 20 i y 80 85 90 94 110 i i x i y 2 i x i i y x * * b x a y i x 2 ) ( y y i 2 ) ( y y x 2 ) ( x i y y 1 15 80 225 1200 85.90 139.24 34.76 34.86 2 13 85 169 1105 78.53 46.24 175.98 41.81 3 17 90 289 1530 93.27 3.24 2.17 10.72 4 18 94 324 1692 96.96 4.84 26.61 8.76 5 20 110 400 2200 104.33 331.24 156.97 32.16 сумма 83 459 1407 7727 – 524.80 396.50 128.30 средняя 16.6 91.8 281.4 1545.4 – – – – 28 7. МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ 7.1. Почему модель парной регрессии часто является не- достаточной? Как выглядит модель множественной регрессии? Занимаясь корреляционно-регрессионным анализом, всегда прихо- дится иметь в виду, что зависимость некоторого количественного признака Y от какой-либо переменной X — не единственная (и, может быть, не самая существенная) причина вариации Y. Как правило, существует по крайней мере две-три переменные, влияние которых на Y является сопоставимым по важности. Мы, например, решали задачу о зависимости цены квартиры от её площади. Но за рамками рассмотрения осталось влияние других об- стоятельств: удалённость от центра города, этаж, количество комнат и т.д. Между тем, без всяких вычислений ясно, что роль этих факторов весьма существенна. Такого рода проблемы приводят к необходимости построения моде- ли множественной регрессии, когда вместо одной объясняющей перемен- ной X используется несколько переменных X 1 , X 2 , ..., X k .. При этом, как и в случае парной регрессии, нужно остерегаться ошибок в определении функциональной спецификации модели. Если мы строим, скажем, линей- ную модель регрессии, то нельзя включать в неё те переменные, зависи- мость от которых имеет более сложный характер. Например, зависимость цены квартиры от этажа, на котором она находится, имеет явно нелиней- ный характер (цена квартир на 1-ом и последнем этажах дома всегда не- сколько ниже, чем на средних этажах). Линейная модель множественной регрессии является естественным обобщением линейной модели парной регрессии. Предполагается, что количественный признак Y связан с объясняю- щими переменными X 1 , X 2 , ..., X k линейной зависимостью ), ..., , 1 ( 2 2 1 1 n i b x a x a x a y i ki k i i i где i – номер наблюдения; i – ошибка регрессии; b a a a k , ,..., , 2 1 – неиз- вестные параметры линейной функции регрессии. Задача состоит в оценке регрессии уравнением * * 2 * 2 1 * 1 ,..., , 2 1 b x a x a x a y k k x x x k Основные допущения остаются прежними (см. п. 5.1). Величины X 1 , X 2 , ..., X k полагаются детерминированными. Ошибка регрессии представляет со- бой нормальную случайную величину с 2 ) ( ; 0 ) ( i i D M вне зави- симости от i (гомоскедастичность). Ошибки разных наблюдений некорре- лированы: 0 ) ε ε ( j i M ( j i ). 29 7.2. Как найти оценки параметров множественной регрессии? Как и в случае парной регрессии, для нахождения оптимальных оце- нок неизвестных значений параметров необходимо воспользоваться мето- дом наименьших квадратов (см. п.4.1). Итак, требуется минимизировать функцию n i ki k i i i k b x a x a x a y b a a a S 1 2 2 2 1 1 2 1 ) ( ) , ,..., , ( Запишем необходимые условия экстремума функции S (как и раньше, ин- дексацию по номеру наблюдения i опускаем): , 0 ) ( 2 , 0 ) ( 2 , 0 ) ( 2 , 0 ) ( 2 1 1 1 1 2 1 1 2 1 1 1 1 b x a x a y b S x b x a x a y a S x b x a x a y a S x b x a x a y a S k k k k k k k k k k или ) ( ) ( ) ( , ) ( ) ( ) ( , ) ( ) ( ) ( , ) ( ) ( ) ( 2 2 1 1 2 2 2 1 1 2 2 2 2 2 2 1 2 1 1 1 1 2 1 2 1 2 1 y bn a x a x a x y x x b a x a x x a x x y x x b a x x a x a x x y x x b a x x a x x a x k k k k k k k k k k k k После деления на n получим: , , , 2 2 1 1 2 2 2 1 1 2 2 2 2 2 2 1 2 1 1 1 1 2 1 2 1 2 1 y b a x a x a x y x b x a x a x x a x x y x b x a x x a x a x x y x b x a x x a x x a x k k k k k k k k k k k k 30 Итак, получена система k+1 линейных алгебраических уравнений с k+1 не- известными. При большом числе неизвестных обычно используют методы линейной алгебры, записывая систему в матричном виде, чего мы делать не будем. Как правило, в этих случаях система решается с помощью ком- пьютерных программ (например, “Анализ данных” в Excel). Если k неве- лико (2 или 3), то решить систему нетрудно даже вручную. Интересным представляется рассмотреть частный случай, когда в модель регрессии включены две независимые переменные: i i i i b x a x a y 2 2 1 1 Система уравнений на параметры функции регрессии b a a , , 2 1 имеет вид , , 2 2 1 1 2 2 2 2 2 1 2 1 1 1 2 1 2 1 2 1 y b a x a x y x b x a x a x x y x b x a x x a x Исключим из системы неизвестную b: ) ( , ) ( ; 2 2 2 2 2 2 2 1 2 1 2 1 1 1 2 2 1 2 1 1 2 1 2 1 2 2 1 1 y x y x a x x a x x x x y x y x a x x x x a x x a x a x y b Коэффициентами последней системы являются выборочные дисперсии и ковариации. Перепишем систему в виде , 2 2 2 1 1 2 1 1 2 1 2 1 y x x x x y x x x x a D a a a D где символ D обозначает дисперсии, а символ μ – ковариации, т.е. ; ; ; ) ( ; ) ( 2 2 , 1 1 , 2 1 2 1 , 2 2 2 2 2 1 2 1 2 1 2 1 2 1 y x y x y x y x x x x x x x D x x D y x y x x x x x Если только 2 2 1 2 1 x x x x D D , то система имеет единственное решение: 2 * 2 1 * 1 * 2 * 2 2 * 1 , , 2 1 2 1 2 1 1 1 2 2 1 2 1 2 1 2 2 1 x a x a y b D D D a D D D a x x x x x x y x x y x x x x x x x y x x y x 31 7.3. Как изменяются свойства оценок и показатели качества при переходе к множественной регрессии? Стандартная ошибка оценки Y и стандартные отклонения коэффици- ентов в случае множественной регрессии определяются формулами: 1 ) ( 2 ,... , 2 1 m n y y s k x x x i , 1 1 1 1 2 2 m n r r s j j j x x y a , k j , 1 , где y , j x – среднеквадратические отклонения величин Y и X; 2 ,..., , 2 2 ) ( ) ( 2 1 y y y y r k x x x i – коэффициент детерминации для уравнения множественной регрессии; 2 j x r – коэффициент детерминации для зависимости фактора j x от всех осталь- ных объясняющих переменных; m – число параметров при переменных x (в линейной регрессии совпадает с числом объясняющих переменных). Для оценки значимости коэффициентов, как и в случае парной рег- рессии, рассчитываются их t -статистики: j j a j a s a t / * Если ) 1 , ( 2 m n t t cr a j , то коэффициент регрессии j a значим. F - статистика для проверки качества оценивания регрессии рассчи- тывается по формуле m r m n r ms S m n S m S F r e r ) 1 ( ) 1 ( 1 : 2 2 2 2 2 2 и при заданном уровне значимости гипотезы сравнивается с критиче- ской точкой распределения Фишера ) 1 , , ( m n m F cr В случае двух объясняющих переменных 2 m , 3 ) ( 2 , 2 1 n y y s x x i , 2 2 , 2 2 2 2 2 ) ( ) ( 1 1 2 1 y y y y S S S S r i x x i e r , 2 2 2 2 1 2 1 x x x x r r r , где последняя величина есть квадрат коэффициента корреляции 1 x и 2 x . Поэтому ) 1 ( ) 3 )( 1 ( ) ( ) ( 2 2 2 2 , 2 1 2 1 2 1 x x x x x i x x i x y a r n s n r y y y y s j j j , 2 , 1 j |