Гефан Г.Д. Эконометрика, 2005. Учебное пособие для студентов специальностей Бухгалтерский учёт, анализ и аудит
Скачать 0.9 Mb.
|
Пример 9. (Продолжение примера 7.) Пусть требуется дополнитель- но: записать уравнение линейной регрессии Y по X , построить на одном графике данные наблюдений и найденную линию регрессии; предсказать цену квартиры площадью 50 кв. м. Решение. Используя полученные ранее результаты, найдём: 09 4 255 0 ); 8 53 ( 255 0 8 17 ; 255 0 x y x y r x x xy x y Это означает, что с ростом площади квартиры на 1 кв. метр цена возраста- ет (в среднем) на 255 долларов. Точно такой же результат может быть по- лучен непосредственно с использованием приведённых выше формул для * a и * b . Воспользовавшись найденным уравнением регрессии, получим ) 50 ( x y 16.84. Итак, цена квартиры площадью 50 кв. м составит (в сред- нем) 16840 долларов. График с данными наблюдений и найденной линией регрессии показан на рис.2. Рис. 2 10 15 20 25 35 45 55 65 75 X , кв.м. Y , тыс. долл. 18 5. МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ 5.1. На каких предположениях строится модель линейной регрессии? Модель парной линейной регрессии имеет вид ) ..., , 1 ( n i b ax y i i i , где x i – детерминированная (неслучайная) величина; i – случайная величина (ошибка регрессии), вызывающая отклоне- ние значения y i от точной линейной функции; a и b – неизвестные параметры линейной функции регрессии. Относительно ошибки регрессии i принимаются следующие допу- щения. Во-первых, считается, что эта величина имеет нормальное распре- деление, причём её математическое ожидание равно нулю, а дисперсия по- стоянна: 2 2 ) ( ) ( , 0 ) ( i i i M D M Независимость дисперсии ошибки ) ( i D от номера наблюдения i на- зывается гомоскедастичностью. Противоположное свойство, т.е. за- висимость ) ( i D от i, называется гетероскедастичностью. Во-вторых, предполагается, что ошибки разных наблюдений некор- релированы: j i M M M M j i j i j i j i , 0 ) ( ) ( ) ( ) ( ) , ( Если свойство некоррелированности ошибок не выполняется, то го- ворят об автокорреляции остатков. Суть сформулированных требований легко понять из рис.3. На рис.3а разброс точек относительно линии регрессии приблизительно оди- наков (гомоскедастичность), а на рис.3б – явно увеличивается с ростом X Рис.3 а X Y Рис.3 б X Y Рис.3 в X Y 19 (гетероскедастичность). На рис.3в представлен случай автокорреляции ос- татков. Здесь ковариация 0 ) , ( 1 i i , и ошибки регрессии в соседних точках, как правило, имеют один знак. 5.2. Как выглядят уравнения регрессии в отклонениях относительно средних значений количественных при- знаков? Пусть y y v x x u n y y n x x i i i i i i , , / , / . Получим уравнения регрессии в терминах отклонений i i v u , . Сложив уравнения рег- рессии n n n b ax y b ax y , 1 1 1 и разделив сумму на n, получим b x a y , где n i / – средняя ошибка регрессии. Вычитание полученного уравнения из i-го уравнения регрессии даёт: i i i i i au v , При переходе к уравнению регрессии в отклонениях угловой коэф- фициент a не изменяется, а параметр b обращается в нуль. Линии регрессии au v b ax y и параллельны, но вторая из них прохо- дит через начало координат. Средние значения отклонений i i v u , равны нулю. Действительно, 0 ) / ( / x n x n u u i i . Доказательство того, что 0 v , совершенно аналогично. Теперь выразим выборочный коэффициент регрессии a * (МНК) че- рез отклонения i i v u , . Как мы только что убедились, угловой коэффициент линии регрессии в отклонениях – тот же самый, что и для линии регрессии Y по X. Поэтому в формуле 2 2 * ) (x x y x xy a достаточно заменить x, y на u, v. Учитывая, что 0 v u , получим 2 2 * i i i u v u u uv a 20 Найдём числовые характеристики величин , δ i , v i . Согласно свойствам среднего арифметического, n M D M / ) ( ) ( , 0 ) ( 2 2 Используя свойства дисперсии и условие некоррелированности ошибок регрессии, получим 1 2 ) ( 2 ) ( 2 ) ( )] ( ) ( ) ( [ 2 ) ( ) ( ) ( , 0 ) ( 2 2 2 2 2 2 2 2 2 n n n n n M n n M n D M M M D D D M i j i i i i i i i Числовые характеристики отклонения v i легко получить, если вспомнить, что значения x i (а, значит, и u i ) детерминированы: 2 1 ) ( ) ( , ) ( n n D v D au v M i i i i 5.3. Являются ли оценки параметров регрессии a* и b* несмещёнными и состоятельными? Оценка называется несмещённой, если её математическое ожидание совпадает с оцениваемой величиной. Найдём математические ожидания оценок: ) ( ) ( ) ( ) ( ; ) ( ) ( * * * 2 2 * b x a b x a a M x y M a x y M b M a u au u u v u M a M i i i i i i Выборочные коэффициенты a * и b * , получаемые методом наимень- ших квадратов, являются несмещёнными оценками параметров ли- нейной регрессии. Согласноопределению, дисперсия состоятельной оценки должна стремиться к нулю при неограниченном возрастании числа наблюде- ний. Найдём дисперсию оценки a * : 2 2 2 2 2 2 2 2 * ) ( ) ( 2 ) ( i i i i i i i i i i i i u u y D u u u y u y u D u y y u D i u i v i u D a D 21 Здесь были использованы равенство 0 i u и свойство некоррелирован- ности результатов разных наблюдений (в этом случае дисперсия суммы равна сумме дисперсий). Полученный результат показывает, что оценка коэффициента рег- рессии a * является состоятельной при условии, что 2 lim i n u Это вполне естественное условие, означающее, что при n имеется бесконечное число ненулевых отклонений u i Оценку b * представим в виде 1 1 2 1 1 ) ( 1 ) ( 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 * 2 2 2 * * i i i i i i i i i i i i i i i i i i i i i i i i u n x n u n x x u x n u u x n u u x u n u x n u u x n b D u u x n y u y u x n y u y y u x n y a x y b Очевидно, оценка b * всегда состоятельна. Можно также показать, что оценки a * и b * имеют наименьшую дис- персию из всех линейных несмещённых оценок, то есть являются эффек- тивными. 6. КАЧЕСТВО РЕГРЕССИИ 6.1. Что такое остатки регрессии и чем они отличаются от ошибок регрессии? Пусть оценки a * и b * получены. Тогда прогноз значения признака Y по значению X = x i даётся выборочным уравнением регрессии * * b x a y i x Реальные результаты наблюдений, конечно, отклоняются от этой зависи- мости. Пусть в i-ом наблюдении при X = x i было получено значение Y = y i (i =1, ..., n). Величины * * b x a y e i i i называются остатками регрессии. Отличие остатков регрессии e i от ошибок регрессии ε i заключается в следующем. Ошибки регрессии – теоретические, ненаблюдаемые величи- ны (точные значения параметров регрессии a и b неизвестны). Остатки же 22 представляют собой отклонения от выборочного уравнения регрессии и, значит, наблюдаемы. 6.2.Как оценить дисперсию ошибок σ 2 ? В п.5.3 мы получили выражения для дисперсий оценок параметров регрессии D(a * ) и D(b * ). В них, однако, фигурировала дисперсия ошибок 2 , которая на практике обычно неизвестна. Дисперсия ошибок 2 ) ( i D представляет собой третий неизвестный параметр регрессии. Может ли она быть оценена по остаткам регрессии? Рассмотрим величину 2 i e для того, чтобы выяснить, можно ли ис- пользовать её для оценки 2 . Перейдём при записи e i к отклонениям i i v u , : i i i i i u a v b x a y b u x a v y e * * * * * ) ( ; ) ( 2 ) ( ] ) [( ) ( ) ( 2 * 2 2 * 2 * 2 * 2 * 2 C B A u a a u a a u a a u a au u a v e i i i i i i i i i i i i Найдём ) ( ) ( ) ( 2 C M B M A M e M i 2 2 2 2 ) ( ) ( ) ( ] ) [( ) ( 2 2 2 2 2 2 2 2 2 2 2 * 2 2 2 2 * 2 2 * 2 i i i i i i i i i i i i i i i i i i i i i i i i u u u u M u D u u M B M u u a u au u u v u a u u a D u a a M u A M 2 2 2 ) 1 ( 1 ) ( ) ( n n n n D M C M i i В итоге получаем 2 2 2 2 2 ) 2 ( ) 1 ( 2 n n e M i . Отсюда сле- дует, что величина 2 2 * * 2 2 2 ) ( 2 ) ( 2 s n b x a y n y y n e i i x i i является несмещённой оценкой дисперсии ошибок регрессии. Теперь мы можем заменить её оценкой s 2 , что позволяет получить характеристики рассеивания выборочных коэффициентов регрессии. 23 Величину 2 ) ( 2 n y y s x i называют стандартной ошибкой оценки Y. Стандартные отклонения оценок коэффициентов регрессии связаны с s следующими форму- лами: x x u u n x s s u s s i i i i b i a где , , 2 2 2 Пример 10. В течение 5 лет в городе Nсопоставлялись данные о среднегодовом числе зарегистрированных автомобилей (Х, тыс. шт.) и числе дорожно-транспортных происшествий за год (Y,тыс.): Требуется: оценить линейную регрессию Y по X уравнением * * b x a y x ; определить s (стандартную ошибку оценки Y), а также a s и b s (стан- дартные отклонения оценок коэффициентов регрессии). Решение. Удобно составить таблицу следующего вида: i i x i y 2 i x i i y x i u * * b x a y i x x i i y y e 2 i e 2 i u 1 80 12 6400 960 -49 12.92 -0.92 0.85 2401 2 95 16 9025 1520 -34 14.72 1.28 1.63 1156 3 120 17 14400 2040 -9 17.72 -0.72 0.52 81 4 150 22 22500 3300 21 21.32 0.68 0.46 441 5 200 27 40000 5400 71 27.32 -0.32 0.10 5041 сумма 645 94 92325 13220 0 – – 3.57 9120 средняя 129 18.8 18465 2644 – – – – – Выборочное уравнение регрессии: 326 3 12 0 x y x . Применяя записан- ные выше формулы, легко получить: s = 1.09, s a = 0.011, s b = 1.552. 6.3. Как убедиться в значимости коэффициента регрессии? Пусть имеется точечная оценка коэффициента регрессии a * . Сфор- мулируем правило проверки гипотезы о том, что коэффициент регрессии a равен некоторому предполагаемому значению a 0 Основная гипотеза имеет вид 0 0 : a a H при конкурирующей гипо- тезе 0 1 : a a H . В качестве критерия используем величину x i 80 95 120 150 200 y i 12 16 17 22 27 24 a s a a T 0 * , имеющую распределение Стьюдента с (n – 2) степенями свободы. При заданном уровне значимости гипотезы находим правую гра- ницу двусторонней критической области ) 2 , ( 2 n t cr (см. приложе- ние 1). При cr t T 2 нет оснований отклонить основную гипотезу, иначе H 0 отвергается. На практике чаще всего нет никакого априорного предположения о значении коэффициента регрессии. В этом случае имеет смысл проверить гипотезу о том, не равен ли коэффициент регрессии нулю. Её принятие бу- дет говорить, что влияние фактора X на случайную величину Y незначимо. Значение критерия T при 0 0 a , т.е. a a s a t * , называется t - статистикой коэффициента a . Если ) 2 , ( 2 n t t cr a , то коэффициент регрессии a значим. |