Гефан Г.Д. Эконометрика, 2005. Учебное пособие для студентов специальностей Бухгалтерский учёт, анализ и аудит
Скачать 0.9 Mb.
|
Пример 13. Десять студентов имеют следующие показатели в изуче- нии учебной дисциплины (Х 1 – число выполненных домашних заданий, Х 2 – число пропущенных занятий, Y – оценка на экзамене): Требуется: оценить линейную регрессию уравнением * 2 * 2 1 * 1 , 2 1 b x a x a y x x ; определить s (стандартную ошибку оценки Y), а также 1 a s и 2 a s (стан- дартные отклонения оценок коэффициентов регрессии); найти t -статистики коэффициентов 1 a и 2 a и сделать вывод об их значимости; предсказать экзаменационную оценку студента, который выполнил 12 домашних заданий и пропустил 2 занятия; найти коэффициент детерминации модели; с помощью F- теста оценить значимость регрессии. Решение Удобно составить следующую таблицу: 5 2 , 5 0 , 72 2 , 6 1 , 56 10 2 1 2 1 2 1 x x y x y x x x D D 168 0 143 0 291 0 2 1 , 2 1 x x y x x Это означает, что увеличение числа выполненных домашних заданий на 1 приводит к росту оценки на 0.291 балла. Как предсказывает уравнение рег- рессии, увеличение числа пропусков на 1 повышает оценку в среднем на 0.143 балла (что странно!). Однако для проверки значимости коэффициен- тов регрессии необходимо рассчитать их стандартные отклонения: 130 0 ; 051 0 ; 608 0 ; 412 0 2 1 2 1 a a x x s s r s Сравним t -статистики коэффициентов 1 a и 2 a с соответствующим крити- ческим значением: 36 2 ) 7 , 05 0 ( 10 1 , 36 2 ) 7 , 05 0 ( 77 5 2 2 1 1 cr a cr a t t t t x 1i 10 13 12 13 7 10 14 16 8 5 x 2i 3 2 1 2 3 0 0 2 3 4 y i 3 4 4 5 3 3 4 5 3 2 i i x 1 i x 2 i y 2 1i x 2 2i x i i y x 1 i i y x 2 i i x x 2 1 2 1 , x x y 2 y y i 2 , 2 1 x x i y y 1 10 3 3 100 9 30 9 30 3.510 0.36 0.260 … … … … … … … … … … … … 10 5 4 2 25 16 10 8 20 2.196 2.56 0.038 сум- мы – – – – – – – – – 8.40 1.188 сред- ние 10.8 2 3.6 127.2 5.6 41.6 6.7 19.1 – – – 33 Следовательно, коэффициент 1 a является значимым, а коэффициент 2 a – нет. Влияние числа выполненных домашних заданий на оценку студента является значимым. Что касается другого фактора, числа пропущенных за- нятий, то было бы опрометчивым утверждать, что он не оказывает никако- го влияния. Однако по результатам выборочного обследования оно (влия- ние) действительно оказалось незначимым. Возможно, это связано с ма- лым объёмом выборки и требуется увеличить число наблюдений. Если и в этом случае коэффициент регрессии окажется незначимым, то, видимо, данный фактор следует исключить из числа объясняемых переменных. Для предсказания оценки студента следует подставить значения ве- личин 1 X и 2 X в полученное уравнение регрессии (не будем в данном случае принимать во внимание тот факт, что коэффициент 2 a оказался не- значимым). Получим 95 3 ) 2 , 12 ( 2 1 , x x y . Вероятно, студент получит «4». Коэффициент детерминации модели 0.859 2 r , 24 21 F , 74 4 ) 7 , 2 , 05 0 ( cr F . Регрессия является значимой. 8. КОРРЕЛЯЦИЯ МЕЖДУ ОБЪЯСНЯЮЩИМИ ПЕРЕМЕННЫМИ РЕГРЕССИОННОЙ МОДЕЛИ 8.1. Как и почему зависит точность коэффициентов регрес- сии от корреляции между объясняющими переменными? Формулыдля стандартных ошибок показывают, что коэффициенты регрессии оцениваются с наибольшей точностью в том случае, если пере- менные X 1 и X 2 (в модели с двумя объясняющими переменными) не корре- лированы. Наоборот, при 1 2 1 x x r коэффициенты вообще не могут быть оценены. Убедимся в этом непосредственно. Пусть X 1 и X 2 связаны строгой линейной зависимостью 1 2 X X . Тогда, если верно b x a x a y 2 2 1 1 , то верны также и следующие выражения: ) ( ) ( ) ( 2 1 2 1 1 2 1 1 b a x a a b x a x a y ; ) ( ) ( ) ( 1 2 2 1 2 2 2 1 a b x a a b x a x a y Итак, мы получили 3 абсолютно равноправных функции (а на самом деле их бесчисленное множество!), каждая из которых может считаться функ- цией регрессии. Но коэффициенты в них совершенно различны! (Заметьте, что последние два выражения представляют собой уравнения парной рег- 34 рессии.) Это и означает, что оценивание параметров множественной рег- рессии в данном случае просто не имеет смысла. Если переменные X 1 и X 2 связаны строгой линейной зависимостью, то дать однозначные оценки параметров множественной регрессии невозможно. Фактически, в этом случае мы имеем лишь одну (лю- бую из двух) переменную, и логичнее оставаться в рамках модели парной регрессии. Если между X 1 и X 2 существует линейная корреля- ция, то точность оценивания параметров регрессии будет ниже, чем при отсутствии корреляции. Пример 14. В таблице показаны объёмы продаж продукции город- ского хладокомбината (мороженого) за отдельные временные отрезки лет- него сезона. Из всех факторов, способных влиять на объём реализации, выбрано два: (1) средняя температура воздуха на временном отрезке (есть немало людей, покупающих мороженое только в жаркую погоду); (2) из- менение средней розничной цены продукции (подорожание всегда вызы- вает у части покупателей временный отказ от покупки, или побуждает их перейти на продукцию других производителей). Требуется построить ли- нейную модель множественной регрессии с двумя независимыми пере- менными и проанализировать результат. Обозначив среднюю температуру через X 1 , прирост средней цены через X 2 , а объём розничной торговли через Y, найдём все необходимые величины и оценки параметров регрессии: 268 2 ; 172 2 ; 721 1 ; 216 1 ; 594 13 ; 194 4 ; 764 2 ; 188 13 ; 625 40 ; 025 0 ; 25 22 * * 2 * 1 2 1 2 1 2 1 2 1 b a a D D y x x y x y x x x x x Итак, выборочное уравнение регрессии Y на X 1 и X 2 имеет вид 3 2 172 2 721 1 2 1 , 2 1 x x y x x Временной отрезок (номер недели) Средняя температура воздуха (в о С) Прирост средней це- ны (в %) Объём розничной реализации (тонн) 1 22 0.1 39 2 26 2.7 40 3 28 2.0 47 4 20 -1.6 39 5 25 0.5 45 6 18 -1.5 36 7 22 -2.4 46 8 17 0.0 33 35 Увеличение средней температуры воздуха на каждый градус, как предска- зывает уравнение регрессии, приводит к росту недельного объёма реализа- ции мороженого на 1721 кг. Зато повышение средней цены на 1% снижает недельную реализацию в среднем на 2172 кг. Пусть известно, что синоптики прогнозируют на ближайшую неделю жару в 30-34 градуса (в качестве среднего значения берём 32). Ясно, что потребность в мороженом возрастёт. Не изменяя цены, можно увеличить производство и реализацию. Подставляя в уравнение регрессии 0 , 32 2 1 x x , получаем прогноз недельной реализации 57.4 тонны. Но, допустим, что производственные мощности позволяют выпустить лишь 50 тонн. Почему бы, в таком случае, не повысить цену? Задаваясь желаемым объёмом реализации (50 тонн), выражаем из уравнения регрессии пере- менную x 2 : 39 3 172 2 50 3 2 32 721 1 2 x Итак, средняя цена может быть повышена на 3.39 %. Прогноз реализации при таком повышении цены — 50 тонн. Стандартная ошибка оценки Y составляет s = 1.248; коэффициент корреляции 695 0 2 1 , x x r , стандартные отклонения оценок коэффициентов регрессии 369 0 , 169 0 2 1 a a s s . Точность оценок коэффициентов могла быть выше, если бы переменные X 1 и X 2 не были столь заметно коррели- рованы. (Эту корреляцию можно объяснить тем, что в жару производитель старался повысить цену на мороженое, а в прохладное время — вынужден был несколько снизить.) Пример 15. В данных примера 14 изменим один столбец, считая, что прирост средней цены (%) задавался равным значению температуры воз- духа в градусах минус 22 (например, если температура 18 градусов, то це- на снижается на 4 процента). Тем самым мы устанавливаем линейную за- висимость между X 1 и X 2 . Попытка вычислить оценки коэффициентов множественной регрессии по полученным формулам будет безуспешной, т.к. числители и знаменатели выражений окажутся равными нулю. Поэто- му лучше всего ограничиться моделью парной регрессии, исключив пере- менную X 2 . Сделав это, получим уравнение 69 17 031 1 1 1 x y x 8.2. Может ли снизиться качество регрессии при включении в модель дополнительных переменных? Как ведёт себя коэффициент детерминации 2 2 2 / S S r r при переходе от парной регрессии к множественной? Может показаться, что при вклю- чении в модель новой переменной X 2 , которая линейно связана с X 1 , каче- ство регрессии снижается, т.к. оценки параметров регрессии становятся неопределёнными (этот случай проанализирован в примере 15). На самом 36 деле, коэффициент детерминации останется прежним. Это как раз и свиде- тельствует о том, что введение дополнительной переменной, линейно за- висимой от X 1 , не даёт никакого повышения качества по сравнению с мо- делью парной регрессии. При включении в модель регрессии новой переменной X 2 , которая не связана с переменной X 1 строгой линейной зависимостью, качество регрессии возрастает. Это является свидетельством того, что модель становится более “гибкой” и меньшая, чем прежде, доля вариации Y остаётся необъясняемой (остаточной). Пример 16. Для условий примера 15, когда решение сводится к по- строению модели парной регрессии, коэффициент детерминации имеет значение r 2 = 0.645. При решении задачи в исходном виде (пример 14) r 2 повышается до 0.955. 9. ФИКТИВНЫЕ ПЕРЕМЕННЫЕ 9.1. Как учесть в модели регрессии влияние качественных факторов? Кроме количественных признаков, статистика рассматривает ещё и качественные. Влияние качественного фактора на величину некоторого ре- зультативного признака часто бывает весьма сильным, и возникает вопрос о включении соответствующей переменной в регрессионную модель. Но как это сделать? Пример 17. Исследуется зависимость личного дохода от возраста человека (количественная переменная). При этом нельзя пренебречь ролью качественных факторов: наличие высшего образования, принадлежность человека к мужскому или женскому полу. Их влияние на вариацию дохо- дов может оказаться более существенным, чем влияние возраста. Пример 18. Изучается зависимость рыночной цены квартиры от её площади (см. примеры 7, 9). Пожалуй, выбран главный факторный при- знак. Но всем известно, что квартира на 1-ом этаже значительно дешевле, чем точно такие же квартиры, расположенные на других этажах того же дома. Казалось бы, номер этажа можно ввести в линейную регрессионную модель как обычную количественную (правда, дискретную) переменную. Однако, приняв такое решение, мы как бы предполагаем, что цена квартир от этажа к этажу равномерно прирастает. Это совершенно не реалистичное предположение: цены одинаковых квартир, расположенных на разных этажах, если исключить 1-ый (и, пожалуй, последний), различаются несу- щественно. Поэтому правильнее всё же будет учитывать данный фактор так: находится ли квартира на 1-ом этаже, или же она расположена на лю- бом другом этаже? 37 Проблема учёта качественного фактора в регрессионной модели имеет два возможных решения. 1. Построить отдельные регрессии для двух смысловых значений качественного (альтернативного) признака и сравнить коэффициенты этих регрессий. Например, найти регрессионную зависимость дохода от возрас- та человека отдельно для женщин и для мужчин; отдельно для людей с высшим образованием и без оного. В случае, когда рассматривается один количественный фактор (X) и один альтернативный фактор, потребуется найти две линии регрессии * * b x a y x и * * b x a y x , где отсутствие или наличие штриха обозначает разные альтернативы, а звёздочка является символом оценки. 2. Оценить параметры единой регрессии для всего набора исходных данных, вводя так называемую фиктивную переменную. 9.2. Что такое фиктивная переменная? Каковы особенности применения фиктивных переменных? Фиктивной (т.е. искусственно введённой) переменной называется та- кая переменная, которая принимает два возможных числовых значе- ния, каждое из которых соответствует одному из альтернативных смысловых значений качественного признака. В случае, когда рассматривается один количественный фактор (X 1 ) и один альтернативный фактор, потребуется найти выборочное уравнение регрессии * 2 * 2 1 * 1 , 2 1 b x a x a y x x . Здесь x 2 – значения фиктивной пере- менной, например, 0 и 1 (как это принято в алгебре логики). Можно ли приписывать фиктивной переменной какую-то другую па- ру значений (не 0 и 1) и к чему это приведёт?Конечно, это допустимо. Од- нако при этом изменится коэффициент a 2 и, возможно, b (если в паре нет нулевого значения). Резона в таком выборе нет, так как интерпретация ре- зультатов лишь усложнится. Каждый из перечисленных в п. 9.1 подходов к решению имеет свои достоинства и недостатки. При введении фиктивной переменной появляет- ся очень простой способ оценить значимость качественного фактора — проверить гипотезу о равенстве нулю соответствующего коэффициента регрессии, как мы это делали выше (см. п. 6.3). Недостаток же второго подхода в следующем: предполагается, что качественная переменная отве- чает только за сдвиг линии регрессии, но никак не сказывается на её на- клоне. Например, рассматривая пример 17, приходится предположить, что доходы женщин и мужчин с возрастом прирастают одинаково быстро, т.е. разница в доходах между людьми разного пола не зависит от числа прожи- тых лет. В принципе, можно отказаться от такого предположения, но тогда нужно вводить дополнительную фиктивную переменную, регулирующую изменение наклона регрессии в зависимости от значения фактора. 38 Пример 19. Ниже приводится выборка данных о рынке жилья в г. Иркутске в декабре 2000 года. Требуется провести корреляционно- регрессионный анализ данных. Вначале найдём коэффициент корреляции признаков X (площадь) и Y (цена квартиры). Расчёты дают: 29 45 x ; 88 321 y ; 86 0 ; 53 14047 ; 37 192 ; 21 16000 2 2 xy y x r xy В рамках парной модели регрессии можно получить следующее выбороч- ное уравнение регрессии: 91 12 39 7 x y x Теперь дополним данные информацией о том, какие из квартир, по- павших в выборку, находятся на 1-ом этаже. Пусть известны номера этих квартир в списке: 3, 5, 7, 12, 17. Учтём этот фактор в регрессионной моде- ли и проанализируем результаты. Расчёты проведём двумя описанными выше методами. Первый метод решения заключается в исследовании отдельных рег- рессий цены квартиры Y на её площадь X для квартир, находящихся на 1- ом этаже, и для всех остальных квартир. На 1-ом этаже находится 5 квар- тир, их средняя площадь и средняя цена составляют соответственно 286 , 8 50 y x . Вычисления дают следующую оценку регрессии: 852 0 , 76 1 , 09 32 , 84 85 32 7 2 r s s x y a x Не на 1-ом этаже находится 19 квартир, попавших в выборку. Их средняя площадь и средняя цена равны 3 331 , 84 43 y x . Линия регрессии опи- сывается уравнением Квартира Площадь, м 2 Цена, тыс. руб. Квартира Площадь, м 2 Цена, тыс. руб. 1 51 465 13 60 480 2 56 490 14 67 460 3 60 350 15 45 260 4 52 480 16 38 270 5 60 370 17 50 240 6 36 320 18 44 270 7 44 270 19 80 600 8 30 215 20 20 160 9 42 275 21 25 170 10 44 275 22 30 225 11 49 430 23 30 210 12 40 200 24 34 240 39 860 0 , 78 0 , 28 50 , 55 21 05 8 2 r s s x y a x Сравнение двух уравнений регрессии показывает, что между ними имеют- ся серьёзные различия. Расхождения присутствуют не только в свободных членах, но и в угловых коэффициентах. (Если квартира находится на 1-ом этаже, то её цена возрастает с увеличением площади не так быстро, как ес- ли бы квартира находилась не на 1-ом этаже.) Правда, точность оценки ко- эффициентов регрессии невысока. Второй метод решения заключается в построении единого уравнения регрессии цены квартиры Y на её площадь X 1 и фиктивную переменную X 2 : этажах. других на находится квартира если 0, этаже, ом - 1 на находится квартира если , 1 2 X В этом случае получаем: 863 0 , 09 24 , 71 0 , 92 46 , 15 19 94 100 99 7 2 1 2 1 , 2 2 1 r s s s x x y a a x x Проверим гипотезу о равенстве нулю коэффициента регрессии при фик- тивной переменной. Для этого следует рассчитать значение критерия 2 0 * 2 a s a a T , где a 0 = 0, и сравнить его с 08 2 ) 3 , ( 2 n t cr . Поскольку T = 4.2 > 2.08, основная гипотеза отвергается. Коэффициент регрессии при фиктивной переменной значим, роль данного качественного фактора существенна. Уравнение множественной регрессии с фиктивной переменной мо- жет быть при желании заменено двумя уравнениями парной регрессии, ес- ли в него подставить сначала x 2 = 1, а затем x 2 = 0. Возвращаясь в этих слу- чаях от x 1 к обозначению x, получим: ). 0 ( 15 19 99 7 ), 1 ( 09 120 99 7 2 2 x x y x x y x x В заключение сравним прогноз цены 4 квартир площадью 30 и 60 м 2 , рас- положенных на 1-ом и не на 1-ом этажах. Прогноз получен двумя описан- ными методами. Пло- щадь кварти- ры Этаж Метод раз- дельных рег- рессий Метод фик- тивной пере- менной 30 1 133.8 119.7 30 не 1 219.9 220.7 60 1 353.3 359.5 60 не 1 461.4 460.5 |