Учебнометодическое пособие Москва Берлин 2020 удк 330. 43(075) ббк 65в631я7 з рецензенты
Скачать 1.43 Mb.
|
3.4. Основные положения регрессионного анализа В основе линейной регрессионной модели (3.2) лежат следующие допущения а) истинная форма взаимосвязи между эндогенными и экзогенными переменными является линейной б) х — есть величина неслучайная в) математическое ожидание регрессионных остатков равно нулю ( М u ). То есть математическое ожидание зависимой переменной (у) равно линейной функции регрессии ( ) 0 1 1 = + i M y b b x ; г) дисперсия регрессионных остатков постоянна и конечна для всех значений (х ( ) = i D u const ; д) регрессионные остатки статистически независимы друг от друга ( ) , cov 0 = i j u u ; е) регрессионные остатки и экзогенные переменные независимы друг от друга ( ) , cov 0 = i i u x 26 При соблюдении этих допущений аз) модель (3.2) называется классической нормальной линейной регрессионной моделью. Эти допущения необходимы для того, чтобы полученные с помощью метода наименьших квадратов оценки истинных коэффициентов (В) и (В) обладали некоторыми желательными свойствами, которые будут рассмотрены в теме № 6. Воздействие неучтенных случайных факторов в модели (3.2) определяются с помощью остаточной дисперсии, оценкой которой является выборочная остаточная дисперсия 2 2 2 1 1 ˆ ( ) ; 2 2 = − − = = − − ∑ ∑ n n i i i i i e y y S S n n , где i yˆ — групповая средняя, найденная по уравнению регрессии ˆ = = − i i i i u e y y — регрессионный остаток (выборочная оценка возмущений. Поскольку вероятностные модели представляют только лишь оценки коэффициентов регрессии (В) и (В, то важно проверить насколько представительными являются эти оценки относительно истинных значений коэффициентов. Для этого используют методы проверки статистической значимости коэффициентов регрессии и самой функции. 3.5. Интервальная оценка функции регрессии и ее параметров ∗ Доверительный интервал для функции регрессии условного математического ожидания, который с заданной надежностью доверительной вероятностью) ( ) 1 −α накрывает неизвестное значение ) х М Y определяется по формуле ˆ ˆ 1 , 1 , ˆ ˆ ( ) −α −α − ⋅ ≤ ≤ + ⋅ k y x k y y t s M Y y t s (3.10) ( ) ( ) 2 2 2 ˆ 2 1 1 = − = + − ∑ y n i i x x s s n x x 27 2 Доверительная область для М х (Y) определяет местоположение линии регрессии, ноне отдельных возможных значений зависимой переменной, которые отклоняются от средней. Поэтому при определении доверительного интервала для индивидуальных значений У 0 зависимой переменной необходимо учитывать рассеяние вокруг линии регрессии, то есть в оценку суммарной дисперсии (s y ) следует включить величину (s). Оценка дисперсии индивидуальных значений (У) при Х = Х 0 равна: ( ) ( ) 2 0 2 2 ˆ 2 1 1 − = + + − ∑ y i x x S S n x x (3.12) * Доверительный интервал для прогнозов индивидуальных значений 0 ∗ y определяется по формуле 0 0 ˆ ˆ 0 1 , 2 0 1 , 2 ˆ ˆ ∗ −α − −α − − ≤ ≤ + n y n y y t S y y t S . (3.13) Доверительный интервал для коэффициента регрессии (b) ( ) ( ) ˆ ˆ ˆ ˆ , , − α ⋅ ≤ ≤ + α ⋅ kp kp b b b t k s b b t k s ; 2 ˆ 2 = σ × e b x s s n , где 2 e s — несмещенная оценка остаточной дисперсии 2 σ e 2 2 1 ˆ ( ) 2 = − = − ∑ n i i i e y y s n 2 2 2 1 1 σ = − ∑ ∑ x i i x x n n 28 Доверительный интервал для свободного члена уравнения по формуле ( ) ( ) ˆ ˆ ˆ ˆ , , α α α − α ⋅ ≤ α ≤ α + α ⋅ kp kp t k s t k s ; 2 ˆ ˆ α = ∑ i b x s s n 3.6. Оценка значимости уравнения регрессии. Регрессионная модель (3.2) показывает, что вариация (Y) может быть объяснена вариацией независимой переменной (Хи значением ошибки (u). Проверить значимость регрессионной модели — это значит установить, соответствует ли математическая модель, выражающая зависимость между переменными экспериментальным данным. Мерой качества уравнения регрессии является коэффициент детерминации, определяемый по формуле 2 1 = = − e R Q Q R Q Q (3.16) Значения ( , , R e Q Q Q ) представлены в табл. 3.1. Таблица 3.1 Компоненты дисперсии Сумма квадратов Число степеней свободы Средние квадраты Регрессия ( ) 2 1 ˆ = = − ∑ n R i i Q y y 1 − m 2 Остаточная ( ) 2 1 ˆ = = − ∑ n e i i i Q y y − n m Общая ( ) 2 1 = = − ∑ n i i Q y y 1 − n 29 Величина 2 R ( ) 2 показывает, какая часть вариации зависимой переменной обусловлена вариацией объясняющей (экзогенной) переменной. Чем ближе R к единице, тем лучше регрессия аппроксимирует эмпирические данные. Если 2 1 = R , то эмпирические точки х у лежат на линии регрессии и между переменными (Y) и (Х) существует линейная функциональная зависимость. Если 2 0 = R , то вариация зависимой переменной полностью обусловлена воздействием неучтенных факторов, и линия регрессии параллельна оси абсцисс. В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату корреляции, то есть 2 Если известен коэффициент детерминации, то критерий значимости уравнения регрессии может быть записан в виде ( ) ( ) ( ) 21 2 , , 2 1 1 α − = > − − k k R n m F F R m , (3.17) где 2 1 , k k F α — табличное значение критерия Фишера, определенное на уровне значимости ( ) α при 1 1 = и 2 = − k n m степенях свободы. Несмотря на преимущества коэффициента детерминации (легко вычисляется, имеет четкую интерпретацию, при его использовании могут возникнуть следующие проблемы нельзя сравнивать величины для моделей с различными зависимыми величинами 2 R малопригоден для оценки качества моделей временных рядов 2 R никогда не уменьшается в случае добавления экзогенных переменных в модель. Дело в том, что 2 R всегда будет увеличиваться по мере включения новых переменных в модель, что создает у исследователя стимул необоснованно включать дополнительные переменные в модель, поэтому становится проблематичным определить, улучшает ли дополнительная переменная качество модели. Данная проблема решается путем использования скорректированного коэффициента детерминации 30 ( ) 2 2 1 1 1 − = − − − n R R n k , (3.18) где n — число наблюдений k — число независимых переменных. Контрольные вопросы к теме № 3 Назовите основные задачи регрессионного анализа. 2. Что такое классическая модель линейной регрессии. 3. Какие допущения лежат в основе классической модели линейной регрессии. Что такое коэффициент детерминации, какие проблемы могут возникнуть при использовании коэффициента детерминации. Что такое скорректированный коэффициент детерминации. 6. Как проводится оценка качества уравнения регрессии. 7. Что такое коэффициент корреляции, какими свойствами он обладает. Каким образом осуществляется проверка регрессионной модели. Задача Исследуется зависимость затратна рекламу (Y) от годового оборота (Х)в некоторой области. Для этого собрана информация предприятиям о годовом обороте (Хи соответствующих расходах на рекламу (Y i ) . Из выборки получены следующие данные 2 0, 7021 = S ; 17,3 = x ; ( ) 2 1 3264, 2 = − = ∑ n i i x x ; ( ) 2 9250 = ∑ i x ; ( ) 2 1 12, 637 ˆ 2 = − = ∑ n i i i y y . Уравнение зависимости затратна рекламу от годового оборота имеет вид –1, 6042 Х . Ошибка уравнения распределена нормально с нулевым математическим ожиданием и постоянной дисперсией. Требуется 1) Определить 95 % прогнозный интервал математического ожидания целевой переменной (Y 0 ) при Х = 30. 31 2) Оценить 95 % прогнозный интервал для отдельного значения целевой переменной при Хи сравнить его с прогнозным интервалом в п. 1 Задача 3.2. Поданным задачи 3.1: 1) Оценить дисперсию ошибки уравнения регрессии) Оценить дисперсии оценок параметров регрессии. Задача 3.3 Имеются следующие данные об уровне механизации работ Хи производительности труда (Y, т/час.) для 14 предприятий Х 32 30 36 40 41 47 56 54 60 55 61 67 69 76 У 20 24 28 30 31 33 34 37 38 40 41 43 45 48 Необходимо оценить тесноту и направление связи между переменными с помощью коэффициента корреляции. ТЕМА № 4 ЛИНЕЙНАЯ МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ План Классическая нормальная модель множественной регрессии. Матричная форма модели множественной регрессии. Предпосылки для множественного регрессионного анализа. Оценка значимости множественной регрессии. Классическая нормальная модель множественной регрессии. Экономические явления определяются большим числом одновременно и совокупно действующих факторов. Перед исследователем стоит задача установления зависимости одной переменной (Y) от нескольких экзогенных переменных. Эта задача решается с помощью множественного регрессионного анализа. Множественная регрессия представляет собой уравнение вида) где i = 1, 2, ..., п. Здесь В = (b 0 , b 1 … р) — вектор размерности (р + 1) неизвестных параметров b j , j = 0, 1, 2 р, называется j-ым теоретическим коэффициентом регрессии (частичным коэффициентом регрессии. Он характеризует чувствительность величины Y к изменению Другими словами, он отражает влияние на условное математическое ожидание ( ) 1 1 2 2 , = = … = р р Х х Х х Х x M зависимой переменной Y объясняющей переменной Х при условии, что все другие объясняющие переменные модели остаются постоянными. b 0 — свободный член, определяющий значение Y в случае, когда все объясняющие переменные равны нулю. 33 Модель (4.1), регрессионные остатки которой удовлетворяют приведенным выше предпосылкам (Тема № 3) — (аз, называется классической нормальной линейной моделью множественной регрессии. 4. 2. Матричная форма модели множественной регрессии При анализе уравнение (4.1) записывается в матричной форме 1 0 1 11 1 1 1 1 = + = = = = n k n k n kn Y BX U y b u Y B U y b u x x X x x , (4.2) где Y — матрица-столбец (вектор) значений зависимой переменной размера n × 1 Х — матрица значений экзогенных переменных размера n × k В — матрица — столбец (вектор) параметров размера k × 1 U — матрица — столбец (вектор) возмущений (ошибок, регрессионных остатков) размера n × 1 Оценкой этой модели по выборке является уравнение ( ) ( ) 1 транспонированные матрицы. Матричное описание регрессии облегчает как теоретические концепции анализа, таки необходимые расчетные процедуры. 4. 3. Предпосылки для множественного регрессионного анализа. Предпосылки для множественного регрессионного анализа 1. U — случайный вектора неслучайная матрица. 2. ( ) n U M 0 = , n 0 — нулевой вектор размера (n). 34 3. 2 , = единичная матрица (го порядка. 4. U — нормально распределенный случайный вектор, то есть 0, ≈ δ n U N E 5. ( ) ( ) 1 , где = + < r X p n r X — ранг матрицы. Для оценки коэффициентов регрессии (В) применяется метод наименьших квадратов, о котором пойдет речь в Теме № 5. Согласно методу наименьших квадратов ( ) ( ) 1 − ′ ′ = b X X X Y , (4.3) где ( ) ( ) 1 — , − ′ ′ X матрица обратная матрице X X . ( ) 1 2 1 1 1 2 1 ′ = ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ i i i i i i i i i i k k k k k n x x x x x x X X x x x x , где ( ) — ′ X матрица столбец или вектор ее свободных членов . ( ) 1 ′ = ∑ ∑ ∑ i i i i i k y y x X Y y На практике часто необходимо сравнение влияния на эндогенную переменную различных экзогенных переменных, когда они выражаются разными единицами измерения. В этом случае используют стандартизированные коэффициенты регрессии ( и коэффициенты эластичности Ер) Стандартизированный коэффициент регрессии ( ) ′ j b показывает, насколько величин ( y s ) изменится в среднем зависимая переменная) при увеличении только й экзогенной переменной на ( j x s ), а коэффициент эластичности (E j ) — насколько процентов (от средней) изменится в среднем (Y) при увеличении только Хна. Оценка значимости множественной регрессии Вариация оценок параметров определяет точность уравнения множественной регрессии. Для их измерения в многомерном регрессионном анализе рассматривают ковариационную матрицу вектора оценок параметров, являющуюся матричным аналогом дисперсии одной переменной 00 01 0 10 11 1 0 1 δ δ δ δ δ δ = δ δ δ ∑ p p b p p pp , где элементы ( δ i j ) — ковариации оценок параметров ( ) i b и ( ) j b . Ковариация характеризует как степень рассеяния значений двух переменных относительно их математических ожиданий, таки взаимосвязь этих переменных. Оценка дисперсии коэффициентов множественной регрессии рассчитывается следующим образом ( ) 1 2 − ′ = δ ∑ b X X (4.6) Оценочное значение дисперсии ошибок (возмущений) в случае множественной регрессии находится по формуле 36 2 2 1 1 = = − − ∑ n i i e S n p (4.7) Перейдем к оценке значимости коэффициентов и параметров модели множественной регрессии Значимость коэффициентов множественной регрессии ( ) j b можно проверить по критерию Стьюдента. Поэтому ( ) j b значимо отличается от нуля на уровне значимости ( ) α если 1 , 1 −α − − = > j j n p b b t t S , 1 , 1 − − − p n t α — табличное значение критерия Стью- дента, определенное на уровне значимости ( ) α при числе степеней свободы 1 = − КВ общей постановке гипотеза (Но равенстве параметра ( ) j b заданному числу ( отвергается, если 0 1 , 1 −α − − − = > j j j n p b b b t t S (4.8) Поэтому доверительный интервал для параметра ( j b ) есть (1 , 1) (1 , 1) j n p bj j j n p bj b t s b b t s −α − − −α − − − ⋅ ≤ ≤ + ⋅ , (4.9) где ( ) 1 − = ⋅ Х X j j ; 2 2 1 ˆ ( ) 1 = − = − − ∑ n i i i y y s n p — выборочная остаточная дисперсия p — число экзогенных переменных Доверительный интервал для функции множественной регрессии (условного математического ожидания) имеет вид 37 ˆ ˆ 1 , 1 , ˆ ˆ ( ) −α −α − × ≤ ≤ + × k y k y y t s M Y y t s , где групповая средняя, определяемая по уравнению регрессии стандартная ошибка групповой средней ( ) ( ) 1 ˆ 0 0 0 01 02 0 2 2 ( ) (1, , ) ˆ , 1 − ′ ′ = ⋅ ′ = − = − − ∑ y k i i s s X X где выборочная остаточная дисперсия. Доверительный интервал для индивидуальных значений зависимой переменной ( * 0 y в множественной регрессии имеет вид 00 00 0 ˆ ˆ 0 1 , 1 0 0 1 , 1 1 ˆ 0 0 2 2 1 ˆ ˆ _ 1 ( ) ˆ ( ) 1 • −α − − −α − − − = − ⋅ ≤ ≤ + ⋅ ′ ′ = ⋅ + − = − − ∑ n p y n p y y n i i i y t s y y t s s s X X Доверительный интервал для параметра 2 δ в множественной регрессии имеет вид 2 2 2 , 1 1 , 1 2 2 α α − − − − − ≤ δ ≤ χ χ n p n Уравнение множественной регрессии значимо, если 1 2 2 , , 2 ( 1) ( 1) (1 ) α − − − − = = − R k k e Q n p R n p F F Q p R p 38 1 2 2 2 1 2 2 1 1 ˆ ( ) ( ) , = = = = − − ′ ′ = − = − ′ ′ ′ = − = − ′ = − = − ∑ ∑ R e n e i i i n i i k p k n p Q Q Q b X Y ny Q y y Y Y b X Y Q y y Y где 21 , , α k k F — табличное значение критерия Фишера — Снедекора. В теме № 3 был введен коэффициент детерминации ( как оценка адекватности регрессионной модели. Коэффициент множественной детерминации определяется по формуле 2 2 1 2 1 ˆ ( ) 1 1 ( ) = = − = = − = Недостатком коэффициента множественной детерминации является то, что он увеличивается при добавлении новых экзогенных переменных, хотя это и необязательно означает улучшение качества регрессионной модели. Поэтому предпочтительней использовать скорректированный коэффициент детерминации 2 2 1 ˆ 1 (1 ) 1 − = − − − − n R R n p (4.18) Контрольные вопросы к теме № 4 Что представляет уравнение множественной регрессии. 2. Почему при рассмотрении множественной регрессии необходимо пользоваться матричной записью. Каким образом производится оценка параметров в уравнении множественной регрессии. Назовите предпосылки для множественного регрессионного анализа. 39 5. Для чего служат стандартизированные коэффициенты регрессии и коэффициенты эластичности. Задача № 4.1. Имеется линейная модель множественной регрессии Х + 0,0092 Х + Ui (0, 045) (0,0016) (0,0050) В скобках указаны стандартные отклонения оценок коэффициентов. Требуется 1. Проверить статистическую значимость коэффициентов уравнения при α = 0,05. 2. Определить, является ли константа значимо меньше 0,31. 3. Проверить совместную статистическую значимость переменных Хи Х, если сумма квадратов ошибок составляет 0,0084, а дисперсия наблюдаемой переменной Y = 0,0011. Задача № 4.2. Имеется уравнение регрессии в виде Y = –3,54 + 0,854 Х + 0,367 Х 2 Требуется: 1. Оценить математическое ожидание М х (Y) при Х = (1 8 6). Задача 4.3. Имеется уравнение регрессии в виде Y = –3,54 + 0,854 Х + 0367 ХА также известно 10 1 6,329 = = ∑ i i e (остаточная дисперсия n = 10, ( ) 1 15027 1209 522 1 1209 201 108 3738 522 108 244 − − − ′ = − − − − X X — матрица, обратная матрице сумм первых степеней, квадратов и попарных произведений) наблюдений экзогенных переменных. 40 Требуется Найти 95%-ые доверительные интервалы для индивидуального и среднего значений эндогенной переменной. Найти интервальную оценку для дисперсии эндогенной переменной. Проверить значимость коэффициентов регрессии (В) и (В 2 ) Задача 4.4. Изменение спроса на некоторое благо (Y) у домашних хозяйств можно объяснить с помощью цены этого блага (Хи дохода домохозяйств (Х. Информация дана в таблице. Y 31,4 30,4 32,1 31 30,5 29,8 31,1 31,7 30,7 29,7 Х 4, 1 4, 2 4,0 4,6 4,0 5,0 3,9 4,4 4,5 4,8 Х 1050 1010 1070 1060 1000 1040 1030 1080 1050 1020 Требуется 1) Оценить параметры линейного двухфакторного уравнения = В + В 1 Х 1 i + В 2 Х 2 i +и интерпретировать оценки) Оценить дисперсию ошибки ( ) 2 δ u 3) Рассчитать оценку математического ожидания (при Хи Х = 980. |