Y только от одной объясняющей переменной X
Скачать 1.62 Mb.
|
Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование. ГЛАВА 1. ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ 1.1. ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ Парнаялинейнаярегрессионнаямодель с пространственной вы- боркой – наиболее простой вид эконометрической модели, в которой рас- сматривается зависимость объясняемой переменной Y только от одной объясняющей переменной X (поэтому модель называется парной), причём эта зависимость линейная. Спецификация модели (0.3) в этом случае ε + + = bx a y (1.1) Пусть имеем результаты экс- перимента - выборку объемом n из генеральной совокупности, т.е. n пар значений ) , ( i i y x ( рис.1.1). Задача: найти для них уравне- ние прямой линии, от которой разброс наблюдаемых значений в целом ми- нимален. Как будет показано ниже, для данной выборки уравнение x bˆ aˆ y ˆ + = может быть получено. Однако в различных выборках даже из одной генеральной совокупности и даже одного объема n набор пар ) , ( i i y x , как правило, неодинаков. В ре- зультате несколько различны aˆ и bˆ и, соответственно, несколько иные оценки ошибок – остатки i e . Т.о. в конкретной серии наблюдений имеем конкретное уравнение e x bˆ aˆ e yˆ y + + = + = (1.1') 1.1.1. Метод наименьших квадратов Наиболее часто для нахождения оценок коэффициентов регрессии применяется (например, [16]) методнаименьшихквадратов(МНК), ре- шающий задачу min ) y ˆ y ( n i i i → − ∑ =1 2 Характеристики оценок, получае- мых по данному методу, следуют из теоремы Гаусса-Маркова. ! ТеоремаГаусса-Маркова. Впредположениях (0.3)…(0.8) дляпарнойлинейнойрегрессионноймо- дели (1.1) спространственнойвыборкойоценкикоэффициентоврегрессии aˆ и bˆ , полученныеметодомнаименьшихквадратов, имеютнаименьшую дисперсиювклассевсехлинейныхнесмещенныхоценок. Рис. 1.1 Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование. 14 Общий смысл: оценки коэффициентов линейной регрессии aˆ и bˆ , по- лученные методом наименьших квадратов, являются в определенном смыс- ле «наилучшими» из всех оценок. На практике невозможно определить сами ошибки i ε , в расчетах име- ем дело с их оценками, называемыми остатками i e , полученными для дан- ной конкретной выборки. Задача состоит в получении таких оценок коэф- фициентов уравнения регрессии aˆ и bˆ , чтобы min e n 1 i 2 i → ∑ = Остатки представляют собой взятые с соответствующим знаком раз- ности экспериментальных i y и оценочных i y ˆ (« практических» и «теорети- ческих») значений объясняемой переменной. Имеем функционал ∑ ∑ = = − = = n 1 i 2 i i n 1 i 2 i ) yˆ y ( e F Т.к. ищется уравнение прямой линии x bˆ aˆ y ˆ + = , то F фактически яв- ляется функцией двух переменных - оценок коэффициентов aˆ и bˆ : ∑ = + − = n i i i )) x bˆ aˆ ( y ( ) bˆ , aˆ ( F 1 2 Как известно [13], необходимое условие экстремума гладкой функции двух переменных - одновременное равенство 0 ее частных производных: = = . ) bˆ , aˆ ( F , ) bˆ , aˆ ( F ' b ' a 0 0 В частности, для данного функционала имеем: = − − − = − − − ∑ ∑ = = ; ) x )( x bˆ aˆ y ( , ) )( x bˆ aˆ y ( n i i i i n i i i 0 2 0 1 2 1 1 ⇔ = − − = − − ∑ ∑ = = ; ) x bˆ x aˆ y x ( , ) x bˆ aˆ y ( n i i i i i n i i i 0 0 1 2 1 ⇔ = − − = − − ∑ ∑ ∑ ∑ ∑ ∑ = = = = = = ; x bˆ x aˆ y x , x bˆ aˆ y n i i n i i n i i i n i n i n i i i 0 0 1 2 1 1 1 1 1 ⇔ = + = + ∑ ∑ ∑ ∑ ∑ = = = = = . y x x bˆ x aˆ , y x bˆ aˆ n n i i i n i i n i i n i i n i i 1 1 2 1 1 1 Т.к. ∑ = n i i x 1 , ∑ = n i i y 1 , ∑ = n i i x 1 2 , ∑ = n i i i y x 1 для заданной выборки являются по сути числами, то имеем систему 2-х линейных алгебраических уравнений с двумя неизвестными aˆ и bˆ , решить которую можно любым из известных методов (подстановкой, Гаусса, Крамера, обратной матрицы, …). Удобно получить и пользоваться готовыми формулами для вычисле- ния коэффициентов регрессии. Введем средние арифметические Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование. 15 n x x n 1 i i ∑ = = , n y y n 1 i i ∑ = = , n x x n 1 i 2 i 2 ∑ = = , n y x xy i n 1 i i ∑ = = и выразим из 1-го уравнения n x bˆ y aˆ n i i n i i ∑ ∑ = = − = 1 1 В результате имеем = + − − = ∑ ∑ ∑ = = = . y x x bˆ x ) x bˆ y ( , x bˆ y aˆ n i i i n i i n i i 1 1 2 1 Разделив обе части 2-го уравнения на n , имеем = + − − = ∑ ∑ ∑ = = = ; n y x n x bˆ n x ) x bˆ y ( , x bˆ y aˆ n i i i n i i n i i 1 1 2 1 ⇔ = + − − = . xy x bˆ x bˆ y x , x bˆ y aˆ 2 2 Итоговые формулы для оценок коэффициентов регрессии: 2 2 x - x y x - xy bˆ = , x bˆ y aˆ ⋅ − = (1.2) 1.1.2. Характеристики парных линейных регрессий Для оценки теснотылинейнойсвязи между значениями СВ X и Y в конкретной выборке используется выборочный линейныйкоэффициент парнойкорреляции: x x s s y x y x r ⋅ ⋅ − ⋅ = , (1.3) где 2 2 x x s x − = , 2 2 y y s y − = - выборочные среднеквадратичные от- клонения СВ X и Y . Возможный диапазон изменений выборочного линейного коэффици- ента парной корреляции: 1 r 1 ≤ ≤ − Чем ближе по модулю r к 1, тем тес- нее линейная связь между переменными в выборке. При 1 ± = r имеем функциональную зависимость (рис.1.2-1.3). Равенство 0 коэффициента r означает полное отсутствие корреляционной связи (рис.1.4-1.5). ! Замечания. • Близость абсолютной величины r к 0 ещё не означает отсутствие любой связи между переменными, а лишь отсутствие именно линейной связи. Кроме ли- нейной может наблюдаться нелинейная связь (рис.1.5). • Знак r совпадает со знаком оценки коэффициента регрессии bˆ . Качествоконкретного уравнениялинейнойрегрессииоценивают ко- эффициентомдетерминации: Q Q - 1 Q Q R e r 2 = = , (1.4) Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование. 16 где i y – i- ое наблюдаемое значение СВ Y; i y ˆ – i- ое оценочное значение СВ Y; y – среднее арифметическое значение СВ Y; ∑ = = n 1 i 2 i r ) y - y ˆ ( Q – сумма квадратов, обусловленная регрессией (RSS – regression sum of squares [1]); ∑ = = n 1 i 2 i i e ) y ˆ - y ( Q – остаточная сумма квадратов (ESS – error sum of squares); ∑ = = n 1 i 2 i ) y - y ( Q – общая сумма квадратов (TSS – total sum of squares). Рис.1.2. Положительная функцио- нальная зависимость. Рис.1.3. Отрицательная функциональная зависимость. Рис.1.4. Полное отсутствие связи между переменными. Рис.1.5. Отсутствует линейная связь, но присутствует нелинейная. Смысл: 2 R показывает долю вариации переменной Y, обуслов- ленную вариацией объясняющей переменной X Теоретически возможный диапазон 1 R 0 2 ≤ ≤ Чем ближе 2 R к 1, тем качество модели выше, тем ближе в совокупности линия регрес- сии к экспериментальным точкам (рис.1.6). Обычно считаются практическидопустимыми к применению модели с 8 , 0 R 2 > Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование. 17 ! Замечания. • Показанные на рис.1.6 отметки Q , e Q и r Q надо понимать условно, т.е. как изображение соответствующих расстояний, квадраты которых суммируются. • Коэффициент 2 R применяется для оценки качества линейных и нелинейных ре- грессий (рис.1.7-1.8). Даже при полной функциональной зависимо- сти между переменными (т.е. при 1 r ± = ) прямая линия, полученная каким-либо иным методом, кроме МНК, может проходить не точно по точкам. При этом коэффициент де- терминации может не равняться 1 (рис.1.9). Рис. 1.6 • 0 R 2 = означает, что любая из проведённых прямых «одинаково плоха» для полученных исходных данных (рис.1.10). • Если уравнение парной линейной регрессии получено методом наименьших квадратов, то 2 2 r R = (1.5). Рис.1.7 Абсолютно точная подгонка по прямой линии. Рис.1.8 Абсолютно точная подгонка по параболе. Рис.1.9 Несмотря на полную функцио- нальную связь между переменными, прямая, полученная не МНК, может проходить не строго по точкам. Рис.1.10 Любая из проведенных прямых «одинаково плоха» ( 0 R 2 = ). Полянский Ю.Н. Эконометрика. Экономическое моделирование и прогнозирование. 18 Кроме того, качествоуравнениялинейнойрегрессии можно оценить с помощью среднейотносительнойошибкиаппроксимации |