b
Уравнения линейной регрессии являются уравнениями прямых линий в плоскости xOy
, проходящих внутри соответствующего корреляционного поля. Такие линии называются линиями регрессии. y
x
y a
0
y x
x a
а) б)
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
28 Для того, чтобы полученные МНК
оценки обладали желательными свойствами, сделаем следующие предпосылки об отклонениях i
:
1) величина i
является случайной переменной
2) математическое ожидание i
равно нулю М
3) значения i
независимы между собой. Откуда вытекает, в частности, что
,
,
,
0
)
,
cov(
2
j i
j i
j i
4) дисперсия i
постоянна j
i
D
D
j i
,
,
)
(
)
(
2
;
5) ошибки i
подчиняются нормальному распределению i
это условие не является обязательным, но оно необходимо для проверки статистической значимости найденных оценок и определения для них доверительных интервалов. Если условия 1)-4) выполняются, то оценки, сделанные с помощью МНК, обладают следующими свойствами
1. Оценки являются несмещёнными (те. математическое ожидание каждого параметра равно его истинному значению
)
(
,
)
(
b
M
a
M
).
2. Оценки состоятельны (дисперсия оценок параметров при возрастании числа наблюдений стремится к нулю
0
)
(
lim
;
0
)
(
lim
b
D
a
D
n n
). Иначе говоря, надёжность оценки при возрастании выборки растёт. Если n велико, то почти наверняка a близко ка близко к
3. Оценки эффективны, они имеют наименьшую дисперсию по сравнению с любыми другими оценками данного параметра, линейными относительно величин Пример 1. Поданным примера 1 оценить параметры уравнения линейной регрессии. Тема 5. Оценка качества полученного уравнения (верификация)
Расчёт значений параметров уравнения регрессии – лишь первый шаг на пути решения проблемы количественного оценивания зависимости одной переменной от другой (других) переменных. Следующим этапом решения этой проблемы является оценка качества построенного уравнения, вынесения суждения относительно его отдельных параметров и степени пригодности в целом. Анализ качества оценённой зависимости включает статистическую и содержательную составляющие. Проверка статистического качества состоит из следующих элементов
1. Проверка общего качества.
2. Проверка статистической значимости каждого коэффициента уравнения регрессии и всего уравнения в целом.
3. Проверка предпосылок, лежащих в основе МНК. Под содержательной составляющей анализа качества понимается рассмотрение экономического смысла оценённого уравнения регрессии действительно ли значимыми оказались объясняющие факторы, важные сточки зрения теории положительны или отрицательны коэффициенты, показывающие направление действия этих факторов попали ли оценки коэффициентов регрессии в предполагаемые из теоретических соображений интервалы.
5.1. Оценка общего качества уравнения регрессии Для анализа общего качества полученного уравнения регрессии на количественном уровне используют коэффициент детерминации
2
R
. Он рассчитывается по формуле
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
29
2 2
2
)
ˆ
(
1
y y
y y
R
i В числителе вычитаемой из единицы дроби стоит сумма квадратов отклонений (СКО) выборочных значений зависимой переменной от теоретических, найденных с помощью уравнения регрессии i
i bx a
y
ˆ
. В знаменателе – СКО наблюдений зависимой переменной от среднего значения. Коэффициент детерминации характеризует долю вариации (разброса) зависимой переменной, объяснённой с помощью данного уравнения. Замечание. В случае парной линейной регрессии коэффициент детерминации равен квадрату коэффициента линейной корреляции. Более точным является значение коэффициента детерминации с поправкой на число степеней свободы. Разделив каждую СКО на свое число степеней свободы,
получим средний квадрат отклонений, или дисперсию на одну степень свободы
1 2
2
n y
y
S
y
– дисперсия, характеризующая общий разброс
1
ˆ
2 т n
y y
S
– остаточная дисперсия, где m – число независимых (объясняющих) переменных, в случае парной регрессии m =1 и формула имеет вид
2
ˆ
2 2
n Учитывая приведённые выше обозначения, формула коэффициента детерминации с поправкой на число степеней свободы будет иметь вид
2 2
2 Значения коэффициента
2
R
изменяются от 0 до +1 (в редких случаях значение может быть и отрицательным числом. Близость коэффициента детерминации к +1 свидетельствует о том, что существует статистически значимая линейная связь между переменными, а уравнение имеет хорошее качество. Близость к 0 говорит о том, что просто горизонтальная прямая у
у
является лучшей по сравнению с найденной регрессионной прямой. Самостоятельную важность коэффициент детерминации приобретает только в случае множественной регрессии.
5.2. Оценка существенности параметров линейной регрессии и всего уравнения в целом После того, как найдено уравнение линейной регрессии, проводится
оценка значимости как уравнения в целом, таки отдельных его параметров. Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данными достаточно ли включённых в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Проверка значимости производится на основе дисперсионного анализа. Согласно идее дисперсионного анализа, общая сумма квадратов отклонений (СКО) y от среднего значения y
раскладывается на две части – объясненную и необъясненную
2 2
2
ˆ
ˆ
y y
y y
y или, соответственно Объясненная факторная) СКО
+ Необъясненная остаточная) СКО
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
30 Общая СКО) = Здесь возможны два крайних случая когда общая СКО в точности равна остаточной и когда общая СКО равна факторной. В первом случае фактор хне оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Охи уравнение должно иметь виду у Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю. Однако на практике в правой части присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит оттого, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y. Это равносильно тому, что коэффициент детерминации будет приближаться к единице. Число степеней свободы (df-degrees of freedom) – это число независимо варьируемых значений признака. Для общей СКО требуется (n-1) независимых отклонений,
1
n df общ
Факторная СКО имеет одну степень свободы, и факт df остат.
факт.
общ.
df df Таким образом, можем записать
2 1
1
n Из этого баланса определяем, что остат.
df
= n–2. Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы
1 2
2
n y
y
S
y
- общая дисперсия,
1
ˆ
2 2
y факт - факторная,
2
ˆ
2 2
n y
y
S
остаточ
- остаточная.
5.2.1. Анализ статистической значимости коэффициентов линейной регрессии Хотя теоретические значения коэффициентов
,
уравнения линейной зависимости
X
Y
предполагаются постоянными величинами, оценки аи этих коэффициентов, получаемые входе построения уравнения поданным случайной выборки, являются случайными величинами. Если ошибки регрессии имеют нормальное распределение, то оценки коэффициентов также распределены нормально и могут характеризоваться своими средними значениями и дисперсией. Поэтому анализ коэффициентов начинается с расчёта этих характеристик. Дисперсии коэффициентов рассчитываются по формулам Дисперсия коэффициента регрессии b
:
2 2
2
)
(
x x
S
S
b
D
b
, где
2
S
– остаточная дисперсия на одну степень свободы. Дисперсия параметра а
n x
b
D
x x
n x
S
S
a
D
a
2 2
2 Отсюда стандартная ошибка коэффициента регрессии b
определяется по формуле
2 2
2
x x
S
S
S
b b
,
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
31 Стандартная ошибка параметра а
определяется по формуле n
x
S
S
S
b a
a
2 Далее рассчитываются t – статистики b
b
S
b t
, a
a
S
a t Они служат для проверки нулевых гипотез о том, что истинное значение коэффициента регрессии b или свободного члена a равно нулю
)
0
(
0
:
0
Н
Альтернативная гипотеза имеет вид Н – статистики имеют t – распределение Стьюдента с
)
2
(
n степенями свободы. По таблицам распределения Стьюдента при определённом уровне значимости α и
)
2
(
n степенях свободы находят критическое значение п t
кр
Если п t
t кр, то нулевая гипотеза должна быть отклонена, коэффициенты считаются статистически значимыми. Если п t
t кр, то нулевая гипотеза не может быть отклонена. (В случае, если коэффициент статистически незначим, уравнение должно иметь виду у
, и это означает, что связь между признаками отсутствует. В случае, если коэффициента статистически незначим, рекомендуется оценить новое уравнение в виде bx у
). Интервальные оценки коэффициентов линейного уравнения регрессии Доверительный интервал для акр акра а t
S
а
Доверительный интервал для b: кр кр b
t
S
b Это означает, что с заданной надёжностью
1
q
(где
- уровень значимости) истинные значения а, b находятся в указанных интервалах. Коэффициент
регрессии имеет четкую экономическую интерпретацию, поэтому доверительные границы интервала не должны содержать противоречивых результатов, например,
40 10
b
Они не должны включать нуль.
5.2.2. Анализ статистической значимости уравнения в целом. Распределение Фишера в регрессионном анализе Оценка значимости уравнения регрессии в целом дается с помощью F- критерия Фише- ра. При этом выдвигается нулевая гипотеза
:
0
H
о том, что все коэффициенты регрессии, за исключением свободного члена а, равны нулю и, следовательно, фактор хне оказывает влияния на результат y (
:
0
H
)
0
(
2
R
или
)
0
(
b
). Величина F – критерия связана с коэффициентом детерминации. В случае множественной регрессии m
R
m n
R
F
)
1
(
)
1
(
2 2
, где m – число независимых переменных. В случае парной регрессии формула F – статистики принимает вид
2 1
2 При нахождении табличного значения F- критерия задается уровень значимости (обычно
0,05 или 0,01) и две степени свободы
)
1
;
(
m кр – в случае множественной регрессии, кр – для парной регрессии.
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
32 Если крит набл
F
F
, то
0
H отклоняется и делается вывод о существенности статистической связи между y и x. Если крит набл
F
F
, то вероятность уравнение регрессии считается статистически незначи- мым,
0
H
не отклоняется. Замечание. В парной линейной регрессии
F
t r
2
. Кроме того,
F
t b
2
, поэтому
2 2
b r
t t Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии. Распределение Фишера может быть использовано не только для проверки гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии, но и гипотезы о равенстве нулю части этих коэффициентов. Это важно при развитии линейной регрессионной модели, так как позволяет оценить обоснованность исключения отдельных переменных или их групп из числа объясняющих переменных, или же, наоборот, включения их в это число. Пусть, например, вначале была оценена множественная линейная регрессия т
т x
b x
b x
b а 2
1 1
поп наблюдениям ст объясняющими переменными, и коэффициент детерминации равен
2 1
R
, затем последние k
переменных исключены из числа объясняющих, и по тем же данным оценено уравнение т та, для которого коэффициент детерминации равен
2 2
R
(
2 2
R
2 1
R
, т.к. каждая дополнительная переменная объясняет часть , пусть небольшую, вариации зависимой переменной. Для того, чтобы проверить гипотезу об одновременном равенстве нулю всех коэффициентов при исключённых переменных, рассчитывается величина k
R
m n
R
R
F
)
1
(
)
1
)(
(
2 1
2 2
2 1
, имеющая распределение Фишера с
)
1
;
(
m n
k степенями свободы. По таблицам распределения Фишера, при заданном уровне значимости, находят
)
1
;
(
m кр. И
если крит наблF
F
, то нулевая гипотеза отвергается. В таком случае исключать все k переменных из уравнения некорректно. Аналогичные рассуждения могут быть проведены и по поводу обоснованности включения в уравнение регрессии одной или нескольких k новых объясняющих переменных. В этом случае рассчитывается F – статистика k
R
k m
n
R
R
F
)
1
(
)
1
)(
(
2 2
2 1
2 2
, имеющая распределение
)
1
;
(
k m
n k
F
. И если она превышает критический уровень, то включение новых переменных объясняет существенную часть необъяснённой ранее дисперсии зависимой переменной (те. включение новых объясняющих переменных оправдано. Замечания. 1. Включать новые переменные целесообразно по одной.
2. Для расчёта F – статистики при рассмотрении вопроса о включении объясняющих переменных в уравнение желательно рассматривать коэффициент детерминации с поправкой на число степеней свободы.
F – статистика Фишера используется также для проверки гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений. Пусть имеются 2 выборки, содержащие, соответственно,
2 1
, n n
наблюдений. Для каждой из этих выборок оценено уравнение регрессии вида т
т x
b x
b x
b а 2
1 1
. Пусть СКО у от линии регрессии (те.
2
i e
) равны для них, соответственно,
2 1
, S
S
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
33 Проверяется нулевая гипотеза Но том, что все соответствующие коэффициенты этих уравнений равны друг другу, те. уравнение регрессии для этих выборок одно и тоже. Пусть оценено уравнение регрессии того же вида сразу для всех
)
(
2 1
n n
наблюдений, и
СКО
0 2
S
e Тогда рассчитывается F – статистика по формуле
)
1
)(
(
)
2 2
)(
(
2 1
2 1
2 1
0
m
S
S
m Она имеет распределение Фишера с
)
2 2
;
1
(
2 1
m n
n m
степенями свободы. F – статистика будет близкой к нулю, если уравнение для обеих выборок одинаково, т.к. в этом случае
2 1
0
S
S
S
. Те. если крит набл
F
F
)
2 2
;
1
(
2 1
m n
n m
, то нулевая гипотеза принимается. Если же крит набл
F
F
, то нулевая гипотеза отвергается, и единое уравнение регрессии построить нельзя.
5.3. Проверка предпосылок, лежащих в основе МНК Следующим этапом оценивания качества уравнения является проверка выполнения предпосылок, лежащих в основе метода расчёта параметров МНК. Предпосылками МНК являются
1. случайный характер ошибок регрессии
2. нулевая средняя величина ошибок регрессии, независящая от значения объясняющих переменных
3. независимость распределения ошибок для различных наблюдений в случае оценки уравнения на временных рядах – отсутствие автокорреляции ошибок
4. постоянство дисперсии ошибок, её независимость от значений объясняющих переменных гомоскедастичность (если эта предпосылка не выполняется, то имеет место гетероскеда- стичность ошибок
5. нормальность распределения ошибок регрессии. Для проверки выполнения каждой из предпосылок применения МНК имеются специальные тесты. Реализация многих из этих тестов предполагает значительный объём исходных данных. Если распределение случайных ошибок i
не соответствует некоторым предпосылкам
МНК, то следует корректировать модель.
5.3.1. Проверка первой предпосылки МНК Прежде всего, проверяется случайный характер остатков i
– первая предпосылка МНК. С этой целью стоится график зависимости остатков i
от теоретических значений результативного признака (рис. 1). Если на графике получена горизонтальная полосато остатки i
представляют
собой случайные величины и МНК оправдан, теоретические значения
x y
хорошо аппроксимируют фактические значения y
Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.
34 Рис. 1. Зависимость случайных остатков i