5. Этапы построения эконометрических моделей.
1) Спецификация. На данном этапе определяется список экономических переменных, характеризующих функционирование данного объекта, и устанавливается их взаимосвязь.
Принципы спецификации:
- спецификация – результат математической формализации эконометрических закономерностей
- число уравнений равно числу эндогенных переменных
- датирование переменных
- включение возмущений
2) Сбор статистической информации
3) Оценка
параметров (идентификация). Проводится на основании статистической информации при помощи статистических методов (как правило, методов регрессионного анализа). Существуют различные методы расчета параметров эконометрической модели: классический метод наименьших квадратов (МНК), обобщенный МНК и т. д. Этапом идентификации заканчивается построение эконометрической модели.
4) Проверка адекватности – проверяется соответствие модели эмпирическим данным.
Отвечает на вопросы:
- Насколько удачно построена модель, т. е. можно ли рассчитывать на то, что ее использование для прогнозирования и имитационных расчетов даст результаты достаточно адекватные реальной действительности.
- Какова точность прогнозных и имитационных расчетов, основанных на построенной модели
1. Спецификация – подробное описание модели:
Формирование списка переменных;
Выбор зависимости между переменными
2. Сбор статистической информации
3. Оценка параметров
4. Проверка адекватности
11
6. Смысл выходной статистической информации функции ЛИНЕЙН.
Оценка параметров регрессионной модели, а также вычисление статистик, позволяющих проверить качество оцененной модели, могут быть выполнены в Excel при помощи функции "ЛИНЕЙН". Порядок работы с функцией "ЛИНЕЙН":
1) выделяется область для размещения результата — пять строчек, число столбцов равно числу оцениваемых параметров;
2) вызывается функция "ЛИНЕЙН";
3) заполняются строчки окна функции: диапазон значений эндогенной переменной (Y); диапазон значений регрессоров (одним полем) (X); значение параметра "Конс"(0 — спецификация без свободного члена, 1— спецификация со свободным членом); значение параметра "Стат" (0 — оцениваются только параметры модели, 1 — оцениваются параметры модели и статистики, позволяющие проверить качество оцененной модели);
Результаты вычислений, например, для модели
t
t
t
t
X
X
Y
2 2
1 1
0
,
n
t
,...,
1
, расположены в следующем порядке:
Где
, — оценки параметров модели;
,
— оценки ско оценок параметров;
— оценка ско возмущений;
12
— коэффициент детерминации,
используемый для определения качества модели, чем лучше качество спецификации, тем значение ближе к 1, чем хуже — тем ближе к 0;
— значение статистики, имеющей распределение Фишера и используемой для проверки статистической значимости коэффициента детерминации;
— число степеней свободы (
, — объем выборки, — число параметров модели);
— сумма квадратов остатков;
— сумма квадратов центрированных по выборочным данным оценок значений эндогенной переменной.
13
7. Спецификация парной линейной регрессионной модели, предпосылки
Гаусса-Маркова.
𝑌 = 𝑎 + 𝑏𝑋 + 𝜀
Y – эндогенная переменная (зависимая переменная, случайная величина) a и b – параметры модели (постоянные неизвестные коэффициенты)
Х – экзогенная переменная (независимая переменная, регрессор)
𝜀 – случайное возмущение (случайная величина), характеризующее отклонение от уравнения регрессии (теоретической линейной зависимости) и возникающее: из-за ошибок спецификации, ошибок измерений.
Уравнения для отдельных наблюдений зависимой переменной 𝑌 записываются в виде (схема Гаусса-Маркова):
𝑌
𝑡
= 𝑎 + 𝑏𝑋
𝑡
+ 𝜀
𝑡
Где 𝑌
𝑡
,
𝑋
𝑡
,
𝑡 = 1, … , 𝑛 – выборочные данные (наблюдения), 𝑛 – объем выборки
(количество наблюдений).
Относительно возмущений 𝜀
𝑡
,
𝑡 = 1, … , 𝑛, в регрессионных моделях принимаются следующие предположения (предпосылки Гаусса-Маркова):
1) Математическое ожидание случайных возмущений равно нулю.
𝐸{𝜀
𝑡
} = 0, 𝑡 = 1, … , 𝑛
2) Дисперсия возмущений постоянна и не зависит от номера (момента) наблюдений 𝑡
𝑉𝑎𝑟{𝜀
𝑡
} = 𝑐𝑜𝑛𝑠𝑡 = 𝜎
2
Независимость дисперсии возмущения от номера наблюдения называется
гомоскедастичностью – одинаковый разброс. Зависимость – гетероскедастичность.
3) Ковариация между значениями возмущений в различных наблюдениях равна нулю.
𝐶𝑜𝑣{𝜀
𝑡
; 𝜀
𝑠
} = 0 при 𝑡 ≠ 𝑠
Обычно данное условие нарушается для временных рядов (а данные различных экономических показателей, как правило, представляют собой временные ряды), в этом случае говорят об автокорреляции возмущений.
4) Ковариация между регрессором и случайным возмущением равна нулю.
𝐶𝑜𝑣{𝑋
𝑡
; 𝜀
𝑠
} = 0
14
Регрессионная модель (первая формула) с учетом условий Гаусса-Маркова называется классической регрессионной моделью. Иногда в предпосылки регрессионной модели включают условие нормального распределения возмущения
𝜀
𝑡
𝑁(0, 𝜎
2
)
В этом случае модель называется классической нормальной регрессионной моделью.
15
8. Теорема Гаусса - Маркова.
Теорема Гаусса-Маркова
Предпосылки Гаусса-Маркова:
1) Математическое ожидание случайных возмущений равно нулю.
𝐸{𝜀
𝑡
} = 0, 𝑡 = 1, … , 𝑛
2) Дисперсия возмущений постоянна и не зависит от номера (момента) наблюдений 𝑡
𝑉𝑎𝑟{𝜀
𝑡
} = 𝑐𝑜𝑛𝑠𝑡 = 𝜎
2 3) Ковариация между значениями возмущений в различных наблюдениях равна нулю.
𝐶𝑜𝑣{𝜀
𝑡
; 𝜀
𝑠
} = 0 при 𝑡 ≠ 𝑠
4) Ковариация между регрессором и случайным возмущением равна нулю.
𝐶𝑜𝑣{𝑋
𝑡
; 𝜀
𝑠
} = 0
Теорема
Пусть матрица 𝑋 детерминирована и имеет полный ранг. При выполнении условий Гаусса-Маркова (предпосылки) МНК-оценки параметров 𝑎̂, 𝑏̂ относятся к классу линейных по 𝑌, несмещенных оценок с минимальной дисперсией.
Линейность оценок показана выражением 𝛽̂ = 𝐴𝑌 = (𝑋
𝑇
𝑋)
−1
𝑋𝑌
Оценка параметра называется несмещенной, если ее математическое ожидание равно значению параметра: 𝐸{𝛽̂} = 𝐸{𝐴𝑌} = 𝐴𝐸{𝑌} = 𝐴𝐸{𝑋𝛽 + 𝜀} = 𝐴𝑋𝛽 = 𝐼
𝑘
∗ 𝛽 = 𝛽
Несмещенная оценка является эффективной, если она имеет минимальную дисперсию по сравнению с другими оценками в классе выбранных процедур.
( )
{ }
=
b
- b
2
ˆ
E
{ }
(
)
{
}
=
b
- b
=
2
ˆ
ˆ E
E
{ }
b
ˆ
V a r
{ }
b
=
b
m in
V a r
16
9. Оценка параметров линейной регрессионной модели методом наименьших квадратов (МНК). В МНК в качестве
критерия отбора одной прямой 𝑌̂
𝑡
= 𝑎̂ + 𝑏̂𝑋
среди множества прямых, проходящих через область с набором наблюдений 𝑌
𝑡
,
𝑋
𝑡
,
𝑡 = 1, … , 𝑛, используется функция вида (функционал качества):
И оценки параметров 𝑎̂ и 𝑏̂ должны быть подобраны таким образом, чтобы сумма квадратов остатков регрессии была минимальной:
Таким образом, задача оценки параметров парной регрессионной модели МНК сводится к задаче определения экстремума
(минимума) функции двух аргументов. Необходимые условия экстремума:
Система нормальных уравнений:
Из первого уравнения находим оценку параметра
а:
,
Подстановка полученного для 𝑎̂ выражения во второе уравнение системы нормальных уравнений
17
Приводит к оценке параметра b:
18
10. Доказательство несмещенности МНК-оценок параметров линейной регрессионной модели. Вектор оценок параметров AYYXXXTT
1
)
(
ˆ
Математическое ожидание
YAEE
ˆ
YAE
XAE
XA
kIОпределение. Оценка параметра называется несмещенной, если ее математическое ожидание равно значению параметра
Автоковариационная матрица вектора оценок параметров
AYAYCovC,
ˆ
ˆ
TTYYAAACA2
1 1
2
)
(
)
(
XXXXXXTTT
Статистическая оценка некоторого параметра называется
несмещенной, если ее математическое ожидание равно истинному значению этого параметра.
Для случая парной линейной регрессии это означает, что оценки
a и
b будут несмещенными, если
𝐸{𝑎} = 𝛼; 𝐸{𝑏} = 𝛽
Докажем это свойство. Используя правила преобразования выборочных ковариаций, можно записать
𝐶𝑜𝑣(𝑥, 𝑦) = 𝐶𝑜𝑣(𝑥, [𝛼 + 𝛽𝑥 + 𝑢]) = 𝐶𝑜𝑣(𝑥, 𝛼) + 𝐶𝑜𝑣(𝑥, 𝛽𝑥) + 𝐶𝑜𝑣(𝑥, 𝑢)
= 𝛽𝑉𝑎𝑟(𝑥) + 𝐶𝑜𝑣(𝑥, 𝑢)
Используя формулу 𝑏 =
𝐶𝑜𝑣(𝑥,𝑦)
𝑉𝑎𝑟(𝑥)
для коэффициента
b, а также полученное выше соотношение, запишем
𝑏 =
𝐶𝑜𝑣(𝑥, 𝑦)
𝑉𝑎𝑟(𝑥)
= 𝛽 +
𝐶𝑜𝑣(𝑥, 𝑢)
𝑉𝑎𝑟(𝑥)
Далее, поскольку
x - неслучайная величина, будем иметь
QXXT
2 1
2
)
(
19
𝐸{𝑏} = 𝛽 + 𝐸 {
𝐶𝑜𝑣(𝑥, 𝑢)
𝑉𝑎𝑟(𝑥)
} = 𝛽 +
𝐸{𝐶𝑜𝑣(𝑥, 𝑢}
𝑉𝑎𝑟(𝑥)
= 𝛽 и, таким образом, оценка b является несмещенной.
Несмещенность оценки a следует из цепочки равенств
𝐸{𝑎} = 𝐸{𝑦̅ − 𝑏𝑥̅} = 𝐸{𝑦̅} − 𝑥̅𝐸{𝑏} = 𝛼 + 𝛽𝑥̅ − 𝑥̅𝛽 = 𝛼
20
11. Несмещённая оценка дисперсии возмущений регрессионной модели.
=
𝜎
2
(𝑛−𝑘)
𝑛−𝑘
= 𝜎
2
Математическое ожидание суммы квадратов остатков: где
- след автоковариационной матрицы, который равен сумме её диагональных элементов.
=
Так как
Таким образом, несмещённая оценка дисперсии возмущений:
Обозначения:
– автоковариационная матрица вектора остатков
, где
21
12. Доверительные интервалы параметров линейной регрессионной модели.
Дробь Стьюдента –нормированная ошибка оценки: распределение Стьюдента, где ( ошибка оценки и
(n-2) – число степеней свободы является параметром распределения Стьюдента.
Доверительная вероятность:
, где - уровень значимости или
;
;
Таким образом, границы доверительного интервала параметра b равны:
Аналогично определяются границы доверительного интервала параметра а:
22
13. Алгоритм построения интервальных оценок параметров регрессионной
модели в Excel.
Алгоритм построения доверительных интервалов параметров модели имеет следующую последовательность:
1) оценка параметров модели по выборочным данным производится с помощью функции ЛИНЕЙН при параметрах: Константа =1 (=0, если нет свободного члена), статистика =1(всегда). Эти вычисления будут равноценным вычислениям по формулам
;
2) оценка значений эндогенной переменной и вычисление остатков регрессии: основываясь на данных, полученных с помощью функции линейн подставляем и рассчитываем
;
, t=1,…,n;
3) оценка дисперсии возмущений, так же получается при применении функции
ЛИНЕЙН (в таблице EXCEL находится под данными ско оценки первого регрессора
(константы при единичном регрессоре)):данные равносильны вычисляемым по формуле
;
4) оценка дисперсии коэффициентов, так же выводится в функции ЛИНЕЙН под оценками параметров модели.
Равносильно квадратному корню из:
;
5) выбор критического (табличного значения) статистики tkp(n - 2) Критическое значение t^ статистики Стьюдента можно определить в Excel, в категории
«Статистические», при помощи функции «Стьюдраспобр». Параметры функции: вероятность (уровень значимости), число степеней свободы (для парной регрессии n -
2).;
6) вычисление границ доверительных интервалов параметров модели по формулам
;
23
14. Проверка значимости оценок параметров линейной регрессионной
модели.
При проверке качества спецификации парной регрессии наиболее важной является задача установления наличия линейной зависимости между эндогенной переменной и регрессором модели. С этой целью проверяется значимость оценки параметров α и β. В процедуре проверки значимости оценки параметра парной регрессии используется дробь Стьюдента которая при истинности гипотезы H0:β = 0, против конкурирующей H1: β 0, принимает вид:
,и, при выполнении условий Гаусса—Маркова (относительно случайных возмущений), имеет t-распределение с числом степеней свободы n-2. Аналогично формируется t-статистика для проверки гипотезы H0 значимости параметра α, однако параметр β в парной регрессии имеет более важную роль, так как его значимость соответствует значимости регрессора и наличию линейной связи между переменными модели.
Алгоритм проверки значимости параметра β выполняется в следующей последовательности:
1) оценка параметров парной регрессии;
2) оценка дисперсии возмущений S
2
;
3) оценка ско оценки параметра β;
4) выбор значения tкр (по заданному уровню значимости α и числу степеней свободы (n - 2) из таблиц распределения Стьюдента);
5) проверка неравенства
, при H0: β=0
Если данное неравенство выполняется, то регрессор признается незначимым, если не выполняется, то гипотеза H0: β=0 отвергается и регрессор признается значимым, т. е. между эндогенной переменной и регрессором присутствует линейная зависимость.
При проверке статистической значимости параметров модели можно использовать следующее приближенное правило
1)
, то коэффициент не может быть признан значимым (доверительная вероятность меньше 0,7);
24 2)
, то коэффициент может быть признан значимым с доверительной вероятностью в диапазоне между 0,7-0,95;
3)
, то коэффициент признается значимым с доверительной вероятностью в диапазоне между 0,95-0,99;
4)
, то значимость коэффициента очевидна (доверительная вероятность находится в диапазоне между 0,99 и выше).
Чем больше объем выборки, тем надежнее выводы о значимости коэффициента.
При n > 10 приближенное правило дает результаты, близкие к табличным.
25
15. Интервальная оценка эндогенной переменной на интервале
прогнозирования.
Дробь Стьюдента
p
p
p
p
s
Y
Y
t
ˆ
Для уровня значимости
t
s
Y
Y
t
p
p
p
p
ˆ
интервальная оценка
p
p
p
p
p
s
t
Y
Y
Y
s
t
Y
Y
ˆ
ˆ
Sp – ско ошибки прогноза эндогенной переменной
Автоковариационная матрица ошибок прогноза
Ошибка прогноза
n
p
Y
Y
e
p
p
p
,
ˆ
автоковариационная матрица ошибки
)
ˆ
,
ˆ
(
Y
Y
Y
Y
Cov
)
ˆ
,
ˆ
(
)
,
ˆ
(
2
)
,
(
Y
Y
Cov
Y
Y
Cov
Y
Y
Cov
На интервале прогнозирования:
0
)
,
(
)
,
(
)
,
ˆ
(
)
,
ˆ
(
p
n
p
n
p
p
Y
Y
NCov
Y
NY
Cov
Y
Y
Cov
Y
Y
Cov
автоковариационная матрица оценки
N
N
Y
Y
NCov
NY
NY
Cov
Y
Y
Cov
T
2
)
,
(
)
,
(
)
ˆ
,
ˆ
(
автоковариационная матрица ошибки
T
p
T
p
p
p
p
p
p
pp
X
X
X
X
I
N
I
N
I
C
1 2
2 2
2
)
(
)
(
Заменяя значение дисперсии 𝜎
2
его оценкой, получим выражение для оценки дисперсии прогноза для наблюдения t=p 𝑠
𝑝
2
= 𝑠
2
(1 +
1
𝑛
+
𝑥
𝑝
2
∑ 𝑥
𝑡
2
).
Границы доверительного интервала прогноза индивидуальных значений Yt определяется по формуле 𝑌̂ ± 𝑡𝑘𝑟 ∗ 𝑠
𝑝
26
16. Алгоритм проверки адекватности регрессионной модели. 1 ШАГ Деление выборки на две части: обучающую и контролирующую
Обучающая выборка — 90
95% наблюдений
Контролирующая выборка— 5
10% наблюдений
2 ШАГ Настройка модели по обучающей выборке (оценка параметров МНК)
3 ШАГ Построение прогноза эндогенной переменной из контролирующей выборки
ppXbaY
ˆ
ˆ
ˆ
Вычисление знаменателя дроби Стьюдента
4 ШАГ Построение интервальной оценки эндогенной переменной из контролирующей выборки
,
ˆ
pppstYY
pppstYY
ˆ