Глава 7. Регрессионный анализ для нестационарных
объясняющих переменных
7.1. Проблема ложной регрессии
Мы начнем обсуждение с проблемы ложной (фиктивной, паразитной – spurious) регрессии.
Обратимся в этой связи к следующему примеру, который был рассмотрен ранее в работе [Носко (2000)].
Пример
Рассмотрим динамику изменений в период с 1957 по 1966 годы трех совершенно различных по природе показателей: E - суммарного производства электроэнергии в
США (в млрд квт-час), C - совокупных потребительских расходов в Тайланде (в млрд. бат) и H - мирового рекорда на конец года в прыжках в высоту с шестом среди мужчин (в см). Значения этих показателей приведены в следующей таблице:
Год Потребление
Тайланд
млрд бат
Эл.энергия США
млрд квт-час
Мир.рекорд
(прыжки с шестом)
см
1957 34.9 716 478
1958 35.9 724 478
1959 37.9 797 478
1960 41.1 844 481
1961 43.5 881 483
1962 46.7 946 493
1963 48.9 1011 520
1964 52.0 1083 528
1965 56.1 1157 528
1966 62.6 1249 534
Динамика изменений показателей показана на графике:
0 200 400 600 800 1000 1200 1400 1
3 5
7 9
Мировой рекорд
Потребление
Тайланд
Эл.энергия
США
Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
2
По этим данным мы можем формально, используя метод наименьших квадратов, подобрать модели линейной зависимости каждого из трех показателей от каждого из остальных показателей. Это приводит, например, к моделям
EHRCHR= −
+
=
= −
+
=
26255 7 131 0 900 129 30 0 350 0 871 2
2
;
,
; .
,
993 0
,
0498 0
860 0
;
993 0
,
950 19 90 23 2
2
=
+
−
=
=
+
=
RECRCE(Заметим, кстати, что произведение угловых коэффициентов двух последних прямых, соответствующих моделям линейной связи, в которых объясняемая и объясняющая переменая меняются местами, равно 19 950 0 0498 0 993
⋅
=
и совпадает со значением коэффициента детерминации
R2
в этих двух подобранных моделях.)
Мы видим, что во всех подобранных моделях значения коэффициента детерминации весьма высоки, и это формально означает, что изменчивость “объясняющих” переменных в этих моделях составляет значительный процент от изменчивости
“объясняемой” переменной, стоящей в левой части уравнения. Однако,
вряд ли мы всерьез можем полагать, что динамика роста суммарного производства электроэнергии в США действительно объясняется динамикой роста мирового рекорда по прыжкам в высоту с шестом, несмотря на высокое значение 0.9 коэффициента детерминации в первом из четырех уравнений.
В ситуациях, подобных последнему примеру, принято говорить о
фиктивной(ложной, паразитной - spurious) линейной связи между соответствующими показателями. И такие ситуации часто встречаются при рассмотрении показателей, динамика изменений которых обнаруживает заметный тренд (убывание или возрастание) - именно такой характер имеют исследуемые показатели в последнем примере.
Чтобы понять, почему это происходит, вспомним известное соотношение, связывающее коэффициент детерминации
R2
и квадрат выборочного коэффициента корреляции между переменными
y и
x :
Rryx2 2
=
Из этого равенства вытекает, что близкие к единице значения коэффициента детерминации соответствуют близким по абсолютной величине к единице значениям коэффициента корреляции между переменными
yи
x . Но этот коэффициент корреляции равен
rCov y xVar y Var xyx=
( , )
( )
( )
, где
(
)(
)
,
)
,
(
1 1
1
∑
=
−
−
−
=
niiinxxyyxyCov(
)
,
)
(
1 2
1 1
∑
=
−
−
=
niinyyyVar(
)
)
(
1 2
1 1
∑
=
−
−
=
niinxxxVarПри фиксированных значениях
Var x( ) и
Var y( ) , значение
yxr будет тем ближе к 1 , чем большим будет значение
Cov y x( , )
> 0 . Последнее же обеспечивается
Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
3
совпадением знаков разностей
yyi−
и
xxi−
для максимально возможной доли наблюдений переменных
y и
x, что как раз и имеет место, когда в процессе наблюдения обе переменные возрастают или обе переменные убывают по величине. (В этом случае превышение одной из переменных своего среднего значения сопровождается, как правило, и превышением второй переменной своего среднего значения. Напротив, если одна из переменных принимает значение,
меньшее своего среднего, то и вторая переменная, как правило, принимает значение, меньшее своего среднего.)
Аналогичным образом, значение
yxr будет тем ближе к
−1, чем меньшим будет значение
Cov y x( , )
< 0 . Последнее же обеспечивается несовпадением знаков разностей
yyi−
и
xxi−
для максимально возможной доли наблюдений переменных
y и
x, что имеет место, когда в процессе наблюдения одна из переменных возрастает, а вторая убывает. (В этом случае, если одна из переменных принимает значение, меньшее своего среднего, то вторая переменная, как правило, принимает значение, большее своего среднего.)
Из сказанного следует, что близость к единице абсолютной величины наблюдаемого значения коэффициента детерминации не обязательно означает наличие причинной связи между двумя рассматриваемыми переменными, а может являться лишь следствием тренда значений переменных.
Пример
Смоделируем реализации двух статистически независимых между собой последовательностей
ε1
t и
ε2
tнезависимых,
одинаково распределенных случайных величин, имеющих стандартное нормальное распределение
N(0, 1). Смоделированные реализации имеют вид
-3
-2
-1 0
1 2
3 5
10 15 20 25 30 35 40 45 50
EPS_1
-3
-2
-1 0
1 2
3 5
10 15 20 25 30 35 40 45 50
EPS_2
На их основе построим реализацию линейной модели DGP
DGP : xt = 1 + 0.2 t + ε1t, yt= 2 + 0.4 t + ε2t, и рассмотрим результаты оценивания статистической модели
SM: yt= α +β xt+ ε t по смоделированной реализации.
Графики рядов
xt и
ytимеют в этом случае вид
Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
4 0
5 10 15 20 25 5
10 15 20 25 30 35 40 45 50
X
Y
Оба ряда имеют выраженные линейные тренды.
Оцененная статистическая модель:
Dependent Variable: Y
Sample: 1 50
Included observations: 50
Variable
Coefficient Std. Error t-Statistic
Prob.
C
1.553866 0.685771 2.265868 0.0280
X
1.800255 0.102997 17.47878 0.0000
R-squared
0.864218 Mean dependent var
12.22809
Adjusted R-squared 0.861389 S.D. dependent var
5.925326
S.E. of regression
2.206028 Akaike info criterion
4.459442
Sum squared resid
233.5948 Schwarz criterion
4.535923
Log likelihood
-109.4860 F-statistic
305.5076
Durbin-Watson stat
2.150060 Prob(F-statistic)
0.000000
Оцененные коэффициенты статистически значимы, коэффициент детерминации высокий, проверка на адекватность не выявляет нарушений стандартных предположений классической линейной модели регрессии.
Включим в правую часть статистической модели линейный тренд. Оценивание расширенной модели дает следующий результат:
Dependent Variable: Y
Variable
Coefficient Std. Error t-Statistic
Prob.
C
2.037450 0.294861 6.909879 0.0000
T
0.412232 0.028055 14.69394 0.0000
X -0.054186 0.133658
-0.405410 0.6870
R-squared
0.975727 Mean dependent var
12.22809
Adjusted R-squared 0.974694 S.D. dependent var
5.925326
S.E. of regression
0.942598 Akaike info criterion
2.777771
Sum squared resid
41.75908 Schwarz criterion
2.892492
Log likelihood
-66.44428 F-statistic
944.6386
Durbin-Watson stat
2.249075 Prob(F-statistic)
0.000000
Остатки проходят тесты на адекватность, так что можно обратить внимание на протокол оценивания расширенной статистической модели. В
соответствии с этим протоколом, коэффициент при переменной
xtстатистически незначим, так что эта
Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
5
переменная по-существу не проявляет себя в качестве переменной, объясняющей изменчивость значений переменной
ytИсключение
xtиз правой части уравнения приводит к оцененной модели
Dependent Variable: Y
Variable
Coefficient Std. Error t-Statistic
Prob.
C
1.990020 0.268291 7.417403 0.0000
T
0.401493 0.009157 43.84727 0.0000
R-squared
0.975642 Mean dependent var
12.22809
Adjusted R-squared 0.975134 S.D. dependent var
5.925326
S.E. of regression
0.934357 Akaike info criterion
2.741262
Sum squared resid
41.90511 Schwarz criterion
2.817743
Log likelihood
-66.53155 F-statistic
1922.583
Durbin-Watson stat
2.249658 Prob(F-statistic)
0.000000 которая предпочтительнее расширенной модели и по критерию Акаике и по критерию
Шварца. Более того, по этим критериям последняя модель намного предпочтительнее исходной модели
yt=
α +β xt+
ε t , и это связано с тем, что при оценивании исходной
SM остаточная сумма квадратов равна 233.59 , а при оценивании последней модели остаточная сумма квадратов равна всего лишь 41.91. Это еще более убедительно подтверждает, что изменчивость переменной
yt в действительности не объясняется изменчивостью переменной
xtВ рассмотренном примере паразитная связь между переменными была обусловлена тем, что в самой модели DGP обе переменные имеют в своем составе детерминированный линейный тренд.
Однако ложная (паразитная) связь между переменными может возникать не только в результате наличия у этих переменных детерминированного тренда. Паразитная связь может возникать и между переменными,
имеющими не детерминированный, а стохастический тренд. Приведем соответствующий пример.
Пример
Возьмем теперь процесс порождения данных в виде
DGP: xt = xt – 1 + ε1t, yt= yt – 1 + ε2t, где
ε1
t и
ε2
t – те же, что и в предыдущем примере. Это приводит к смоделированной реализации
-20
-15
-10
-5 0
5 10 10 20 30 40 50 60 70 80 90 100
X
Y
Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
6
Предположим, что нам доступны статистические данные, соответствующие последним
50 наблюдениям (с 51 по 100). Оценивание по этим наблюдениям статистической модели
SM: y
t
= α +β x
t
+ ε
t
приводит к следующим результатам:
Dependent Variable: Y
Sample: 51 100
Included observations: 50
Variable
Coefficient Std. Error t-Statistic
Prob.
C
8.616496 0.748277 11.51512 0.0000
X
0.597513 0.077520 7.707873 0.0000
R-squared
0.553120 Mean dependent var
3.404232
Adjusted R-squared 0.543810 S.D. dependent var
3.354003
S.E. of regression
2.265356 Akaike info criterion
4.512519
Sum squared resid
246.3283 Schwarz criterion
4.589000
Log likelihood
-110.8130 F-statistic
59.41131
Durbin-Watson stat
0.213611 Prob(F-statistic)
0.000000
Несмотря на то, что в DGP ряды y
t
и x
t
порождаются независимо друг от друга и их модели не содержат детерминированного тренда, мы наблюдаем и здесь довольно высокое значение коэффициента детерминации 0.553. Конечно, это связано с тем, что на рассматриваемом периоде реализации обоих рядов имеют видимый тренд:
-20
-15
-10
-5 0
5 10 55 60 65 70 75 80 85 90 95 100
X
Y
Если, однако, обратиться ко всему периоду из 100 наблюдений, то результаты оценивания будут совсем другими:
Dependent Variable: Y
Sample: 1 100
Included observations: 100
Variable
Coefficient Std. Error t-Statistic
Prob.
C
1.490206 0.664538 2.242470 0.0272
X
0.055097 0.083978 0.656086 0.5133
R-squared
0.004373 Mean dependent var
1.120548
Adjusted R-squared -0.005786 S.D. dependent var
3.513463
S.E. of regression
3.523613 Akaike info criterion
5.376648
Sum squared resid
1216.753 Schwarz criterion
5.428752
Log likelihood
-266.8324 F-statistic
0.430449
Durbin-Watson stat
0.061638 Prob(F-statistic)
0.513306
Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
7
В этом случае значение коэффициента детерминации близко к нулю, а оцененный коэффициент при x
t
равен 0.0551 против значения 0.5975, полученного при оценивании по наблюдениям с 51 по 100. Это отражает действительное отсутствие детерминированного тренда в DGP и, в связи с этим, крайнюю нестабильность оценок коэффициента при x
t
, полученных на различных интервалах. Последнее сопровождается также крайне низкими значениями статистики Дарбина – Уотсона
(0.214 на полном периоде наблюдений и 0.062 на второй половине этого интервала).
Все указанные признаки являются характерными чертами, присущими результатам оценивания линейной модели связи между переменными, имеющими стохастический (но не детерминированный !) тренд и порождаемыми статистически независимыми моделями. Теоретическое исследование подобной ситуации показывает следующее.
Пусть DGP: x
t
= x
t – 1
+ ε
1t
, y
t
= y
t – 1
+ ε
2t
, где x
0
= 0, y
0
= 0
, а ε
1t
и ε
2t
–
статистически независимые между собой последовательности одинаково распределенных случайных величин, ε
1t
N(0, σ
1 2
), ε
2t
N(0, σ
2 2
), так что Cov(x
t
, y
t
) =
0. Предположим, что по T наблюдениям (x
t
, y
t
), t = 1, 2, …, T , производится оценивание статистической модели
SM: y
t
= β x
t
+ u
t
, u
t
i.i.d. N(0, σ
u
2
), Cov(x
t
, u
t
) = 0.
Стандартная оценка наименьших квадратов для коэффициента β в этой гипотетической модели имеет вид
=
∑
∑
=
=
T
t
t
T
t
t
t
T
x
x
y
1 2
1
ˆ
β
При сделанных предположениях относительно DGP ,
T
β
ˆ
не сходится по вероятности при T → ∞ ни к какой константе и имеет предельное распределение, отличное от нормального.
С другой стороны, при выбранной спецификации SM модели, в предположениях этой модели (а не DGP !) имеем:
Cov(x
t
, y
t
) = Cov(x
t
, β x
t
+ u
t
) = β Cov(x
t
, x
t
) = β D(x
t
), т.е. оцениваемым параметром является
β = Cov(x
t
, y
t
) / D(x
t
).
Поскольку же в действительности (в DGP) Cov(x
t
, y
t
) = 0, то и это значение β = 0, так что если бы гипотетическая модель (соответствующая SM) была верна, то тогда мы бы имели
T
β
ˆ
→ 0 по вероятности.
Далее, при T → ∞ значения t-статистики t
β
для проверки гипотезы H
0
: β = 0 неограниченно возрастают по абсолютной величине, так что использование таблиц t-
распределения будет практически всегда приводить к отклонению этой гипотезы, т.е. к выводу о том, что между переменными x
t
и y
t
существует линейная регрессионная связь. В действительности, нетривиальное предельное распределение имеет не статистика t
β
, а статистика
(
)
T
/
1
t
β
, причем предельное распределение последней является нестандартным.
Что касается статистики Дарбина – Уотсона (DW), то при T → ∞
DW → 0 по вероятности,
Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
8
и это позволяет распознавать неправильную спецификацию статистической модели в форме паразитной регрессии. Последнее обстоятельство проявляется в поведении
остатков от оцененной статистической модели, которое не соответствует поведению стационарного процесса.
Пример
В предыдущем примере мы имели