Глава 3. Подбор стационарной модели ARMA для ряда наблюдений Если мы предполагаем, что некоторый наблюдаемый временной ряд x 1 , x 2 , …, x T порождается моделью ARMA, то при этом возникает проблема подбора конкретной модели из этого класса, решение которой предусматривает три этапа: 1. идентификация модели; 2. оценивание модели; 3. диагностика модели. На этапе идентификации производится выбор некоторой частной модели из всего класса ARMA, т.е. выбор значений p и q. Используемые при этом процедуры являются не вполне точными, что может при последующем анализе привести к выводу о непригодности идентифицированной модели и необходимости замены ее альтернативной моделью. На этом же этапе делаются предварительные грубые оценки коэффициентов a 1 , a 2 , …, a p , b 1 , b 2 , …, b q идентифицированной модели. На втором этапе производится уточнение оценок коэффициентов модели с использованием эффективных статистических методов. Для оцененных коэффициентов вычисляются приближенные стандартные ошибки, дающие возможность, при дополнительных предположениях о распределениях случайных величин X 1 , X 2 , … , строить доверительные интервалы для этих коэффициентов и проверять гипотезы об их истинных значениях с целью уточнения спецификации модели. На третьем этапе применяются различные диагностические процедуры проверки адекватности выбранной модели имеющимся данным (misspecification tests). Неадекватности, обнаруженные в процессе такой проверки, могут указать на необходимую корректировку модели, после чего производится новый цикл подбора, и т.д. до тех пор, пока не будет получена удовлетворительная модель. Разумеется, если мы имеем дело с ситуацией, когда уже имеется достаточно отработанная и разумно интерпретируемая модель эволюции того или иного показателя, можно обойтись и без этапа идентификации. Если ряд порождается моделью ARMA(p, q), то мы будем в дальнейшем для краткости обозначать это как X t ARMA(p, q). Соответственно, если ряд порождается моделью AR(p), то X t AR(p), и если ряд порождается моделью MA(q), то X t MA(q). 3.1. Идентификация стационарной модели ARMA Основной отправной точкой для идентификации стационарной модели ARMA является различие поведения автокорреляционных (ACF) и частных автокорреляционных (PACF) функций (ACF – autocorrelation function, PACF – partial autocorrelation function) рядов, соответствующих различным моделям ARMA. О поведении автокорреляционных функций для различных моделей ARMA мы уже говорили. Однако по поведению только автокорреляционной функции трудно идентифицировать даже порядок чистого (без MA составляющей) процесса авторегрессии. Решению этого вопроса помогает рассмотрение поведения частной
Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm 2 автокорреляционной функции (PACF) стационарного процесса X t . Ее значение ρ part (k) на лаге k определяется как значение коэффициента корреляции между случайными величинами X t и X t+k , очищенными от влияния случайных величин X t+1 , …, X t+k–1 Это соответствует тому, что ρ part (k) является коэффициентом при X t–k в линейной комбинации случайных величин X t–1 , …, X t–k , наилучшим образом приближающей случайную величину X t . Исходя из последнего, можно показать (см., например, [Hamilton (1994)]), что ρ part (k) определяется как решение относительно a k системы первых k уравнений Юла – Уокера ρ(s) = a 1 ρ(s–1) + a 2 ρ(s–2) + … + a k ρ(s–k) , s = 1, 2, …, k , которую в этом случае удобнее записать в виде ρ(s–1) a 1 + ρ(s–2) a 2 + … + ρ(s–k) a k = ρ(s) , s = 1, 2, …, k , подчеркивая, что неизвестными здесь являются a 1 , a 2 , …, a k , а ρ(1–k), …, ρ(k–1) – известные коэффициенты. Исходя из этого и применяя известное из алгебры правило Крамера решения системы k линейных уравнений с k неизвестными, находим, что вычисление PACF можно производить по формулам ρ part (0) = 1, ρ part (1) = ρ(1), ρ part (2) = 1 ) 1 ( ) 1 ( 1 ) 2 ( ) 1 ( ) 1 ( 1 ρ ρ ρ ρ ρ = ) 1 ( 1 ) 1 ( ) 2 ( 2 2 ρ ρ ρ − − , ρ part (3) = 1 ) 1 ( ) 2 ( ) 1 ( 1 ) 1 ( ) 2 ( ) 1 ( 1 ) 3 ( ) 1 ( ) 2 ( ) 2 ( 1 ) 1 ( ) 1 ( ) 1 ( 1 ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ , K ρ part ( k ) = 1 ) 3 ( ) 2 ( ) 1 ( ) 3 ( 1 ) 1 ( ) 2 ( ) 2 ( ) 1 ( 1 ) 1 ( ) 1 ( ) 2 ( ) 1 ( 1 ) ( ) 3 ( ) 2 ( ) 1 ( ) 3 ( 1 ) 1 ( ) 2 ( ) 2 ( ) 1 ( 1 ) 1 ( ) 1 ( ) 2 ( ) 1 ( 1 K M O M M M K K K K M O M M M K K K − − − − − − − − − k k k k k k k k k k ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ ρ Здесь определитель в числителе выражения для ρ part ( k ) отличается от определителя в знаменателе этого выражения только заменой последнего столбца столбцом, состоящим из значений ρ (1), ρ (2), ..., ρ ( k ).
Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm 3 Замечательным является тот факт, что если Xt – процесс типа AR( p), то тогда ρpart( p) ≠ 0 , ρpart( k) = 0 для k > pЭто позволяет по графику PACF определять порядок процесса авторегрессии и отличать процесс авторегрессии от процессов скользящего среднего и ARMA( p, q) с q> 0. Напомним, что зануление ACF после лага q соответствует процессу MA( q). Теперь же мы видим, что зануление PACF после лага p соответствует процессу AR( p). Поэтому идентификация этих моделей по ACF и PACF более определенна по сравнению с идентификацией моделей ARMA( p, q) с p ≠ 0, q ≠ 0. В то же время, вместо не известных нам истинных последовательностей автокорреляций ρ( k) и частных автокорреляций ρpart( k) мы можем довольствоваться только их состоятельными оценками – выборочной ACF, образованной выборочными автокорреляциями( ) ( )( ) ( ) ( ) ( ) , 1 ,..., 1 , 0 ˆ ˆ ˆ 1 ˆ ˆ 1 1 2 1 − = = − − − − = ∑ ∑ = − = + TkkxTxxkTkrTttkTtkttγ γ µ µ µ где ∑ = = = TttxTx1 1 ˆ µ − оценка для µ = E( Xt) , ( ) ( )( ) ∑ − = + − − − = kTtkttxxkTk1 ˆ ˆ 1 ˆ µ µ γ − оценка для γ( k), и выборочной PACF, образованной выборочными частными автокорреляциями rpart( k) . Получить последние можно, заменяя входящие в выражения для ρpart( k) автокорреляции ρ( s) их оценками r( s). Однако проще поступить иначе, исходя из того, что ρpart( k) является коэффициентом при Xt–k в линейной комбинации случайных величин Xt–1 , …, Xt–k , наилучшим образом приближающей случайную величину Xt . Именно, можно просто оценить методом наименьших квадратов коэффициенты в модели Xt = a1 Xt–1 + a2 Xt–2 + … + ak Xt–k+ ut(в которой составляющая ut получается как разность ut = Xt – ( a1 Xt–1 + a2 Xt–2 + … + ak Xt–k) , так что на нее не накладываются какие-либо предварительные ограничения). Полученная в результате оценка коэффициента ak и есть rpart( k) . Если Xtявляется стационарным процессом типа ARMA( p, q) и ( ) ∞ < 4 tXE, то указанные оценки , ˆ µ , ) ( ˆ kγ r( k) и rpart( k) являются состоятельными оценками для µ , γ( k), ρ ( k) и ρpart( k), соответственно. (См. [Hamilton (1994), p.199].) Поскольку r( k) и rpart( k) всего лишь оценки для ρ( k) и ρpart( k), то их наблюдаемые значения могут значительно отличаться от ρ( k) и ρpart( k). В частности, если при некоторых k =k1 и k =k2 в модели, порождающей наблюдения, ρ( k1 ) = 0 и ρpart( k2 ) = 0, то, как правило, r( k1 ) ≠ 0 и rpart( k2 ) ≠ 0, что вносит дополнительную неопределенность в задачу идентификации. Более того, характер изменения теоретической автокорреляционной функции вовсе не обязательно будет воспроизводиться в ее выборочном аналоге – выборочной автокорреляционной функции. Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm 4 Тем не менее, во многих случаях поведение теоретических ACF и PACF в какой-то мере отражается и на поведении их выборочных аналогов. Поэтому представление о поведении теоретических ACF и PACF может помочь в решении задачи идентификации соответствующих моделей в рамках общего класса моделей ARMA. В этой связи мы суммируем в следующей таблице свойства ACF и PACF для некоторых популярных моделей стационарных временных рядов. Моде ль ACF PACF Белый шум, MA(0) ρ ( k ) = 0 для k ≠ 0 Ρ part ( k ) = 0 для k ≠ 0 AR(1) , a 1 > 0 Экспоненциальное убывание ρ ( k ) = a 1 k ρ part (1) = a 1 ρ part ( k ) = 0, k ≥ 2 AR(1) , a 1 < 0 Осциллирующее убывание ρ ( k ) = a 1 k ρ part (1) = a 1 ρ part ( k ) = 0, k ≥ 2 AR( p ) Убывание к нулю с возможной осцилляцией Зануление при k ≥ p MA(1) , b 1 > 0 Положительный пик при k = 1; зануление при k > 1 Осциллирующее убывание; ρ part (1) > 0 MA(1) , b 1 < 0 Отрицательный пик при k = 1; зануление при k > 1 Убывание по абсолютной величине; ρ part ( k ) < 0 при k ≥ 1 MA( q ) Зануление при k ≥ p ARM A(1, 1) a 1 > 0 Экспоненциальное убывание с лага 1; знак ρ (1) совпадает со знаком ( a 1 + b 1 ) Осциллирующее убывание с лага 1; ρ part (1) = ρ (1) ARM A(1, 1) a 1 < 0 Осциллирующее убывание с лага 1; знак ρ (1) совпадает со знаком ( a 1 + b 1 ) Экспоненциально е убывание с лага 1; ρ part (1) = ρ (1); знак ρ part ( k ) совпадает со знаком ρ (1), k > 1 ARM A( p , q ) Осциллирующее или прямое убывание, Осциллирующее или прямое убывание,
Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm 5 начинающееся с лага q начинающееся с лага p SAR(1 ) Затухание на лагах, кратных периоду сезонности; зануление на остальных лагах Пик на лаге, кратном периоду сезонности; зануление на остальных лагах SMA( 1) Пик на лаге, кратном периоду сезонности; зануление на остальных лагах Затухание на лагах, кратных периоду сезонности; зануление на остальных лагах Имея в виду возможность идентификации моделей AR( p ) и MA( q ) по графикам функций r ( k ) и r part ( k ) , желательно иметь статистические критерии для проверки гипотез о равенстве нулю тех или иных значений ρ ( k ) и ρ part ( k ) на основании наблюдаемых значений r ( k ) и r part ( k ). Вопрос этот весьма сложный, и мы ограничимся только двумя приближенными рецептами, которые предполагают гауссовость инноваций (т.е., что ε t – гауссовский белый шум). Если X t – процесс типа MA( q ), то при больших n , для ) ( 2 1 1 )) ( ( 1 2 q k j T k r D q j > + ≈ ∑ = ρ так что чем длинее ряд наблюдений, тем надежнее выявляются нулевые значения ρ(k), k > q . При этом, lim T→∞ E(r(k)) = ρ(k) . Более того, при больших T и k > q распределение случайной величины r(k) близко к нормальному распределению. Отсюда вытекает, что естественный приближенный критерий проверки гипотезы H 0 : “X t – процесс типа MA(q)” состоит в том, чтобы отвергать эту гипотезу, если ) ( 1 2 ) ( 1 2 j r T k r q j ∑ = + > для k > q . Уровень значимости такого критерия приближенно равен 0.05. В частности, если q = 0, то X t MA(0) – белый шум, и гипотеза H 0 : “X t – белый шум” отвергается указанным приближенным критерием при 0 , 2 ) ( > > k T k r (2) Если X t – процесс типа AR(p), то при больших T и k > p распределение r part (k) можно аппроксимировать нормальным распределением r part (k) ≈ N (0, T –1 ) (так что D(r part (k)) ≈ T – 1 ). Следовательно, если гипотезу H 0 : X t AR(p) отвергать при , , 2 ) ( p k T k r part > > то получим критерий, уровень значимости которого приближенно равен 0.05.
Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm 6 Имея в виду два указанных приближенных критерия, в процедурах анализа временных рядов обычно предусмотрена распечатка графиков выборочных ACF и PACF, на которые нанесены границы полосы ±2/ T. В этих границах с вероятностью, близкой к 0.95, должно заключаться значение r( k), если Xt– белый шум, и значение rpart( k), если Xt AR( p). Здесь следует сделать одно важное предупреждение. Именно, оба построенных критерия имеют уровень значимости, близкий к 0.05, только когда мы проверяем гипотезу H0 при некотором фиксированном k . Что, однако, обычно происходит на практике? Рассмотрим это на примере смоделированного белого шума, график которого уже приводился ранее. Всего там было получено T = 499 “наблюдений” x1 , x2 , …, x499 . В следующей таблице приведены значения выборочных автокорреляционной и частной автокорреляционной функций для значений (“лагов”) k = 1, 2, …, 36. |