ГЛАВА 2. ВЫДЕЛЕНИЕ НЕСЛУЧАЙНОЙ
СОСТАВЛЯЮЩЕЙ ВРЕМЕННОГО РЯДА
2.1. Выделение трендовой составляющей временного ряда
2.1.1. Задача выделения трендовой составляющей
Трендовая составляющая
( )
t
τ
отражает влияние долговре- менных факторов и соответствует устойчивой и долговременной тенденции изменения временного ряда. Знание трендовой состав- ляющей позволяет осуществлять долговременное прогнозирова- ние. Поэтому возникает задача выделения тренда, т.е. построение оценки
( )
t
τ
для функции
( )
t
τ
(или оценок
( )
i
t
τ
для значений
( )
i
t
τ
) по заданной временной выборке
{
}
,
i
i
y
τ
. При этом предпо- лагается, что остальные составляющие
( )
p
τ
,
( )
s
τ
временного ряда отсутствуют.
Кроме прогнозирования задача выделения трендовой состав- ляющей возникает в следующих ситуациях:
• при графическом отображении временного ряда тренд про- слеживается недостаточно отчетливо. После выделения трендо- вой составляющей и нанесения значений тренда на график тен- денция изменения временного ряда проявляется более четко;
• некоторые методы анализа и прогнозирования требуют в качестве предварительной обработки выделение тренда;
• выделение тренда используют для устранения аномальных наблюдений.
В литературе часто задачу выделения тренда называют зада-
чей сглаживания временного ряда или сглаживанием временного
ряда. В дальнейшем будут использоваться оба эти названия.
Существующие методы выделения тренда можно разделить на два класса:
1) методы парного регрессионного анализа;
2) сглаживающие методы.
Рассмотрим эти методы более подробно.
40
2.1.2. Регрессионные методы выделения трендовой
составляющей
Методы парного регрессионного анализа (или проще – рег- рессионные методы) основаны на следующей модели временного ряда:
( ) ( ) ( )
i
i
i
Y
t
τ
τ
ε τ
=
+
,
(2.1.1) где случайные величины
( )
i
ξ τ
удовлетворяют условиям:
( )
(
)
0
i
M
ε τ
= ;
( )
( )
(
)
2
,
;
0 ,
i
j
i
j
M
i
j
σ
ε τ ε τ
⎧
=
= ⎨
≠
⎩
(2.1.2)
Рассматривая время
τ
как независимую переменную, функ- цию
( )
t
τ
можно оценить, используя методы парной регрессии [5, гл. 2]. Поэтому здесь ограничимся только рассмотрением неко- торых особенностей применения методов парной регрессии к ре- шению задачи выделения трендовой составляющей.
Одна из особенностей заключается в том, что различный ха- рактер тренда (иногда достаточно сложный) обусловливает более широкое использование нелинейных функций. Так, наряду с ли- нейной функцией
( )
0 1
t
τ
β
β τ
=
+
гораздо чаще используются сле- дующие нелинейные функции:
• полиномиальная
( )
0 1
p
p
t
τ
β
β τ
β τ
=
+
+ +
, (2.1.3) где p – степень полинома (при
1
p
= получаем линейную функ- цию);
• экспоненциальная
( )
1 0
t
e
β τ
τ
β
=
; (2.1.4)
• логистическая
( )
2 0
1 1
t
e
β τ
β
τ
β
−
=
+
. (2.1.5)
41
Выбор вида функции
( )
t
τ
часто основывается на анализе графического изображения ряда, т.е. на анализе диаграммы рас- сеяния, построенной по точкам
{
}
,
i
i
y
τ
[5, п. 2.1].
При применении полиномиальной функции важно правильно определить степень полинома. Для этого можно использовать ме- тод последовательных разностей, заключающийся в вычислении разностей:
• первого порядка
1
i
i
i
y
y
−
Δ = −
, 1,2,...,
1
i
n
=
− ;
• второго порядка
2 1
i
i
i
−
Δ = Δ − Δ ,
1, 2,...,
2
i
n
=
− ;
• k -го порядка
1 1
1
k
k
k
i
i
i
−
−
−
Δ = Δ
− Δ , 1,2,...,
i
n k
=
− , а также величин
( )
( )
2 1
2 1
n k
k
i
i
k
k
k
n k
d
C
−
=
⋅
Δ
−
=
∑
, (2.1.6) где
2
k
k
C – сочетание, определяемое по формуле
( )
( )
2 2
2 !
!
k
k
k
C
k
=
. Ве- личина
k
d первоначально убывает с ростом
k , а затем, начиная с некоторого значения
0
k , стабилизируется, оставаясь приблизи- тельно на одном уровне при дальнейшем росте k . Тогда степень полинома определяется по формуле
0 1
p k
=
− .
После выбора вида функции
( )
t
τ
строят уравнение регрес- сии
( )
t
τ
, зависящее от коэффициентов
0 1
, ,...,
k
b b
b , которые яв- ляются оценками коэффициентов
0 1
, ,...,
k
β β
β
функции тренда
42
( )
t
τ
. Так, для полиномиального тренда (2.1.3) уравнение регрес- сии примет вид
( )
0 1
k
k
t
b
b
b
τ
τ
τ
= +
+ +
(2.1.7)
Для вычисления коэффициентов
0 1
, ,...,
k
b b
b используется метод наименьших квадратов, т.е. коэффициенты находятся из условия минимума функционала
(
)
( )
(
)
2 0
1 1
, ,...,
n
k
i
i
i
F b b
b
t
t
τ
=
=
−
∑
, (2.1.8) где
( )
t
τ
– значение уравнения тренда в точке
i
τ τ
= .
Использование нелинейных функций
( )
t
τ
обусловливает следующие виды нелинейности уравнения регрессии: нелиней- ность по переменной и коэффициентам [5, п. 2.6]. Напомним, что в этих случаях используются два подхода для вычисления коэф- фициентов регрессии:
1) заменой переменной или нелинейными преобразованиями осуществляется линеаризация уравнения регрессии, к которому применяется метод наименьших квадратов;
2) непосредственное вычисление коэффициентов из условий минимума функционала (2.1.8).
Для иллюстрации первого подхода рассмотрим мультиплика- тивную модель временного ряда:
( )
( )
1 0
Y
t
β
τ
β τ
ε
τ ε
=
⋅ =
⋅ .
(2.1.9)
После логарифмирования (2.1.9) получаем
( )
0 1
ln ln ln ln
Y
τ
β
β τ
ε
=
+
+
(2.1.10)
Введем новые величины:
( )
( )
0 0
ln
;
ln
;
ln ,
ln
Y
Y
τ
τ β
β τ
τ ε
ε
′
′
′
′
=
=
=
=
Относительно этих величин имеем линейную регрессионную мо- дель
43
( )
0 1
Y
τ
β
β τ ε
′ ′
′
′
′
=
+
+ ,
(2.1.11) которой соответствует уравнение трендовой составляющей
0 1
( )
t
b
b
τ
τ
′ ′
′
′
= +
(2.1.12)
Коэффициенты
0 1
,
b b
′ вычисляются на основе МНК по фор- мулам, приведенным в [5, п. 2.3]. Выполнив обратное преобразо- вание '
0 0
b
b
e
=
, получаем искомые оценки
0 1
,
b b для коэффициен- тов нелинейной регрессии (2.1.9).
Замечание 2.1.1.
Эффективность оценок, получаемых мето- дом наименьших квадратов, основана на допущении о том, что возмущения
i
ε
не коррелированны между собой и подчиняются нормальному распределению
2
(0,
)
N
σ
, т.е. имеет одинаковую дисперсию
2
σ
. К сожалению, выполнение нелинейных преобра- зований приводит к нарушению этого допущения. Для иллюстра- ции этого вернемся к преобразованному уравнению регрессии
(2.1.11). Коэффициенты этого уравнения будут являться эффек- тивными оценками для
0 1
,
β β
′
, если
2
ln (0,
)
N
ε
ε
σ
′ =
, т.е. воз- мущения
i
ε
исходной модели (2.1.9) должны иметь логарифми- чески нормальное распределение, что на практике встречается редко. Нарушение свойства гомоскедастичности приводит к тому, что вычисленные на основе МНК коэффициенты будут несме-
щенными, состоятельными оценками для соответствующих ко- эффициентов регрессионной модели, но они не будут обладать
свойством эффективности, т.е. возможно вычислить (используя другие алгоритмы) оценки с меньшей дисперсией. ♦
Второй подход
используется в случаях, когда невозможно подобрать преобразования для перехода к новой линейной рег- рессии. Для примера рассмотрим модель временного ряда
1 0
( )
Y
β
τ
β τ
ε
=
⋅
+ . (2.1.13)
44
Логарифмирование этого уравнения не приводит к линейной мо- дели
1 0
ln ( ) ln(
)
Y
β
τ
β τ
ε
=
⋅
+ .
В этих случаях оценки для коэффициентов уравнения тренда модели вычисляются на основе минимизации функционала неко- торого функционала, например, функционала метода наименьших квадратов. Так, для модели (2.1.13) уравнение тренда имеет вид
1 0
( )
b
t
b
τ
τ
=
, (2.1.14) а минимизируемый функционал МНК определяется выражением:
1 2
2 0
1 0
1 1
( , )
(
)
(
)
n
n
b
i
i
i
i
i
i
F b b
y
b
y
t
τ
=
=
=
−
=
−
∑
∑
. (2.1.15)
Существует достаточно большое число алгоритмов минимизации различных функционалов. Некоторые из этих алгоритмов реали- зованы в табличном процессоре Excel (команда Поиск решения пункта меню Сервис – подробнее см. п. 2.1.4).
После вычисления коэффициентов
0 1
, ,..,
k
b b
b
, уравнение регрессии принимается в качестве оценки для функции тренда
( )
t
τ
и может быть использовано для дальнейшего анализа вре- менного ряда или его прогнозирования.
Пример 2.1.1.
В табл. 2.1 приведены данные, отражающие спрос (в условных единицах) на некоторый товар за восьмилет- ний период.
Таблица 2.1
По этим данным (которые являются временной выборкой) найти оценку
ˆ( )
t
τ
, предполагая, что
( )
t
τ
является квадратичной функ- цией. Выполнить прогноз временного ряда для десятого года.
Год 1 2 3 4 5 6 7 8
Спрос 213 171 291 309 317 362 351 361
45
Решение. При сделанном предположении оценка
ˆ( )
t
τ
имеет вид
2 0
1 2
( )
t
b
b
b
τ
τ
τ
= +
+
(2.1.16) и это уравнение регрессии нелинейно по переменным. Для пере- хода к линейному уравнению регрессии введем новые перемен- ные
2 1
2
;
x
x
τ
τ
=
=
и получим множественную линейную регрес- сию:
1 2
0 1 1 2 2
( , )
t x x
b
b x
b x
= +
+
Вектор коэффициентов
0 1
2
b
b
b
b
=
находим методом наименьших квадратов, решая уже известную систему нормальных уравнений
[5, п. 3.2]:
(
)
T
T
X X b X y
=
, где
X
– матрица размера 8
×3, а
y
– вектор наблюдений. Форми- рование матрицы
X
и решение системы показано на рис. 2.1. Вы- численный вектор коэффициентов (ячейки F16 – F18 выделенные цветом) имеет следующие проекции :
132.3 55.09 .
3.26
b
=
−
46
Рис. 2.1. Вычисление коэффициентов квадратичного тренда
Возвращаясь к уравнению (2.1.16), получаем следующую оценку для тренда временного ряда:
2
( ) 132.3 55.09 3.26
t
τ
τ
τ
=
+
⋅ −
⋅ . (2.1.17)
На рис. 2.2 показана временная выборка
,
1, 2,
, 8
i
y i
=
…
(кривая
1, маркированная квадратиками) и график функции
ˆ( )
t
τ
(кривая
2, маркированная ромбами). Для выполнения прогноза достаточ- но в (2.1.16) подставить
10
τ
=
. Получаем значение
(10) 356.41
t
=
. ☻
47
Рис. 2.2. Графики временной выборки и оценок тренда
2.1.3. Индекс детерминации и степень нелинейности
трендовой составляющей
Введем суммы
(
)
2 1
n
e
i
i
i
Q
y
t
=
=
−
∑
;
(
)
2 1
n
i
i
Q
y
y
=
=
−
∑
, где
i
t – значение, вычисленное по уравнению тренда при
i
τ τ
= ,
1 1
n
i
i
y
y
n
=
=
∑
Индексом детерминации называется величина
2 1
e
t
Q
R
Q
= −
,
(2.1.18) которая изменяется в пределах
2 0
1
t
R
≤
≤ и показывает, какая часть (доля) изменения временного ряда обусловлена изменением переменной
τ
, т.е. индекс детерминации имеет тот же смысл, что
48
и коэффициент детерминации
2
R линейной регрессионной моде- ли.
Если уравнение тренда является линейной функцией, то справедливо тождество
2 2
t
R
R
=
, (2.1.19) где
2
R – коэффициент детерминации линейной регрессии. Это тождество является теоретическим обоснованием возможности замены нелинейного тренда линейной функцией. Заметим, что чем больше кривизна линии регрессии, тем величина коэффици- ента детерминации
2
R меньше индекса детерминации
2
t
R . Бли- зость этих величин означает, что нет необходимости усложнять уравнения тренда и можно использовать для тренда линейную функцию.
Для проверки нулевой гипотезы
0
H о возможности замены нелинейной регрессии линейной функцией определим следую- щий критерий:
2 2
t
нел
R
R
T
δ
Δ
−
=
,
(2.1.20) где
δ
Δ
– ошибка разности
2 2
t
R
R
Δ =
−
, определяемая по формуле
(
) (
)
(
)
(
)
2 2
2 2
2 2
2 2
2
t
t
t
R
R
R
R
R
R
n
δ
Δ
−
−
−
⋅ −
+
= ⋅
. (2.1.21)
Нулевая гипотеза
0
H отвергается с уровнем значимости
α
, если выполняется неравенство
(
)
1
,
2
нел
T
t
n
α
>
−
−
; (2.1.22) где
(
)
(
)
1
,
2
СТЬЮДРАСПОБР
;
2
t
n
n
α
α
−
−
=
−
. Это говорит о существенном различии между
2
t
R и
2
R и невозможности замены нелинейного тренда линейной функцией.
49
Пример 2.1.2. Предположим, что построенное уравнение тренда имеет вид
( )
( )
9.876 5.129ln
tτ
τ
=
+
(2.1.23) и вычислен индекс детерминации
2 0.99164
tR=
. Необходимо про- верить возможность замены этого нелинейного уравнения линей- ным уравнением вида
( )
9.28 1.777
tτ
τ
=
+
, (2.1.24) для которого
2 0.94898
R=
Решение. Вычислим следующие величины:
2 2
0.04266
tRR−
=
;
2 2
1.94063
tRR+
=
;
(
) (
)
2 0.04266 0.04266 2 1.94063 2
0.16841 6
δ
Δ
−
⋅ −
= ⋅
=
Определяем значение критерия
0.04266 0.25 0.16841
нелT=
=
. Из неравен- ства (см. (2.1.22))
(
)
0.25 0.95,
2 2
tn<
−
= следует вывод о воз- можности замены нелинейного уравнения тренда (2.1.23) линей- ным уравнением (2.1.24). ☻
Используя индекс детерминации
2
tR , можно выполнить про- верку значимости построенной нелинейной регрессии. Для этого определим
F-критерий:
2 2
1 1
ttRn kFRk− −
=
⋅
−
,
(2.1.25) где
k – число коэффициентов уравнения тренда при переменной
τ
. Тогда построенное уравнение нелинейной регрессии является значимым с уровнем значимости
α
, если выполняется неравенст- во
1
; ;
1
k n kFFα
−
− −
>
(2.1.26)
Напомним, что квантиль
1
; ;
1
k n kFα
−
− −
можно вычислить в Excel с помощью выражения:
(
)
1
; ;
1
FРАСПОБР
; ;
1
k n kFk n kα
α
−
− −
=
− − . (2.1.27)
50
Пример 2.1.3. Определим значимость уравнения тренда
( )
( )
9.876 5.129 ln
tτ
τ
=
+
⋅
, используемого в примере 2.1.2.
Решение. Возьмем значение индекса детерминации из при- мера 2.1.2 2
0.9916
tR=
и вычислим значение критерия (2.1.25):
(
)
0.9916 6 2 474.93 1 0.9916
F=
⋅ −
=
−
Квантиль
0.95;1;4 7.70
F=
. Из выполнения неравенства (2.1.26):
474.93 7.70
>
следует вывод о
значимости построенного нели-нейного тренда с уровнем значимости
0.05
α
=
. ☻