Методы анализа временных рядов с периодической компонентой Тренд
Скачать 0.91 Mb.
|
1 Методы анализа временных рядов с периодической компонентой Тренд В работе аналитика часто встречается ситуация, когда исходная ин- формация – это всего 10-20 наблюдений. Несмотря на это можно строить модели таких рядов. При этом нужно отнестись с большим вниманием к установлению тенденции, поскольку длина ряда не позволяет разбивать его на "трениро- вочную" и "тестовую" части. На Рис. 1 представлен ряд данных по числен- ности населения субъекта РФ 1 – Воронежской области. На численность населения воздействуют как инерционные естественные процессы: рожде- ние и смерть, так и миграционные перетоки, которые могут значительно варьироваться, реагируя на политические и экономические изменения в регионе. y по части данных = 0.1071x + 2330.6 y по целому ряду = -3.4853x + 2362.3 2200 2250 2300 2350 2400 2450 2000 2002 2004 2006 2008 2010 2012 2014 2016 Население Воронежской области, тыс. человек Рис. 1. Тренд с учетом перелома тенденции и без учета Хорошо виден перелом тенденции в 2009–2010 гг. Данные за после- дующие 6 лет говорят именно о переломе/смене закономерности, а не о случайном колебании. Изучая ситуацию более подробно, можно выяснить, что в последние годы в области наблюдается экономический рост, почти стабильная естественная убыль населения и чуть увеличивающийся ми- грационный прирост, заметно выросший после кризиса 2009–2010 гг. Ос- нований для резкой смены тенденции на сегодняшний момент нет, поэто- му можно строить прогноз на 2-5 лет вперед и логичнее использовать для 1 http://www.gks.ru/bgd/regl/B10_14p/IssWWW.exe/Stg/d01/03-01.htm данные за 2000–2009 годы; http://www.gks.ru/bgd/regl/B16_14p/Main.htm данные за 2010–2016 годы. 2 него не весь объем имеющихся данных, а лишь численность населения за 2010–2016 годы. Разница же в прогнозах на 2 года по представленным на Рис. 1 моделям тренда составляет около 50 тыс. человек. Математически корректный тренд в виде полинома 2 степени на Рис. 2 выглядит неправдоподобным при прогнозе всего на 2 года вперед, по- скольку нет никаких оснований предполагать снижение естественной убы- ли или заметное увеличение миграционного прироста в Калужской обла- сти в ближайшие годы. 990 1010 1030 1050 1070 2000 2002 2004 2006 2008 2010 2012 2014 2016 Население Калужской области, тыс. человек Рис. 2. Параболический тренд и линейный с учетом слома тенден- ции Возможно именно различия в прогнозах могут помочь исследовате- лю подобрать адекватный тренд, поскольку численные различия в показа- телях качества подбора модели незначительны для коротких рядов. Периодичность Для коротких временных рядов с периодической компонентой мож- но использовать простые методы моделирования, которые позволяют очень точно подобрать модель к данным ряда, а затем в предположении, что внешние условия и внутренние механизмы процесса сохранятся – воз- можно построение прогноза на сколь угодно длинный период времени. На Рис. 3 представлен ряд с данными среднемесячной номинальной начисленной заработной платы работников по полному кругу организаций по г. Москве 2 . Поскольку ряд содержит информацию за 5.5 лет, по нему отчетливо видны и растущий линейный тренд и годовая периодичность с ростом амплитуды колебаний в первые 4 года, следовательно можно пред- положить мультипликативную природу периодичности – величина премий в декабре с каждым годом заметно растет. 2 http://www.gks.ru/wps/wcm/connect/rosstat_main/rosstat/ru/statistics/wages/ данные за 2013–2018 гг. 3 40000 60000 80000 100000 ян ва рь апрел ь и ю ль о кт яб рь ян ва рь апрел ь и ю ль о кт яб рь ян ва рь апрел ь и ю ль о кт яб рь ян ва рь апрел ь и ю ль о кт яб рь ян ва рь апрел ь и ю ль о кт яб рь ян ва рь апрел ь и ю ль Среднемесячная заработная плата работников г. Москвы за 2013-2018 гг., рубли Рис. 3. Временной ряд с мультипликативной периодической ком- понентой Но часто встречаются ряды с данными всего за 2,5–3,5 года. И для них проще и наглядней построение модели в Excel. Попробуем на кон- кретном примере разобрать алгоритм построения модели и прогноза по ней, а также важность правильного выбора типа периодичности и соответ- ственно вида модели. Построение и анализ модели с периодической компонентой y = 6.424x + 24.851 0 20 40 60 80 100 120 140 I II III IV I II III IV I II III IV I Депозиты на счетах банка N, млн. руб. Рис. 4. Временной ряд с аддитивной периодической компонентой Шаг I. Анализ данных 4 На Рис. 4 представлен ряд с периодом 4 квартала, растущим трендом и более менее постоянной амплитудой колебаний, что позволяет строить аддитивную модель. Поскольку период 4 квартала можно использовать как термин периодичность, так и сезонность. Уравнение тренда говорит о среднем увеличении суммы депозитов на 6,4 млн. руб. в квартал. Шаг II. Сглаживание ряда и вычисление сезонных индексов Поскольку в наши цели входит выбор и построение адекватной мо- дели, проведем расчет индексов как для аддитивной, так и для мультипли- кативной модели. Мы сможем увидеть различия как в расчетах, так и в по- лучаемых по моделям прогнозах. По представленным в Таблица 1 данным можно увидеть, что аддитивные индексы показывают на сколько реаль- ный уровень ряда больше/меньше среднего, а мультипликативные показы- вают во сколько раз он больше/меньше среднего. Таблица 1 Год Квартал Номер квартала Депозиты, млн. руб. Центрированная скользящая средняя за че- тыре квартала 3 Аддитивный индекс Мультипли- кативный ин- декс t t Y t Y A t t i Y Y / M t t i Y Y 1 2 3 4 5 6 7 2015 I 1 41 II 2 40 III 3 48 41,5 6,5 1,16 IV 4 25 47,75 -22,75 0,52 2016 I 5 65 54,25 10,75 1,20 II 6 66 60,625 5,375 1,09 III 7 74 68 6 1,09 IV 8 50 75,875 -25,875 0,66 2017 I 9 99 83 16 1,19 II 10 95 90,25 4,75 1,05 III 11 102 97 5 1,05 IV 12 80 2018 I 13 123 Далее определяются средние значения индексов по кварталам. Для аддитивной компоненты сумма оценок индексов должна равняться 0 - 0 IV A A q q I S i , а для мультипликативной 4 4 - 4 IV M M q q I S i 3 Как было рассмотрено в СМ СТР 2 1 1 2 0.5 0.5 4 t t t t t t Y Y Y Y Y Y . Для ежемесячных данных нужно использовать центрированную скользящую среднюю за 12 месяцев. 4 При условии, что периодичность равна 1 году, а данные ежеквартальные. Для ежемесячных данных сумма индексов должна быть равна 12. 5 Для аддитивной модели корректирующий коэффициент равен 4 A A d S и его вычитают из каждого квартального индекса. Для мульти- пликативной модели корректирующий коэффициент равен 4 M M d S и на него делят каждый квартальный индекс. Результаты расчетов индексов приведены в таблице: Таблица 2 Год Квартал I II III IV Аддитивные 2015 – – 6,5 -22,75 2016 10,75 5,375 6,00 -25,875 2017 16,00 4,75 5,00 – Среднее значение индексов 13,375 3,375 5,833 -24,313 Корректирующий коэффициент -1,729/4 = -0,432 Скорректированный индекс A A q i d 13,807 3,807 6,266 -23,880 Сумма скорректированных индексов 0,000 Мультипликативные 2015 – – 1,16 0,52 2016 1,20 1,09 1,09 0,66 2017 1,19 1,05 1,05 – Среднее значение индексов 1,195 1,071 1,099 0,591 Корректирующий коэффициент 3,956/4 = 0,989 Скорректированный индекс / M M q i d 1,209 1,083 1,111 0,598 Сумма скорректированных индексов 4,000 По Таблица 2 видно, что для ежеквартальных данных минимально до- пустимая длина временного ряда – это 12 кварталов – 3 года, иначе сезон- ный индекс будет определяться лишь одним наблюдением, поскольку цен- трированное сглаживание уменьшает длину ряда на шаг сглаживания, т.е. на 4 квартала. Шаг 3. Определение тренда На этом шаге проводится десезонализация данных путем сглажива- ния периодических колебаний: а) в аддитивной модели из фактических значений уровня ряда вычитаются скорректированные сезонные индексы по кварталам – t t t t Y S T E ; б) в мультипликативной фактических зна- чений уровня ряда делятся на скорректированные сезонные индексы по кварталам – / t t t t Y S T E . В Таблица 3 проведены расчеты десезонализиро- ванного ряда, на основе которого будет оцениваться уравнение тренда. Таблица 3 Номер кварта- ла Депози- ты, млн.руб. Аддитив- ный индекс Мульти- пли- кативный индекс Десезонализирован- ный ряд (аддитивная модель) Десезонализирован- ный ряд (мультипли- кативная модель) 6 t t Y A t i M t i A t t Y i / M t t Y i 1 2 3 4 5 6 1 41 13,807 1,209 27,193 33,921 2 40 3,807 1,083 36,193 36,951 3 48 6,266 1,111 41,734 43,205 4 25 -23,880 0,598 48,880 41,819 5 65 13,807 1,209 51,193 53,777 6 66 3,807 1,083 62,193 60,970 7 74 6,266 1,111 67,734 66,608 8 50 -23,880 0,598 73,880 83,637 9 99 13,807 1,209 85,193 81,906 10 95 3,807 1,083 91,193 87,759 11 102 6,266 1,111 95,734 91,811 12 80 -23,880 0,598 103,880 133,820 13 123 13,807 1,209 109,193 101,762 Для наглядности нарисуем графики десезонализированного ряда и убедимся в том, что он лишен периодичности, т.е. содержит только тренд и случайную компоненту. y A = 6.885t + 20.589 y M = 7.157t + 20.513 0 20 40 60 80 100 120 140 160 1 2 3 4 5 6 7 8 9 10 11 12 13 Аддитивная модель Мультипликативная модель Уравнения тренда: Рис. 5. Десезонализированные объемы депозитов Аддитивные индексы дают заметно более гладкую линию десезона- лизированного объема депозитов, что говорит о лучшем качестве сглажи- вания (см. Рис. 5 ). При этом обе линии могут быть описаны линейным трендом. Можно также увидеть, что уравнения тренда, оцененные в разно- го типа моделях, схожи. Однако оба уравнения заметно отличаются от первоначального тренда 6,424 24,851 t Y t добавленного на Рис. 4 . В Таб- лица 4 представлен прогноз суммы депозитов по тренду – колонки 2 и 3, а 7 также прогнозы по аддитивной и мультипликативной моделям, учитыва- ющие наличие сезонности. Шаг 4. Построение прогноза Чтобы вычислить прогнозные значения на любой, сколь угодно длинный отрезок времени необходимо продлить нумерацию кварталов, подставить номер в уравнение тренда, а дальше скорректировать трендо- вое значение с помощью соответствующего кварталу индекса сезонности. В Таблица 4 прогнозные значения рассчитаны на три квартала вперед до конца 2018 года. Таблица 4 Номер квартала Аддитивный тренд Мультипли- кативный тренд Аддитивный индекс Мультипли- кативный индекс Прогноз по аддитивной модели Прогноз по мультиплика- тивной модели t A t T 6,885t+20,589 M t T 7,157t+20,513 A t i M t i A A A t t t Y T i M M M t t t Y T i 1 2 3 4 5 6 7 1 27,474 27,670 13,807 1,209 41,282 33,444 2 34,359 34,827 3,807 1,083 38,167 37,700 3 41,244 41,984 6,266 1,111 47,510 46,643 4 48,129 49,140 -23,880 0,598 24,249 29,377 5 55,014 56,297 13,807 1,209 68,821 68,047 6 61,899 63,454 3,807 1,083 65,706 68,690 7 68,784 70,611 6,266 1,111 75,050 78,447 8 75,669 77,768 -23,880 0,598 51,789 46,491 9 82,554 84,925 13,807 1,209 96,361 102,649 10 89,439 92,082 3,807 1,083 93,246 99,679 11 96,324 99,239 6,266 1,111 102,590 110,252 12 103,209 106,396 -23,880 0,598 79,329 63,605 13 110,094 113,553 13,807 1,209 123,901 137,252 14 116,979 120,710 3,807 1,083 120,786 130,669 15 123,864 127,867 6,266 1,111 130,129 142,057 16 130,749 135,024 -23,880 0,598 106,868 80,720 Нанесем на график исходного ряда рассчитанные прогнозы и по- смотрим (см. Рис. 6 ) на различия между прогнозами по аддитивной и муль- типликативной моделям. 8 0 20 40 60 80 100 120 140 160 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Депозиты, млн. руб. Аддитивная модель Мультипликативная модель Рис. 6. Сравнение аддитивной и мультипликативной моделей Даже визуально (см. Рис . 6 ) видно, что аддитивная модель лучше описывает исходные данные и расхождение между моделями будет тем заметнее, чем на больший временной интервал будет строиться прогноз. Шаг 5. Анализ точности модели В дополнение к визуальному анализу, сравним основные показатели качества моделей: 2 R , MAE и MAPE (столбцы 7 и 8 в Таблица 5 , показате- лю можно доверять, поскольку уровни ряда находятся достаточно далеко от 0). Таблица 5 Номер квартала Депозиты, млн.руб. Прогноз по аддитивной модели Прогноз по мульти- пликатив- ной модели Остатки аддитивной модели Остатки мультипли- кативной модели Ошибки ад- дитивной модели, % Ошибки мультипли- кативной мо- дели, % t t Y A t Y M t Y A t t Y Y M t t Y Y 100% A t t t Y Y Y 100% M t t t Y Y Y 1 2 3 4 5 6 7 8 1 41 41,282 33,444 -0,282 7,556 0,7 18,4 2 40 38,167 37,700 1,833 2,300 4,6 5,8 3 48 47,510 46,643 0,490 1,357 1,0 2,8 4 25 24,249 29,377 0,751 -4,377 3,0 17,5 5 65 68,821 68,047 -3,821 -3,047 5,9 4,7 6 66 65,706 68,690 0,294 -2,690 0,4 4,1 7 74 75,050 78,447 -1,050 -4,447 1,4 6,0 8 50 51,789 46,491 -1,789 3,509 3,6 7,0 9 99 96,361 102,649 2,639 -3,649 2,7 3,7 10 95 93,246 99,679 1,754 -4,679 1,8 4,9 11 102 102,590 110,252 -0,590 -8,252 0,6 8,1 12 80 79,329 63,605 0,671 16,395 0,8 20,5 9 13 123 123,901 137,252 -0,901 -14,252 0,7 11,6 Среднее 69,8 69,8 70,9 2,1 8,9 Изучая Таблица 5 и Таблица 6 Рис. 5 , можно сделать вывод о том, что не только средние ошибки аддитивной модели значительно меньше, чем у мультипликативной, но и максимальное отклонение меньше приблизи- тельно в 4 раза. Ошибки аддитивной модели составляют от 0,4 до 5,9%, а в среднем 2,1%, что меньше 5% и можно считать хорошим результатом. За- метим также, что коэффициенты детерминации чрезвычайно высоки, и не позволяют назвать одну модель существенно более точной, чем другая, по- этому использование специальных критериев качества прогноза в данном случае необходимо. Таблица 6 2 R MAE , млн.руб. MAPE , % Для аддитивной модели 0,997 5 1,297 (1,9%) 6 2,1 Для мультипликативной модели 0,932 5,885 (8,4%) 8,9 Шаг 6. Выводы по модели Для показателя депозиты на счетах банка N получена аддитивная модель вида t t t t Y T S E , с линейным трендом 6,885 20,589 t T t , что говорит об увеличении суммы депозитов в среднем на 6,9 млн. руб. в квар- тал. При этом наблюдается увеличение суммы вкладов в I–III кварталах на 13,8; 3,8; 6,3 млн. руб. соответственно и резкое снижение в IV квартале на 23,9 млн. руб., что можно объяснить традицией делать подарки к новому году, покупкой путевок на новогодние выходные, а также использованием скидок в целях приобретения необходимых товаров длительного пользо- вания. Полученные же в конце года премии и неизрасходованные денеж- ные средства вкладываются в банк преимущественно в I квартале следую- щего года. Повторим расчеты на примере 2, с тем, чтобы убедиться в необходи- мости правильного выбора вида модели. Также построим по ней прогноз на один квартал 2019 года. В Таблица 7 приведены данные по кварталам 2015–2018 гг. по потреб- лению газа в области Z в млн. м 3 Таблица 7 Год Квартал Потребление газа, млн. м 3 5 Коэффициент детерминации можно вычислить в Excel как ( ) 1 ( ) 5 2 ДИСП столбца ДИСП столбца 6 t t Y Y MAE n измеряется в тех же единицах, что и фактические уровни ряда. Можно соотне- сти со средним значением ряда, чтобы масштабировать величину отклонения. 10 2015 I 50,534 II 36,889 III 24,037 IV 70,619 2016 I 76,447 II 50,188 III 36,012 IV 96,566 2017 I 111,424 II 70,356 III 49,365 IV 125,612 2018 I 144,617 Требуется построить прогноз потребления газа на I квартал 2019 года. y = 6.7306x + 25.399 0.000 20.000 40.000 60.000 80.000 100.000 120.000 140.000 160.000 I II III IV I II III IV I II III IV I Потребление газа областью Z, млн. м 3 Рис. 7. Временной ряд с мультипликативной периодической компонентой На Рис. 7 представлен график временного ряда с ежеквартальными данными из Табли- ца 7. Отчетливо прослеживается растущий тренд. Колебания ряда имеют не случайный характер, они повторяются каждые 4 квартала. Периодические колебания имеют уве- личивающуюся с каждым годом амплитуду. Значит для моделирования этого ряда применима мультипликативная модель. Пропуская все промежуточные вычисления, которые уже были рассмотрены выше, нарисуем сравнительный график прогнозов по двум типам моделей (см. Рис. 8) И снова график показывает нам, что аддитивная модель каждый год воспроизводит одни и те же колебания, не учитывая их растущую амплитуду, в отличие от мультипликативной модели. 11 0.000 20.000 40.000 60.000 80.000 100.000 120.000 140.000 160.000 180.000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Потребление газа, млн. куб. м Аддитивная модель Мультипликативная модель Рис. 8. Аддитивный и мультипликативный прогнозы ряда газопотребления Расчеты показали, что аддитивная модель дает существенную погрешность – более 12% в среднем. А ошибка мультипликативной модели в 4,7 раза ниже – 2,6% < 5%, что говорит о хорошей прогнозной точности. Тренд Сезонные индексы 2 R MAPE , % Для аддитивной модели 6.203 27.079 t T t 26,2//-12,5// -33,2//19,5 0,957 12,2 Для мультиплика- тивной модели 5.644 30.501 t T t 1,4//0,8// 0,5//1,3 0,997 2,6 Шаг 6. Выводы по модели Для показателя потребление газа в области Z получена мультиплика- тивная модель вида t t t t Y T S E , с линейным трендом 5.644 30.501 t T t , что говорит о среднем росте потребления на 5,6 млн. м 3 в квартал. При этом наблюдается увеличение потребления газа в I и IV кварталах в 1,4 и 1,3 раза соответственно по сравнению со средним уровнем потребления, небольшое снижение в II квартале – на 20% (индекс 0,8 соответствует по- треблению в размере 80% от среднего уровня) и резкое падение потребле- ния в два раза в III квартале, что можно объяснить в первую очередь ис- пользованием газа на отопительные нужды в зимний период, потеплением и уменьшением отопительной нагрузки в весенний период и не использо- ванием отопления в III квартале. Приведем здесь расчет потребления газа на I квартал 2019 г: 2019 – 2015 = 4 года, в каждом году по 4 квартала, значит требуется прогноз на период 4 4 1 17 . Прогноз по тренду – 5.644 17 30.501 126.449 t T Скорректируем его с учетом сезонности – 17 126.449 1.4 177.0 Y млн. м 3 |