Эконометрика в Excel (часть 2). Ю. Е. Воскобойников
Скачать 1.67 Mb.
|
3 Э К О Н О М Е Т Р И К А В E X C E L Часть 2 Анализ временных рядов Ю.Е. В ОСКОБОЙНИКОВ 4 НОВОСИБИРСК 2008 5 ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ РОССИЙСКОЙ ФЕДЕРАЦИИ НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ АРХИТЕКТУРНО-СТРОИТЕЛЬНЫЙ УНИВЕРСИТЕТ (СИБСТРИН) Ю.Е. Воскобойников Э К О Н О М Е Т Р И К А В E X C E L Часть 2 АНАЛИЗ ВРЕМЕННЫХ РЯДОВ У ЧЕБНОЕ ПОСОБИЕ НОВОСИБИРСК 2008 6 УДК 330.43(075.8) ББК 65.в6.я73 В762 Воскобойников Ю. Е. Эконометрика в Excel : учеб. пособие. Ч. 2. Анализ временных ря- дов / Ю. Е. Воскобойников ; Новосиб. гос. архитектур.-строит. ун-т. – Новосибирск : НГАСУ (Сибстрин), 2008. – 152 с. ISBN 978-5-7795-0366-2 Учебное пособие содержит основные теоретические положения, необхо- димые для решения задач анализа временных рядов. Приводятся необходимые расчетные соотношения. Большое внимание уделяется реализации этих соотно- шений в табличном процессоре Excel. Пособие содержит большое количество примеров и копий фрагментов документов Excel, которые позволят студентам не только лучше понять и усвоить учебный материал, но и эффективно использо- вать Excel при выполнении дипломной и курсовых работ. Учебное пособие рекомендуется студентам экономических специальностей вузов, а также будет полезно аспирантам и преподавателям по прикладной эко- номике и финансам. Печатается по решению издательско-библиотечного совета НГАСУ (Сибстрин) Рецензенты: ⎯ В.З. Баликоев, д-р экон. наук, профессор, директор Института экономики и менеджмента НГАСУ (Сибстрин); ⎯ А.С. Овсянников, д-р экон. наук, профессор, завкафедрой экономики труда и хозяйственной деятельности НГАВТ ISBN 978-5-7795-0366-2 © Воскобойников Ю.Е., 2008 © Новосибирский государственный архитектурно-строительный университет (Сибстрин), 2008 7 Оглавление ВВЕДЕНИЕ........................................................................................ 9 ГЛАВА 1. ВРЕМЕННЫЕ РЯДЫ И ИХ ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ................................................... 12 1.1. Временной ряд и его модели.......................................... 12 1.2. Числовые характеристики временного ряда................. 16 1.3. Проверка статистических гипотез о свойствах временного ряда......................................... 23 ГЛАВА 2. ВЫДЕЛЕНИЕ НЕСЛУЧАЙНОЙ СОСТАВЛЯЮЩЕЙ ВРЕМЕННОГО РЯДА........... 39 2.1. Выделение трендовой составляющей временного ряда .................................................................................. 39 2.2. Выделение трендовой составляющей с помощью табличного процессора Excel .................... 56 2.3. Выделение тригонометрической составляющей временного ряда.............................................................. 71 2.4. Проверка адекватности и качества построенной модели временного ряда.............................................................. 85 2.5. Прогнозирование трендовой составляющей временного ряда.............................................................. 90 ГЛАВА 3. ВРЕМЕННЫЕ РЯДЫ С КОРРЕЛИРОВАННЫМИ ВОЗМУЩЕНИЯМИ. ОБОБЩЕННЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ............................... 104 3.1. Временные ряды с коррелированными возмущениями............................................................... 104 3.2. Обобщенный метод наименьших квадратов .............. 113 3.3. Выделения тренда временного ряда на основе обобщенного метода наименьших квадратов ....................................................................... 116 8 ГЛАВА 4. АВТОРЕГРЕССИОНЫЕ МОДЕЛИ ВРЕМЕННОГО РЯДА ............................................... 127 4.1. Определение авторегрессионной модели ................... 127 4.2. Оценивание коэффициентов авторегрессионной модели............................................................................ 129 4.3. Оценивание коэффициентов авторегрессионной модели стационарного временного ряда .................... 135 4.4. Тест на наличие автокорреляции ................................. 143 4.5. Определение порядка авторегрессионной модели временного ряда............................................................ 146 ЗАКЛЮЧЕНИЕ ............................................................................ 154 БИБЛИОГРАФИЧЕСКИЙ СПИСОК...................................... 155 9 ВВЕДЕНИЕ В последнее время специалисты, обладающие знаниями и на- выками проведения прикладного экономического анализа с ис- пользованием современных математических и программных средств, пользуются спросом на рынке труда. Одной из централь- ных дисциплин в подготовке таких специалистов является «Эко- нометрика». Дословный перевод этого слова означает экономиче- ские измерения, но определение дисциплины «Эконометрика» го- раздо шире этого перевода. Ниже приводятся два определения из- вестных ученых, позволяющие получить представления о различ- ном толковании эконометрики. Эконометрика – это раздел экономики, занимающийся раз- работкой и применением статистических методов для измере- ний взаимосвязей между экономическими переменными (С. Фишер). Эконометрика – это самостоятельная научная дисциплина, объединяющая совокупность теоретических результатов, прие- мов, методов и моделей, предназначенных для того, чтобы на базе – экономической теории; – экономической статистики; – математико-статистического инструментария придать конкретное количественное выражение общим качест- венным закономерностям, обусловленным экономической теори- ей (С.А. Айвазян). Из этих определений можно сформулировать основную цель эконометрики – модельное описание конкретных количест- венных взаимосвязей, обусловленных общими качественными за- кономерностями, изучаемыми в экономической теории. Составленное модельное описание называется эконометри- ческой моделью. В учебном пособии [5] было подробно рассмот- рено построение регрессионных эконометрических моделей в Ex- cel. В данном учебном пособии рассматривается построение эко- нометрических моделей для временных рядов (анализ временных рядов). Областями применения таких моделей являются: 10 • прогноз экономических и социально-экономических пока- зателей, характеризующих состояние и развитие анализируемой системы; • имитация различных возможных сценариев социально- экономического развития анализируемой системы. В качестве анализируемой системы могут выступать страна в целом, регионы, отрасли и корпорации, а также предприятия и фирмы. Построение эконометрических моделей временных рядов обусловливает (особенно при большом объеме исходных данных) существенный объем вычислений. На этом этапе многие исследо- ватели сталкиваются с проблемами численной реализации необ- ходимого вычислительного алгоритма и графической интерпре- тации результатов решения. Этим вопросам в учебной литературе уделяется крайне мало внимания, что затрудняет использование современных алгоритмов решения задач анализа временных ря- дов на практике. Поэтому основной целью данного пособия является изложе- ние численных методик решения основных задач анализа времен- ных рядов в вычислительной среде табличного процессора Excel 2003. Для каждой из рассматриваемых задач анализа временных рядов эконометрики приводятся необходимый теоретический ма- териал, математическая запись алгоритма решения (т.е. формулы или расчетные соотношения), а затем даются фрагменты доку- ментов Excel 2003, реализующих алгоритмы решения задачи. При этом алгоритм решения может быть реализован путем программирования арифметических или логических выражений в ячейках электронной таблицы или путем обращения к стандарт- ным функциям или модулям Excel 2003. Поэтому предполагается, что читатель знаком с адресацией ячеек (относительной, абсо- лютной и смешанной), арифметическими операциями и програм- мированием простейших выражений в ячейках Excel. Данное учебное пособие, хотя и содержит необходимый тео- ретический материал, но не заменяет учебник по эконометрике, а является своеобразным справочником по численному решению за- 11 дач эконометрики в Excel 2003. Учебное пособие можно также рассматривать как дополнение к основному учебнику по эконо- метрике, которое будет полезным при выполнении курсовых и дипломных работ, а также при самостоятельном решении практи- ческих задач эконометрики. Кроме решения задач учебное пособие содержит набор лабо- раторных и контрольных работ по каждой теме, ориентированных на заочную и дистанционную формы обучения. Предполагается, что читатель знаком с основными понятия- ми теории вероятностей и математической статистики. При необ- ходимости он может обратиться к литературе [1–4]. Кроме этого, он знаком с основными методами, используемыми при построе- нии и проверке регрессионных моделей [5–12]. Структура и содержание учебного пособия и рассматривае- мых задач соответствуют требованиям государственного образо- вательного стандарта высшего профессионального образования для специальностей направления «Экономика и менеджмент». 12 ГЛАВА 1. ВРЕМЕННЫЕ РЯДЫ И ИХ ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ 1.1. Временной ряд и его модели Широкий круг социально-экономических, технических и ес- тественно-научных процессов часто представляются набором упорядоченных во времени случайных величин ( ) ( ) ( ) 1 2 , ,..., n Y Y Y τ τ τ , где 1 i i τ τ + < . Такая последовательность ве- личин называется временным рядом или дискретным временным процессом. Набор наблюдений { } i y , 1,2,..., i n = над случайной величинами ( ) { } i Y τ в моменты времени 1 2 , ,..., n τ τ τ называется временной выборкой . Заметим, что иногда в литературе понятие временного ряда подменяется понятием временной выборки. Принципиальная разница между этими двумя понятиями заклю- чается в том, что временной ряд это набор случайных величин, а временная выборка – набор измеренных значений, которые явля- ются конкретной реализацией случайных величин ( ) { } i Y τ в n экспериментах и по этой причине значения ( ) i i y Y τ = , 1,2,..., i n = временной выборки уже не являются случайными величинами. Замечание 1.1.1. Временной ряд ( ) { } i Y τ можно интерпрети- ровать как наблюдения над непрерывным случайным процессом (случайной функцией) ( ) Y τ в моменты времени i τ τ = . Поэтому в дальнейшем наряду с временным рядом ( ) { } i Y τ будет рас- сматриваться и непрерывный случайный процесс ( ) Y τ ♦ Изменения величины ( ) i Y τ во времени в реальной жизни обычно происходят под воздействием многочисленных причин, факторов. Поэтому в отношении временного ряда выдвигается предположение, что совокупное влияние этих факторов формиру- ет некоторую закономерность в развитии временного ряда, что дает основание применить для описания динамики ( ) i Y τ эконо- метрическую модель из класса моделей временных рядов. 13 Модели временных рядов активно применяются в исследова- ниях значительного числа реальных процессов различной приро- ды. Например, в исследованиях динамики пассажиропотоков, складских запасов, спроса на различные виды продукции, финан- совых рынков, в анализе динамики финансовых показателей, про- гнозировании цен на различные товары и т.д. Одним из основных классов эконометрических моделей вре- менных рядов является класс аддитивных моделей вида ( ) ( ) ( ) i i i Y q τ τ ε τ = + , 1,2,..., i n = , (1.1.1) где неслучайная (детерминированная) составляющая ( ) i q τ может включать одну или несколько из следующих компонент: трендо- вую ( ) i t τ , сезонную ( ) i s τ и периодическую ( ) i p τ . Часто компо- ненты ( ) i s τ , ( ) i p τ называют тригонометрическими состав- ляющими временного ряда. Тренд , или тенденция ( ) i t τ , представляет собой устойчивую закономерность, наблюдаемую в течение длительного периода времени. Обычно тренд (тенденция) описывается с помощью той или иной неслучайной функции ( ) t τ (аргументом которой явля- ется время), как правило, достаточно «гладкой» (часто монотон- ной). Сезонная компонента ( ) i s τ связана с наличием факторов, действующих с заранее известной периодичностью. Это регуляр- ные колебания, которые носят периодический или близкий к нему характер и заканчиваются в течение года. Типичные примеры се- зонного эффекта: изменение загруженности автотрассы по време- нам года, пик продаж товаров для школьников в конце августа – начале сентября. Спрос на пластические операции сезонный: в осенне-зимний период обращений больше. Типичным примером являются сильные колебания объема товарно-материальных запа- сов в сезонных отраслях. Сезонная компонента со временем мо- жет меняться, либо иметь плавающий характер. Периодическая (циклическая) компонента ( ) i p τ – неслучай- ная функция, описывающая длительные периоды (более одного 14 года) относительного подъема и спада и состоящая из циклов пе- ременной длительности и амплитуды. Примерами периодической компоненты являются волны Кондратьева, демографические «ямы» и т.п. Подобная компонента весьма характерна для рядов макроэкономических показателей. Здесь циклические изменения обусловлены взаимодействием спроса и предложения, а также наложением таких факторов, как истощение ресурсов, погодные условия, изменения в налоговой политике и т.п. Отметим, что циклическую компоненту крайне трудно идентифицировать фор- мальными методами, исходя только из данных изучаемого ряда. Случайная компонента ( ) i ε τ – это составная часть времен- ного ряда, оставшаяся после выделения систематических компо- нент. Она отражает воздействие многочисленных факторов слу- чайного характера и представляет собой случайную, нерегуляр- ную компоненту. Она является обязательной составной частью любого временного ряда в экономике, так как случайные откло- нения неизбежно сопутствуют любому экономическому явлению. Замечание 1.1.2. Если систематические компоненты времен- ного ряда определены правильно, то остающаяся после выделе- ния из временного ряда этих компонент так называемая остаточ- ная последовательность (ряд остатков) будет случайной компо- нентой ряда. ♦ Модели, в которых временной ряд представлен как произве- дение некоторых из перечисленных компонент ( ) i t τ , ( ) i s τ , ( ) i p τ , ( ) i ε τ относятся к классу мультипликативных моделей. Модели этого класса имеют вид ( ) ( ) ( ) ( ) ( ) i i i i i Y t s p τ τ τ τ ε τ = ⋅ ⋅ ⋅ . (1.1.2) В процессе формирования значений временных рядов не все- гда участвуют все четыре компоненты. Однако во всех случаях предполагается наличие случайной составляющей ( ) i i ε ε τ = Другой класс моделей используется для описания временных рядов, у которых значение ( ) i Y τ в какой-то степени предопреде- 15 ляется значениями ( ) Y τ в предыдущие моменты времени 1 2 , ,... i i τ τ − − . Модели такого класса можно записать в виде ( ) ( ) ( ) ( ) ( ) 1 2 , ,... i i i i Y f Y Y τ τ τ ε τ − − = + (1.1.3) Функция f отражает характер взаимосвязи между последующим и предыдущими значениями величин ( ) i Y τ . Такие модели полу- чили название авторегрессионных моделей. Для широкого круга процессов функция f имеет линейный вид ( ) ( ) ( ) ( ) ( ) 1 1 2 2 i i i k i k i Y Y Y Y τ β τ β τ β τ ε τ − − − = + + + + . (1.1.4) Такая модель получила название линейной авторегрессионной модели k-го порядка. В дальнейшем будет считать, что моменты измерений i τ равноудалены друг от друга на величину τ Δ , т.е. для любого i имеет место 1 i i τ τ τ + = + Δ . (1.1.5) Основная цель статистического анализа временных рядов – изучение соотношения между закономерностью и случайностью в формировании значений ряда, оценка количественной меры их влияния. Закономерности, объясняющие динамику показателя в прошлом, используются для прогнозирования его значений в бу- дущем, а учет случайности позволяет определить вероятность отклонения временного ряда от закономерного развития и воз- можную величину отклонения. Прогнозирование экономических процессов, представленных одномерными временными рядами, сводится к выполнению сле- дующих основных этапов: 16 Э ТАП 1. Предварительный анализ данных. Э ТАП 2. Построение моделей: формирование набора аппрок- симирующих функций (кривых роста) и численное оценивание параметров моделей. Э ТАП 3. Проверка адекватности моделей и оценка их точно- сти. Э ТАП 4. Выбор лучшей модели. Э ТАП 5. Расчет точечного и интервального прогнозов. 1.2. Числовые характеристики временного ряда Из определения временного ряда и моделей (1.1.1), (1.1.2) следует, что в каждый момент i τ величина ( ) i Y τ является слу- чайной, подчиняющейся некоторому распределению, которое за- висит от распределения случайной составляющей ( ) i ε τ . Мате- матическое ожидание и дисперсия для модели (1.1.1) в момент i τ определяются выражениями ( ) ( ) ( ) i i M Y q τ τ = ; ( ) ( ) ( ) ( ) i i D Y D τ ε τ = . (1.2.1) Для модели (1.1.2) эти характеристики определяются более слож- ными выражениями. Временной ряд называется стационарным в широком смыс- ле, если числовые характеристики случайных величин ( ) i Y τ не зависят от времени i τ . Так, для модели (1.1.1) справедливы соот- ношения: ( ) ( ) i M Y q τ = ; ( ) ( ) 2 i D Y τ σ = (1.2.2) Для такого временного ряда в качестве оценок величин q , 2 σ используются выборочное среднее y и выборочная дисперсия 2 s : 1 1 n i i y y n = = ⋅ ∑ ; ( ) 2 2 1 1 1 n i i s y y n = = ⋅ − − ∑ (1.2.3) Временной ряд называется стационарным в узком смысле, если для каждого момента времени случайные величины ( ) i Y τ 17 имеют одинаковые распределения. Очевидно, что из стационар- ности в узком смысле следует стационарность в широком смысле. Обратное, в общем случае, неверно. В дальнейшем рассматри- ваемые стационарные ряды являются стационарными в широком смысле. Введем еще некоторые характеристики временных рядов. Степень статистической связи между последовательностями ( ) ( ) ( ) 1 2 , ,..., n Y Y Y τ τ τ и ( ) ( ) ( ) 1 2 , ,..., l l n l Y Y Y τ τ τ + + + (сдвинутых от- носительно друг друга на l моментов времени, или, как говорят, с лагом l ) может быть определена с помощью коэффициента ав- токорреляции: ( ) ( ) ( ) ( ) ( ) 2 i i l M Y q Y q l τ τ ρ σ + ⎡ ⎤ − − ⎣ ⎦ = (1.2.4) Для стационарного временного ряда ( ) l ρ зависит только от лага l и для него справедливо следующее равенство: ( ) ( ) l l ρ ρ − = , (1.2.5) т.е. достаточно изучать ( ) l ρ только для положительных лагов l . Если 0 l = , то ( ) 0 1 ρ = . Оценкой для ( ) l ρ является выборочный коэффициент авто- корреляции, определяемый по формуле: ( ) ( ) ( ) ( ) 1 1 1 2 2 2 2 1 1 1 1 n l n l n l i i l i i l i i i n l n l n l n l i i i l i l i i i i n l y y y y r l n l y y n l y y − − − + + = = = − − − − + + = = = = ⎛ ⎞ ⎛ ⎞ − − ⋅ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ = ⎛ ⎞ ⎛ ⎞ − − ⋅ − − ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ ∑ ∑ ∑ ∑ ∑ ∑ ∑ . (1.2.6) Заметим, что с увеличением l число пар наблюдений i y , i l y + уменьшается и поэтому число l не должно быть сравнительно большим (рекомендуют / 4 l n ≤ ). 18 Стационарный временной ряд, у которого математическое ожидание равно 0, а величины ( ) i ε τ некоррелированны, часто называют белым шумом. Очевидно, что для белого шума ( ) 1, 0; 0, 0. если l l если l ρ = ⎧ = ⎨ ≠ ⎩ (1.2.7) Замечание 1.2.1. Для стационарного временного ряда с уве- личением лага l взаимосвязь членов ( ) i Y τ , ( ) i l Y τ + ослабевает и абсолютные величины коэффициента автокорреляции ( ) l ρ должны убывать. В то же время для выборочного коэффициента автокорреляции ( ) r l (особенно при небольших значениях n l − ) свойство монотонного убывания (по абсолютной величине) при возрастании l может нарушаться. ♦ Проиллюстрируем сделанное замечание. Пример 1.2.1. В столбце А документа Excel, приведенного на рис. 1.1, представлены 20 значений стационарного временного ряда, являющегося белым шумом. Необходимо вычислить выбо- рочное математическое ожидание, дисперсию и коэффициент ав- токорреляции ( ) l ρ , 0,1,2,3 l = Решение. Первые две оценки вычисляются по формуле (1.2.3) с использованием стандартных функций Excel (обращение к ним показано на рис. 1.1), а выборочный коэффициент автокорреля- ции – по формуле (1.2.6), при этом используются предварительно вычисленные суммы: 1 n l i i l i y y − + = ∑ ; 1 n l i i y − = ∑ ; 1 n l i l i y − + = ∑ ; 2 1 n l i i y − = ∑ ; 2 1 n l i l i y − + = ∑ (см. рис. 1.1). Полученные значения оценок приведены в табл. 1.1 (вторая строка). Третья строка таблицы содержит точные значения иско- мых характеристик. Различие между оценками и точными значе- ниями обусловлено малым объемом выборки. ☻ 19 Рис. 1.1. Вычисление числовых характеристик стационарного ряда Таблица 1.1 Характе- ристики ( ) M Y ( ) D Y (0) ρ (1) ρ (2) ρ (3) ρ Оценка 28.5 12.0 1.0 –0.19 0.14 0.10 Точное значение 30 10 1 0 0 0 20 Отметим два важных свойства коэффициента автокорреля- ции. Во-первых , коэффициент автокорреляции вычисляется по аналогии с линейным коэффициентом корреляции [5, гл. 2] и та- ким образом характеризует тесноту линейной зависимости между случайными величинами ( ) i Y τ , ( ) i l Y τ + . Поэтому по величине коэффициента автокорреляции можно судить о наличии линейной (или близкой к линейной) тенденции развития временного ряда. Во-вторых , по знаку коэффициента автокорреляции нельзя делать вывод о возрастающей или убывающей тенденции значе- ний временного ряда. Многие временные ряды экономических данных имеют положительные величины коэффициентов авто- корреляции, однако при этом наблюдается убывающая тенденция. Последовательность коэффициентов автокорреляции ( ) 0 ρ , ( ) ( ) 1 , 2 ,... ρ ρ называют автокорреляционной функцией временно- го ряда, а график зависимости значений ( ) l ρ от величины лага l (или порядка коэффициента автокорреляции l ) – коррелограм- мой. Анализ автокорреляционной функции позволяет выявить структуру временного ряда, т.е. наличие в нем составляющих ( ) i t τ , ( ) i p τ , ( ) i s τ Если наиболее высоким оказался коэффициент автокорреля- ции ( ) 1 ρ , то исследуемый ряд содержит только трендовую со- ставляющую. Если наиболее высоким оказался коэффициент ав- токорреляции ( ) l ρ , то ряд содержит колебания с периодично- стью l моментов времени, т.е. период колебания равен l τ ⋅ Δ . Ес- ли ни один из коэффициентов ( ) r l не является значимым (про- верка значимости осуществляется точно так же, как и для коэф- фициента xy r [5, с. 43]), то относительно структуры ряда можно сделать одно из двух предположений: • временной ряд не содержит тренда и циклических колебаний, т.е. является белым шумом с ( ) l ρ (см. формулу (1.2.7)); 21 • временной ряд содержит сильный нелинейный тренд, для выявления которого необходимо провести дополнительный анализ. Поэтому коэффициент автокорреляции и автокорреляцион- ную функцию целесообразно использовать для выявления во вре- менном ряде трендовой составляющей и периодической, сезон- ных составляющих. Пример 1.2.2. В табл. 1.2 приведены условные данные об объемах потребления электроэнергии жителями некоторого рай- она за 16 кварталов. Необходимо: • вычислить выборочные коэффициенты корреляции r(l) для 1, 2,...,8 l = и построить коррелограмму; • провести анализ значений коэффициентов r(l) и сделать вы- вод о структуре данного временного ряда. Таблица 1.2 i i y i i y i i y 1 6,0 7 6,0 13 9,0 2 4,4 8 10,0 14 6,6 3 5,0 9 8,0 15 7,0 4 9,0 10 5,6 16 10,8 5 7,2 11 6,4 6 4,8 12 11,0 Решение. На рис. 1.2а приведен фрагмент документа Excel, в столбец А которого введен номер квартала ( i i τ = , 1,...,16 i = ), в столбец В – объем потребления электроэнергии в соответствую- щем квартале, в C, D, E, F, G, H, I, J – значения 1 2 3 4 5 6 7 8 , , , , , , , i i i i i i i i y y y y y y y y − − − − − − − − . По заполненной таким обра- зом таблице вычислялись коэффициенты автокорреляции r(l), 1, 2,...,8 l = , приведенные на рис. 1.2б. Здесь же показаны приме- ры программирования вычисления ρ (1), ρ (8) с использованием функции Excel КОРРЕЛ. На рис. 1.3 приведены значения i y вре- менного ряда, а на рис. 1.4 – график коррелограммы. 22 а) б) Рис. 1.2. Вычисление коэффициентов автокорреляции Анализ значений ( ) r l и коррелограммы позволяет сделать вывод о наличии в изучаемом временном ряде сезонных колеба- ний периодичностью в четыре квартала ( ( ) 4 0,983 r = ), а также небольшого линейного тренда. Эти выводы хорошо подтвержда- ются графиком значений временного ряда (см. рис. 1.3). Большое значение ( ) 8 0,974 r = объясняется тем, что в 8 есть удвоенный период 4. Такое же большое значение будет у коэффициента ав- токорреляции ( ) 12 r . ☻ 23 Рис. 1.3. Значения временного ряда Рис. 1.4. Вычисленная коррелограмма временного ряда 1.3. Проверка статистических гипотез о свойствах временного ряда 1.3.1. Проверка гипотезы о наличии аномальных наблюдений Эта процедура выполняется на стадии предварительного ана- лиза временного ряда и во многих случаях является обязательной процедурой. Для диагностики аномальных наблюдений исполь- зуются различные статистические методы, одни из которых при- водится ниже. 24 Метод Ирвина. Для всех наблюдений или только «подозре- ваемых» (в аномальности) наблюдений формулируются следую- щие статистические гипотезы: 0 H : i -е наблюдение не является аномальным; (1.3.1) 1 H : i -е наблюдение является аномальным. (1.3.2) Для проверки этих гипотез вычисляется значение критерия 1 i i i y y y I s − − = , (1.3.3) где ( ) 2 1 1 n i i y y y s n = − = − ∑ , 1 1 n i i y y n = = ∑ (1.3.4) Нетрудно видеть, что y s есть выборочное среднеквадратическое отклонение, вычисленное по выборке объемом n . Если вычисленная величина i I превышает предельное значе- ние пр I (т.е. попадает в критическую область), то с вероятностью α ошибки первого рода отвергается гипотеза 0 H и принимается альтернативная гипотеза 1 H , т.е. наблюдение i y является ано- мальным. Предельное значение пр I зависит от количества наблю- дений n и для некоторых n значения пр I приведены в табл. 1.3. Таблица 1.3 n 0,05 α = 0,01 α = 2 2,8 3,7 3 2,2 2,9 10 1,5 2,0 20 1,3 1,8 30 1,2 1,7 50 1,1 1,6 100 1,0 1,5 400 0,9 1,3 25 Обнаруженное аномальное наблюдение необходимо исключить из временного ряда и заменить расчетным значением, получен- ным с использованием соседних наблюдений. Самый простой способ замены – расчетное значение есть среднее двух соседних значений. Пример 1.3.1. В табл. 1.4 приведен индекс потребительских цен. Таблица 1.4 Дата i i y Дата i i y 4 кв. 1994 1 100 2 кв. 1996 7 105 1 кв. 1995 2 143 3 кв. 1997 8 100 2 кв. 1995 3 124 4 кв. 1997 9 104 3 кв. 1995 4 115 1 кв. 1998 10 105 4 кв. 1995 5 113 2 кв. 1998 11 103 1 кв. 1996 6 110 3 кв. 1998 12 100 Необходимо проверить данный временной ряд на наличие аномальных измерений. Решение. Введем в столбец А, начиная с ячейки А2, значения 1, 2,...,12 i = , а в столбец В – значения i y , приведенные в табл. 1.4. (рис. 1.5). График значений i y приведен на рис. 1.6. В ячейке В14 вычислим y s (см. (1.3.4)), используя функцию Excel ДИСП. После этого в столбце С запрограммируем вычис- ление значений I i , i = 1, 2, …, 12 критерия (1.3.3). Для определе- ния I пр выполним линейную интерполяцию третьей ( 10 n = ) и четвертой ( 20 n = ) строк табл. 1.4 для α = 0.05. Получаем ( ) 1.3 1.5 12 10 1.5 1.46 10 пр I − = − + = Видим, что неравенство 1.46 i пр I I > = выполняется для 2,3 i = . Следовательно, с вероятностью ошибки первого рода, равной α , можно принять гипотезу о том, что 2 y , 3 y являются аномальными наблюдениями. ☻ 26 Рис. 1.5. Определение аномальных наблюдений Рис. 1.6. Значения временного ряда 27 1.3.2. Проверка гипотез о наличии неслучайной составляющей временного ряда Проверка наличия или отсутствия неслучайной составляю- щей ( ) q τ (модель (1.1.1)) по существу состоит в проверке гипо- тезы о постоянстве среднего значения временного ряда. Поэтому сформулируем две статистические гипотезы: 0 H : ( ) ( ) i M Y const τ = ; (1.3.5) 1 H : ( ) ( ) i M Y const τ ≠ . (1.3.6) Для проверки этих гипотез используются различные критерии. Здесь мы ограничимся двумя (достаточно простыми критериями). Критерий 1. В этом критерии временной ряд разбивают на две примерно равные по числу значений части, каждая из кото- рых рассматривается как некоторая самостоятельная выборочная совокупность, имеющая нормальное распределение. Если вре- менной ряд имеет тенденцию к тренду, то средние, вычисленные для каждой совокупности, должны существенно (значимо) раз- личаться между собой. Если же расхождение незначительно, не- существенно (случайно), то временной ряд не имеет тенденции. Таким образом, проверка наличия тренда (т.е. неслучайной со- ставляющей) в исследуемом временном ряду сводится к провер- ке гипотезы о равенстве средних двух нормально распределенных совокупностей. Пусть первая часть (обозначим ее ( ) I Y ) содержит I n наблюдений ( ) i Y τ , 1,2,..., I i n = , а вторая часть – ( ) II Y содер- жит II n наблюдений ( ) i Y τ , 1,..., I I II i n n n = + + Для каждой части временного ряда вычислим (используя формулы (1.2.3)) выборочное среднее I y , II y и выборочные дис- персии 2 I s , 2 II s : 28 ( ) 2 2 1 1 1 I n I i I i I s y y n = = ⋅ − − ∑ ; ( ) 2 2 1 1 1 II I n II i II i n II s y y n = + = ⋅ − − ∑ (1.3.7) Далее рассчитаем значение критерия ( ) ( ) ( ) 2 2 2 1 1 I II I II I II S I II I I II II n n n n y y K n n n s n s ⋅ + − − = ⋅ + − + − (1.3.8) (часто называемого критерием Стьюдента). Если выполняется не- равенство ( ) 1 , 2 S I II K t n n α > − + − , (1.3.9) то гипотеза о постоянстве математического ожидания отклоняет- ся с уровнем значимости α . Напомним, что значение ( ) 1 , 2 I II t n n α − + − вычисляется с использованием следующей функции Excel: ( ) ( ) 1 , 2 СТЬЮДРАСПОБР , 2 I II I II t n n n n α α − + − = + − Для использования критерия (1.3.8) необходимо убедиться, что дисперсии обеих частей ряда одинаковы. Для этого использу- ем критерий Фишера: ( ) ( ) 2 2 2 2 max , min , I II S I II s s F s s = , (1.3.10) где 2 I s , 2 II s – оценки дисперсии, вычисленные по первой (число измерений I n ) и второй (число измерений II n ) частям временного ряда. Если не выполняется неравенство ; 1; 1 1 ; 1; 1 2 2 I II I II S n n n n F F F α α − − − − − ≤ ≤ , (1.3.11) 29 то гипотеза о постоянстве дисперсии отвергается с уровнем зна- чимости α . В этом случае критерий (1.3.8) не применим, и необ- ходимо использовать другой критерий или принять гипотезу о наличии неслучайной составляющей временного ряда, так как это составляющая может сказаться и на других характеристиках вре- менного ряда: дисперсии, коэффициенте автокорреляции и т.д. Границы критической области при проверке гипотезы о ра- венстве дисперсий вычисляются с помощью следующей функции Excel: ; 1; 1 2 FРАСПОБР 1 ; 1; 1 2 I II I II n n F n n α α − − ⎛ ⎞ = − − − ⎜ ⎟ ⎝ ⎠ . (1.3.12) Пример 1.3.2. Осуществить тестирование временного ряда, приведенного в столбце А на рис. 1.7, на наличие неслучайной составляющей. Решение. Разобьем исходный временной ряд на две части по 10 измерений в каждой. Вычислим по каждой из этих частей вы- борочные оценки (см. рис. 1.7): 30.68 I y = , 30.14 II y = , 2 10.19 I s = , 2 8.16 II s = Затем определим значения критериев (1.3.8) и (1.3.10) (см. рис. 1.7): 0.40 S K = ; 1.249 S F = . Проверим выполнение нера- венств (1.3.9) и (1.3.11). Неравенство (1.3.9) не выполняется, так как 0.40 2.101 < , а неравенство (1.3.11) выполняется – 0.248 1.249 4.026 < < Следовательно, можно сделать вывод об отсутствии неслу- чайной составляющей рассматриваемого временного ряда. ☻ 30 Рис. 1.7. Проверка гипотезы о стационарности ряда Критерий 2 (критерий серий) . Расположим члены анализи- руемого временного ряда в порядке возрастания, т.е. образуем ва- риационный ряд вида ( ) ( ) ( ) ( ) 1 2 3 n y y y y ≤ ≤ ≤ Определим выборочную медиану по формуле 1 2 1 2 2 , если не четно; 1 , если четно. 2 n med n n y n y y y n + ⎛ ⎞ ⎜ ⎟ ⎝ ⎠ ⎛ ⎞ ⎛ ⎞ + ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ ⎧ ⎪ ⎪ = ⎨ ⎛ ⎞ ⎪ ⎜ + ⎟ ⎜ ⎟ ⎪ ⎝ ⎠ ⎩ (1.3.13) 31 После этого образуем «серии» из плюсов и минусов, на статисти- ческом анализе которых основана процедура проверки гипотезы о неизменности среднего значения временного ряда. По исходному временному ряду, построим последователь- ность из плюсов и минусов следующим образом: переменной i x ставим знак «+», если i med y y > , и знак «–», если i med y y < (члены временного ряда, равные med y не учитываются). Образованная последовательность плюсов и минусов харак- теризуется общим числом серий ( ) v n и протяженностью самой длинной серии ( ) n τ . При этом под «серией» понимается после- довательность подряд идущих плюсов и подряд идущих минусов. Если исследуемый ряд состоит из статистически независимых на- блюдений, случайно варьирующих около некоторого постоянного уровня (т.е. справедлива гипотеза о неизменности среднего зна- чения временного ряда), то чередование «+» и «–» в построенной последовательности должно быть случайным, т.е. эта последова- тельность не должна содержать слишком длинных серий подряд идущих «+» и «–», и, соответственно, общее число серий не должно быть слишком малым. Так что в данном критерии целе- сообразно рассмотреть одновременно пару критических стати- стик ( ( ) v n ; ( ) n τ ). Справедлив следующий приближенный статистический кри- терий проверки гипотезы о неизменности среднего значения вре- менного ряда: если хотя бы одно из неравенств ( ) ( ) ( ) ( ) 1 int 2 1,96 1 2 int 1,43ln 1 v n n n n n τ ⎧ ⎡ ⎤ > + − − ⎪ ⎢ ⎥ ⎣ ⎦ ⎨ ⎪ ⎡ ⎤ < + ⎣ ⎦ ⎩ (1.3.14) окажется нарушенным, то гипотеза о неизменности среднего значения временного ряда отвергается с вероятностью ошибки α , такой, что 0.05 0.0975 α < < и, тем самым, подтверждается 32 наличие зависящей от времени неслучайной составляющей в мо- дели ( ) ( ) ( ) Y q τ τ ε τ = + . Функция [ ] int z означает взятие целой части числа z . 1.3.3. Проверка гипотезы о наличии неслучайной составляющей в Excel Вернемся к критерию 1 (см. п. 1.3.2), который представляет собой проверку критериев Стьюдента и Фишера. Вычисление и проверку этих критериев можно оперативно осуществить исполь- зуя соответствующие режимы пакета Анализ данных табличного процессора Excel [5, с. 137–142]. Проверку гипотезы о наличии неслучайной составляющей в Excel покажем на данных следующего примера. Пример 1.3.3. В табл. 1.5 приведена урожайность ячменя в одной из областей среднего Поволжья, ц/га. Необходимо прове- рить этот временной ряд на наличие неслучайной составляющей, используя соответствующие режимы пакета Анализ данных таб- личного процессора Excel. Таблица 1.5 Годы 1 2 3 4 5 6 7 8 Урожайность 14,1 9,3 19,4 19,7 5,4 24,2 13,8 24,5 Годы 9 10 11 12 13 14 15 Урожайность 14,7 16,6 5,6 16,2 25,3 11,9 18,5 Решение. Проверку на наличие неслучайной составляющей представим следующими шагами: Шаг 1. Введем в столбец А (начиная с ячейки А2) значения 1,...,15 i = (номера годов), а в столбец В – значения i y , 1,...,15 i = Шаг 2. Гипотезу о равенстве дисперсий проверим с помощью F-теста, для вызова которого необходимо обратиться к пункту Сервис , команде Анализ данных и в списке инструментов анализа выбрать Двухвыборочный F-тест для дисперсий (рис. 1.8). 33 Рис. 1.8. Выбор F-теста Шаг 3. Заполняем поля диалогового окна Двухвыборочный F- тест для дисперсий как показано на рис. 1.9. Результат выполнения теста приведен в таблице, показанной на рис. 1.10. Так как 2 2 I II s s > , то в качестве альтернативной принимается гипотеза 2 2 1 : I II H σ σ > (1.3.15) и в этом случае критическая область представляет собой интервал ( , пр x α , ∞ ), где точка , пр x α определяется из условия ( ) , пр P F x α α > = , (1.3.16) где α – вероятность ошибки первого рода. Из табл. рис. 1.10 на- ходим: 1.022 F = , , 3.866 пр x α = Видно, что наблюдаемое значение 1.022 F = не попадает в критическую область и принимается нулевая гипотеза 2 2 0 : I II H σ σ = (1.3.17) Шаг 4. Для проверки гипотезы о равенстве математических ожиданий в списке Инструменты анализа (см. рис. 1.8) выбираем режим Двухвыборочный t-тест с одинаковыми дисперсиями и вводим данные в соответствующие поля (см. рис. 1.11). 34 Результаты выполнения t-теста приведены в таблице, пока- занной на рис. 1.12. Рис. 1.9. Ввод данных для двухвыборочного F-теста Рис. 1.10. Результаты выполнения двухвыборочного теста 35 Рис. 1.11. Ввод данных для двухвыборочного t-теста Рис. 1.12. Результаты выполнения t-теста 36 Критическая область является объединением двух интервалов и имеет вид ( ] [ ) , 2.160 2.160, −∞ − ∪ ∞ . Видно, что наблюдаемое значение критерия, равное 0.459 − , не попадает в эту область и поэтому принимается основная гипо- теза 0 H о равенстве математических ожиданий. Принятие этих двух гипотез (о равенстве дисперсий и равенстве математических ожиданий) позволяет принять гипотезу об отсутствии трендовой составляющей в данном временном ряду. ☻ 1.3.4. Проверка гипотезы о стационарности временного ряда Для стационарности временного ряда достаточно постоянст- ва его числовых характеристик на всем интервале определения временного ряда. Наиболее часто в качестве таких характеристик берут математическое ожидание и дисперсию. Тогда ответ на во- прос стационарности дискретного временного ряда сводится к проверке следующей пары статистических гипотез: ( ) ( ) ( ) ( ) 0 1 : ; : i i H M Y const H M Y const τ τ ⎫ = ⎪ ⎬ ≠ ⎪⎭ Постоянство математического ожидания (1.3.18) ( ) ( ) ( ) ( ) 0 1 : ; : i i H D Y const H D Y const τ τ ⎫ = ⎪ ⎬ ≠ ⎪⎭ Постоянство дисперсии (1.3.19) Для проверки этих гипотез можно использовать критерий 1, описанный в п. 1.3.2. Действительно, используя критерий Фишера (1.3.10), проверяем гипотезу о постоянстве дисперсий. Если эта гипотеза принимается, то на следующем шаге проверяется гипо- теза о постоянстве математического ожидания (критерий (1.3.8)). Если принимается гипотеза о постоянстве математического ожи- дания, то принимается гипотеза о стационарности (в широком смысле) временного ряда. Очевидно, что для проверок гипотез (1.3.18), (1.3.19) можно использовать режим Анализ данных табличного процессора Excel, как это показано в п. 1.3.3. 37 ЛАБОРАТОРНАЯ РАБОТА Исходные данные. В таблице приведена урожайность гречи- хи в Новосибирской области, ц/га. Необходимо проверить этот временной ряд на наличие неслучайной составляющей, используя критерий 1 п. 1.3.2. Годы 1 2 3 4 5 6 7 8 Урожайность 14,1 11,3 19,4 19,7 8,4 21,2 16,8 24,5 Годы 9 10 11 12 13 14 15 Урожайность 19,7 22,6 19,6 23,2 25,3 21,9 22,5 Рекомендации. 1. При проверке статистической гипотезы временной ряд разбить на две части 7 I n = ; 8 II n = ( 15 I II n n n = + = ). 2. При программировании вычислений использовать пример 1.3.2. КОНТРОЛЬНАЯ РАБОТА В таблице приведены данные об урожайности озимой пше- ницы за 10 лет, ц/га. Годы i τ 1 2 3 4 5 i y 16.3+N 20.2+N 17.1+N 9.2+N 15.3+N Годы i τ 6 7 8 9 10 i y 16.7+N 19.9+N 14.4+N 18.7+N 20.7+N Примечание. N – последняя цифра в изменяющемся номере за- четной книжки. Необходимо: 1. Построить график значений временного ряда. 2. Вычислить среднее значение и дисперсию. 3. Вычислить коэффициенты автокорреляции для лагов 1,2,3 l = и построить коррелограмму. 38 4. Используя материал п. 1.2, сделать обоснованные выводы о структуре исследуемого временного ряда. 5. Выполнить исследования временного ряда на наличие аномальных наблюдений. 6. Выполнить исследования временного ряда на наличие не- случайной составляющей (используя соответствующие режимы пакета Анализ данных табличного процессора Excel). 7. Вставить в контрольную работу копии таблиц с результа- тами проверок п. 5, 6. ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ 1. Какой временной ряд называется стационарным в широ- ком смысле? 2. Какой временной ряд называется стационарным в узком смысле? 3. Что характеризует коэффициент автокорреляции ( ) l ρ ? 4. Что характеризует трендовая составляющая временного ряда? 5. Что характеризует сезонная составляющая временного ряда? 6. Что характеризует периодическая составляющая времен- ного ряда? 7. Что такое аномальное наблюдение? 8. Сущность метода Ирвина. 9. Сущность проверки гипотезы о наличии неслучайной со- ставляющей с помощью критерия 1. 39 |