Главная страница
Навигация по странице:

  • Год Потребление Тайланд млрд бат Эл.энергия США млрд квт-час Мир.рекорд (прыжки с шестом) см 1957

  • 1965

  • DGP : x t

  • DGP: x t

  • SM: y t

  • Эконометрика Введение в регрессионный анализ временных рядо - Носко В.П.. Эконометрика Введение в регрессионный анализ временных рядо - Но. В. П. Носко Эконометрика Введение в регрессионный анализ временных рядов


    Скачать 3.08 Mb.
    НазваниеВ. П. Носко Эконометрика Введение в регрессионный анализ временных рядов
    АнкорЭконометрика Введение в регрессионный анализ временных рядо - Носко В.П..pdf
    Дата29.05.2018
    Размер3.08 Mb.
    Формат файлаpdf
    Имя файлаЭконометрика Введение в регрессионный анализ временных рядо - Но.pdf
    ТипДокументы
    #19771
    КатегорияЭкономика. Финансы
    страница20 из 30
    1   ...   16   17   18   19   20   21   22   23   ...   30

    Глава 7. Регрессионный анализ для нестационарных
    объясняющих переменных
    7.1. Проблема ложной регрессии
    Мы начнем обсуждение с проблемы ложной (фиктивной, паразитной – spurious) регрессии.
    Обратимся в этой связи к следующему примеру, который был рассмотрен ранее в работе [Носко (2000)].
    Пример
    Рассмотрим динамику изменений в период с 1957 по 1966 годы трех совершенно различных по природе показателей: E - суммарного производства электроэнергии в
    США (в млрд квт-час), C - совокупных потребительских расходов в Тайланде (в млрд. бат) и H - мирового рекорда на конец года в прыжках в высоту с шестом среди мужчин (в см). Значения этих показателей приведены в следующей таблице:
    Год Потребление
    Тайланд
    млрд бат
    Эл.энергия США
    млрд квт-час
    Мир.рекорд
    (прыжки с шестом)
    см
    1957 34.9 716 478
    1958 35.9 724 478
    1959 37.9 797 478
    1960 41.1 844 481
    1961 43.5 881 483
    1962 46.7 946 493
    1963 48.9 1011 520
    1964 52.0 1083 528
    1965 56.1 1157 528
    1966 62.6 1249 534
    Динамика изменений показателей показана на графике:
    0 200 400 600 800 1000 1200 1400 1
    3 5
    7 9
    Мировой рекорд
    Потребление
    Тайланд
    Эл.энергия
    США

    Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
    2
    По этим данным мы можем формально, используя метод наименьших квадратов, подобрать модели линейной зависимости каждого из трех показателей от каждого из остальных показателей. Это приводит, например, к моделям
    E
    H
    R
    C
    H
    R
    = −
    +
    =
    = −
    +
    =
    26255 7 131 0 900 129 30 0 350 0 871 2
    2
    ;
    ,
    ; .
    ,
    993 0
    ,
    0498 0
    860 0
    ;
    993 0
    ,
    950 19 90 23 2
    2
    =
    +

    =
    =
    +
    =
    R
    E
    C
    R
    C
    E
    (Заметим, кстати, что произведение угловых коэффициентов двух последних прямых, соответствующих моделям линейной связи, в которых объясняемая и объясняющая переменая меняются местами, равно 19 950 0 0498 0 993

    =
    и совпадает со значением коэффициента детерминации R
    2
    в этих двух подобранных моделях.)
    Мы видим, что во всех подобранных моделях значения коэффициента детерминации весьма высоки, и это формально означает, что изменчивость “объясняющих” переменных в этих моделях составляет значительный процент от изменчивости
    “объясняемой” переменной, стоящей в левой части уравнения. Однако, вряд ли мы всерьез можем полагать, что динамика роста суммарного производства электроэнергии в США действительно объясняется динамикой роста мирового рекорда по прыжкам в высоту с шестом, несмотря на высокое значение 0.9 коэффициента детерминации в первом из четырех уравнений.
    В ситуациях, подобных последнему примеру, принято говорить о
    фиктивной
    (ложной, паразитной - spurious)
    линейной связи между соответствующими показателями. И такие ситуации часто встречаются при рассмотрении показателей, динамика изменений которых обнаруживает заметный тренд (убывание или возрастание) - именно такой характер имеют исследуемые показатели в последнем примере.
    Чтобы понять, почему это происходит, вспомним известное соотношение, связывающее коэффициент детерминации R
    2
    и квадрат выборочного коэффициента корреляции между переменными y и x :
    R
    r
    yx
    2 2
    =
    Из этого равенства вытекает, что близкие к единице значения коэффициента детерминации соответствуют близким по абсолютной величине к единице значениям коэффициента корреляции между переменными
    y
    и
    x
    . Но этот коэффициент корреляции равен
    r
    Cov y x
    Var y Var x
    yx
    =
    ( , )
    ( )
    ( )
    , где
    (
    )(
    )
    ,
    )
    ,
    (
    1 1
    1

    =



    =
    n
    i
    i
    i
    n
    x
    x
    y
    y
    x
    y
    Cov
    (
    )
    ,
    )
    (
    1 2
    1 1

    =


    =
    n
    i
    i
    n
    y
    y
    y
    Var
    (
    )
    )
    (
    1 2
    1 1

    =


    =
    n
    i
    i
    n
    x
    x
    x
    Var
    При фиксированных значениях Var x
    ( ) и Var y
    ( ) , значение
    yx
    r
    будет тем ближе к 1 , чем большим будет значение Cov y x
    ( , )
    > 0 . Последнее же обеспечивается

    Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
    3
    совпадением знаков разностей
    y
    y
    i

    и
    x
    x
    i

    для максимально возможной доли наблюдений переменных
    y
    и
    x
    , что как раз и имеет место, когда в процессе наблюдения обе переменные возрастают или обе переменные убывают по величине. (В этом случае превышение одной из переменных своего среднего значения сопровождается, как правило, и превышением второй переменной своего среднего значения. Напротив, если одна из переменных принимает значение, меньшее своего среднего, то и вторая переменная, как правило, принимает значение, меньшее своего среднего.)
    Аналогичным образом, значение
    yx
    r
    будет тем ближе к
    −1, чем меньшим будет значение Cov y x
    ( , )
    < 0 . Последнее же обеспечивается несовпадением знаков разностей
    y
    y
    i

    и
    x
    x
    i

    для максимально возможной доли наблюдений переменных
    y
    и
    x
    , что имеет место, когда в процессе наблюдения одна из переменных возрастает, а вторая убывает. (В этом случае, если одна из переменных принимает значение, меньшее своего среднего, то вторая переменная, как правило, принимает значение, большее своего среднего.)
    Из сказанного следует, что близость к единице абсолютной величины наблюдаемого значения коэффициента детерминации не обязательно означает наличие причинной связи между двумя рассматриваемыми переменными, а может являться лишь следствием тренда значений переменных.
    Пример
    Смоделируем реализации двух статистически независимых между собой последовательностей ε
    1t
    и ε
    2t
    независимых, одинаково распределенных случайных величин, имеющих стандартное нормальное распределение N(0, 1). Смоделированные реализации имеют вид
    -3
    -2
    -1 0
    1 2
    3 5
    10 15 20 25 30 35 40 45 50
    EPS_1
    -3
    -2
    -1 0
    1 2
    3 5
    10 15 20 25 30 35 40 45 50
    EPS_2
    На их основе построим реализацию линейной модели DGP
    DGP : x
    t
    = 1 + 0.2 t + ε
    1t
    ,
    y
    t
    = 2 + 0.4 t + ε
    2t
    , и рассмотрим результаты оценивания статистической модели
    SM: y
    t
    = α +β x
    t
    + ε
    t
    по смоделированной реализации.
    Графики рядов x
    t
    и y
    t
    имеют в этом случае вид

    Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
    4 0
    5 10 15 20 25 5
    10 15 20 25 30 35 40 45 50
    X
    Y
    Оба ряда имеют выраженные линейные тренды.
    Оцененная статистическая модель:
    Dependent Variable: Y
    Sample: 1 50
    Included observations: 50
    Variable
    Coefficient Std. Error t-Statistic
    Prob.
    C
    1.553866 0.685771 2.265868 0.0280
    X
    1.800255 0.102997 17.47878 0.0000
    R-squared
    0.864218 Mean dependent var
    12.22809
    Adjusted R-squared 0.861389 S.D. dependent var
    5.925326
    S.E. of regression
    2.206028 Akaike info criterion
    4.459442
    Sum squared resid
    233.5948 Schwarz criterion
    4.535923
    Log likelihood
    -109.4860 F-statistic
    305.5076
    Durbin-Watson stat
    2.150060 Prob(F-statistic)
    0.000000
    Оцененные коэффициенты статистически значимы, коэффициент детерминации высокий, проверка на адекватность не выявляет нарушений стандартных предположений классической линейной модели регрессии.
    Включим в правую часть статистической модели линейный тренд. Оценивание расширенной модели дает следующий результат:
    Dependent Variable: Y
    Variable
    Coefficient Std. Error t-Statistic
    Prob.
    C
    2.037450 0.294861 6.909879 0.0000
    T
    0.412232 0.028055 14.69394 0.0000
    X -0.054186 0.133658
    -0.405410 0.6870
    R-squared
    0.975727 Mean dependent var
    12.22809
    Adjusted R-squared 0.974694 S.D. dependent var
    5.925326
    S.E. of regression
    0.942598 Akaike info criterion
    2.777771
    Sum squared resid
    41.75908 Schwarz criterion
    2.892492
    Log likelihood
    -66.44428 F-statistic
    944.6386
    Durbin-Watson stat
    2.249075 Prob(F-statistic)
    0.000000
    Остатки проходят тесты на адекватность, так что можно обратить внимание на протокол оценивания расширенной статистической модели. В соответствии с этим протоколом, коэффициент при переменной x
    t
    статистически незначим, так что эта

    Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
    5
    переменная по-существу не проявляет себя в качестве переменной, объясняющей изменчивость значений переменной y
    t
    Исключение x
    t
    из правой части уравнения приводит к оцененной модели
    Dependent Variable: Y
    Variable
    Coefficient Std. Error t-Statistic
    Prob.
    C
    1.990020 0.268291 7.417403 0.0000
    T
    0.401493 0.009157 43.84727 0.0000
    R-squared
    0.975642 Mean dependent var
    12.22809
    Adjusted R-squared 0.975134 S.D. dependent var
    5.925326
    S.E. of regression
    0.934357 Akaike info criterion
    2.741262
    Sum squared resid
    41.90511 Schwarz criterion
    2.817743
    Log likelihood
    -66.53155 F-statistic
    1922.583
    Durbin-Watson stat
    2.249658 Prob(F-statistic)
    0.000000 которая предпочтительнее расширенной модели и по критерию Акаике и по критерию
    Шварца. Более того, по этим критериям последняя модель намного предпочтительнее исходной модели y
    t
    = α +β x
    t
    + ε
    t
    , и это связано с тем, что при оценивании исходной
    SM остаточная сумма квадратов равна 233.59 , а при оценивании последней модели остаточная сумма квадратов равна всего лишь 41.91. Это еще более убедительно подтверждает, что изменчивость переменной y
    t
    в действительности не объясняется изменчивостью переменной x
    t
    В рассмотренном примере паразитная связь между переменными была обусловлена тем, что в самой модели DGP обе переменные имеют в своем составе детерминированный линейный тренд.
    Однако ложная (паразитная) связь между переменными может возникать не только в результате наличия у этих переменных детерминированного тренда. Паразитная связь может возникать и между переменными, имеющими не детерминированный, а стохастический тренд. Приведем соответствующий пример.
    Пример
    Возьмем теперь процесс порождения данных в виде
    DGP: x
    t
    = x
    t – 1
    + ε
    1t
    ,
    y
    t
    = y
    t – 1
    + ε
    2t
    , где ε
    1t
    и ε
    2t
    – те же, что и в предыдущем примере. Это приводит к смоделированной реализации
    -20
    -15
    -10
    -5 0
    5 10 10 20 30 40 50 60 70 80 90 100
    X
    Y

    Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
    6
    Предположим, что нам доступны статистические данные, соответствующие последним
    50 наблюдениям (с 51 по 100). Оценивание по этим наблюдениям статистической модели
    SM: y
    t
    = α +β x
    t
    + ε
    t
    приводит к следующим результатам:
    Dependent Variable: Y
    Sample: 51 100
    Included observations: 50
    Variable
    Coefficient Std. Error t-Statistic
    Prob.
    C
    8.616496 0.748277 11.51512 0.0000
    X
    0.597513 0.077520 7.707873 0.0000
    R-squared
    0.553120 Mean dependent var
    3.404232
    Adjusted R-squared 0.543810 S.D. dependent var
    3.354003
    S.E. of regression
    2.265356 Akaike info criterion
    4.512519
    Sum squared resid
    246.3283 Schwarz criterion
    4.589000
    Log likelihood
    -110.8130 F-statistic
    59.41131
    Durbin-Watson stat
    0.213611 Prob(F-statistic)
    0.000000
    Несмотря на то, что в DGP ряды y
    t
    и x
    t
    порождаются независимо друг от друга и их модели не содержат детерминированного тренда, мы наблюдаем и здесь довольно высокое значение коэффициента детерминации 0.553. Конечно, это связано с тем, что на рассматриваемом периоде реализации обоих рядов имеют видимый тренд:
    -20
    -15
    -10
    -5 0
    5 10 55 60 65 70 75 80 85 90 95 100
    X
    Y
    Если, однако, обратиться ко всему периоду из 100 наблюдений, то результаты оценивания будут совсем другими:
    Dependent Variable: Y
    Sample: 1 100
    Included observations: 100
    Variable
    Coefficient Std. Error t-Statistic
    Prob.
    C
    1.490206 0.664538 2.242470 0.0272
    X
    0.055097 0.083978 0.656086 0.5133
    R-squared
    0.004373 Mean dependent var
    1.120548
    Adjusted R-squared -0.005786 S.D. dependent var
    3.513463
    S.E. of regression
    3.523613 Akaike info criterion
    5.376648
    Sum squared resid
    1216.753 Schwarz criterion
    5.428752
    Log likelihood
    -266.8324 F-statistic
    0.430449
    Durbin-Watson stat
    0.061638 Prob(F-statistic)
    0.513306

    Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
    7
    В этом случае значение коэффициента детерминации близко к нулю, а оцененный коэффициент при x
    t
    равен 0.0551 против значения 0.5975, полученного при оценивании по наблюдениям с 51 по 100. Это отражает действительное отсутствие детерминированного тренда в DGP и, в связи с этим, крайнюю нестабильность оценок коэффициента при x
    t
    , полученных на различных интервалах. Последнее сопровождается также крайне низкими значениями статистики Дарбина – Уотсона
    (0.214 на полном периоде наблюдений и 0.062 на второй половине этого интервала).
    Все указанные признаки являются характерными чертами, присущими результатам оценивания линейной модели связи между переменными, имеющими стохастический (но не детерминированный !) тренд и порождаемыми статистически независимыми моделями. Теоретическое исследование подобной ситуации показывает следующее.
    Пусть DGP: x
    t
    = x
    t – 1
    + ε
    1t
    , y
    t
    = y
    t – 1
    + ε
    2t
    , где x
    0
    = 0, y
    0
    = 0
    , а ε
    1t
    и ε
    2t

    статистически независимые между собой последовательности одинаково распределенных случайных величин, ε
    1t

    N(0, σ
    1 2
    ), ε
    2t
    N(0, σ
    2 2
    ), так что Cov(x
    t
    , y
    t
    ) =
    0. Предположим, что по T наблюдениям (x
    t
    , y
    t
    ), t = 1, 2, …, T , производится оценивание статистической модели
    SM: y
    t
    = β x
    t
    + u
    t
    , u
    t
    i.i.d. N(0, σ
    u
    2
    ), Cov(x
    t
    , u
    t
    ) = 0.
    Стандартная оценка наименьших квадратов для коэффициента β в этой гипотетической модели имеет вид












    =


    =
    =
    T
    t
    t
    T
    t
    t
    t
    T
    x
    x
    y
    1 2
    1
    ˆ
    β
    При сделанных предположениях относительно DGP ,
    T
    β
    ˆ
    не сходится по вероятности при T → ∞ ни к какой константе и имеет предельное распределение, отличное от нормального.
    С другой стороны, при выбранной спецификации SM модели, в предположениях этой модели (а не DGP !) имеем:
    Cov(x
    t
    , y
    t
    ) = Cov(x
    t
    , β x
    t
    + u
    t
    ) = β Cov(x
    t
    , x
    t
    ) = β D(x
    t
    ), т.е. оцениваемым параметром является
    β = Cov(x
    t
    , y
    t
    ) / D(x
    t
    ).
    Поскольку же в действительности (в DGP) Cov(x
    t
    , y
    t
    ) = 0, то и это значение β = 0, так что если бы гипотетическая модель (соответствующая SM) была верна, то тогда мы бы имели
    T
    β
    ˆ
    0 по вероятности.
    Далее, при T → значения t-статистики t
    β
    для проверки гипотезы H
    0
    : β = 0 неограниченно возрастают по абсолютной величине, так что использование таблиц t-
    распределения будет практически всегда приводить к отклонению этой гипотезы, т.е. к выводу о том, что между переменными x
    t
    и y
    t
    существует линейная регрессионная связь. В действительности, нетривиальное предельное распределение имеет не статистика t
    β
    , а статистика
    (
    )
    T
    /
    1
    t
    β
    , причем предельное распределение последней является нестандартным.
    Что касается статистики Дарбина – Уотсона (DW), то при T →
    DW 0 по вероятности,

    Эконометрика. Введение в регрессионный анализ временных рядов. В.П.Носко www.iet.ru www.iet.ru/mipt/2/text/curs_econometrics.htm
    8
    и это позволяет распознавать неправильную спецификацию статистической модели в форме паразитной регрессии. Последнее обстоятельство проявляется в поведении остатков от оцененной статистической модели, которое не соответствует поведению стационарного процесса.
    Пример
    В предыдущем примере мы имели
    1   ...   16   17   18   19   20   21   22   23   ...   30


    написать администратору сайта