Главная страница
Навигация по странице:

  • Рис. 2 10 15 20 25 35 45 55 65 75 X , кв.м. Y , тыс. долл. 18 5. МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ

  • Рис.3 а X Y Рис.3 б X Y Рис.3 в

  • 6. КАЧЕСТВО РЕГРЕССИИ

  • Гефан Г.Д. Эконометрика, 2005. Учебное пособие для студентов специальностей Бухгалтерский учёт, анализ и аудит


    Скачать 0.9 Mb.
    НазваниеУчебное пособие для студентов специальностей Бухгалтерский учёт, анализ и аудит
    Дата04.06.2020
    Размер0.9 Mb.
    Формат файлаpdf
    Имя файлаГефан Г.Д. Эконометрика, 2005.pdf
    ТипУчебное пособие
    #128060
    страница3 из 10
    1   2   3   4   5   6   7   8   9   10
    Пример 9. (Продолжение примера 7.) Пусть требуется дополнитель- но:
     записать уравнение линейной регрессии Y по X , построить на одном графике данные наблюдений и найденную линию регрессии;
     предсказать цену квартиры площадью 50 кв. м.
    Решение.
    Используя полученные ранее результаты, найдём:
    09 4
    255 0
    );
    8 53
    (
    255 0
    8 17
    ;
    255 0






    x
    y
    x
    y
    r
    x
    x
    xy
    x
    y


    Это означает, что с ростом площади квартиры на 1 кв. метр цена возраста- ет (в среднем) на 255 долларов. Точно такой же результат может быть по- лучен непосредственно с использованием приведённых выше формул для
    *
    a и
    *
    b . Воспользовавшись найденным уравнением регрессии, получим

    )
    50
    (
    x
    y
    16.84. Итак, цена квартиры площадью 50 кв. м составит (в сред- нем) 16840 долларов. График с данными наблюдений и найденной линией регрессии показан на рис.2.
    Рис. 2
    10 15 20 25 35 45 55 65 75
    X , кв.м.
    Y , тыс. долл.

    18
    5. МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ
    5.1. На каких предположениях строится модель
    линейной регрессии?
    Модель парной линейной регрессии имеет вид
    )
    ...,
    ,
    1
    (
    n
    i
    b
    ax
    y
    i
    i
    i





    , где
    x
    i
    – детерминированная (неслучайная) величина;
    i

    – случайная величина (ошибка регрессии), вызывающая отклоне- ние значения y
    i
    от точной линейной функции;
    a и b – неизвестные параметры линейной функции регрессии.
    Относительно ошибки регрессии
    i

    принимаются следующие допу- щения. Во-первых, считается, что эта величина имеет нормальное распре- деление, причём её математическое ожидание равно нулю, а дисперсия по- стоянна:
    2 2
    )
    (
    )
    (
    ,
    0
    )
    (







    i
    i
    i
    M
    D
    M
    Независимость дисперсии ошибки
    )
    (
    i
    D

    от номера наблюдения i на- зывается гомоскедастичностью. Противоположное свойство, т.е. за- висимость
    )
    (
    i
    D

    от i, называется гетероскедастичностью.
    Во-вторых, предполагается, что ошибки разных наблюдений некор- релированы:
    j
    i
    M
    M
    M
    M
    j
    i
    j
    i
    j
    i
    j
    i





    ,
    0
    )
    (
    )
    (
    )
    (
    )
    (
    )
    ,
    (









    Если свойство некоррелированности ошибок не выполняется, то го- ворят об автокорреляции остатков.
    Суть сформулированных требований легко понять из рис.3. На рис.3а разброс точек относительно линии регрессии приблизительно оди- наков (гомоскедастичность), а на рис.3б – явно увеличивается с ростом X
    Рис.3 а
    X
    Y
    Рис.3 б
    X
    Y
    Рис.3 в
    X
    Y

    19
    (гетероскедастичность). На рис.3в представлен случай автокорреляции ос- татков. Здесь ковариация
    0
    )
    ,
    (
    1


    i
    i



    , и ошибки регрессии в соседних точках, как правило, имеют один знак.
    5.2. Как выглядят уравнения регрессии в отклонениях
    относительно средних значений количественных при-
    знаков?
    Пусть
    y
    y
    v
    x
    x
    u
    n
    y
    y
    n
    x
    x
    i
    i
    i
    i
    i
    i








    ,
    ,
    /
    ,
    /
    . Получим уравнения регрессии в терминах отклонений
    i
    i
    v
    u , . Сложив уравнения рег- рессии
    n
    n
    n
    b
    ax
    y
    b
    ax
    y








    ,
    1 1
    1
    и разделив сумму на n, получим




    b
    x
    a
    y
    , где


    n
    i
    /


    – средняя ошибка регрессии. Вычитание полученного уравнения из i-го уравнения регрессии даёт:








    i
    i
    i
    i
    i
    au
    v
    ,
    При переходе к уравнению регрессии в отклонениях угловой коэф- фициент a не изменяется, а параметр b обращается в нуль. Линии регрессии
    au
    v
    b
    ax
    y



    и параллельны, но вторая из них прохо- дит через начало координат.
    Средние значения отклонений
    i
    i
    v
    u , равны нулю. Действительно,
    0
    )
    /
    (
    /






    x
    n
    x
    n
    u
    u
    i
    i
    . Доказательство того, что
    0

    v
    , совершенно аналогично.
    Теперь выразим выборочный коэффициент регрессии a
    *
    (МНК) че- рез отклонения
    i
    i
    v
    u , . Как мы только что убедились, угловой коэффициент линии регрессии в отклонениях – тот же самый, что и для линии регрессии
    Y по X. Поэтому в формуле
    2 2
    *
    )
    (x
    x
    y
    x
    xy
    a



    достаточно заменить x, y на u, v. Учитывая, что
    0

    v
    u
    , получим




    2 2
    *
    i
    i
    i
    u
    v
    u
    u
    uv
    a

    20
    Найдём числовые характеристики величин

    , δ
    i
    , v
    i
    . Согласно свойствам среднего арифметического,
    n
    M
    D
    M
    /
    )
    (
    )
    (
    ,
    0
    )
    (
    2 2







    Используя свойства дисперсии и условие некоррелированности ошибок регрессии, получим
    1 2
    )
    (
    2
    )
    (
    2
    )
    (
    )]
    (
    )
    (
    )
    (
    [
    2
    )
    (
    )
    (
    )
    (
    ,
    0
    )
    (
    2 2
    2 2
    2 2
    2 2
    2





















    n
    n
    n
    n
    n
    M
    n
    n
    M
    n
    D
    M
    M
    M
    D
    D
    D
    M
    i
    j
    i
    i
    i
    i
    i
    i
    i




















    Числовые характеристики отклонения v
    i
    легко получить, если вспомнить, что значения x
    i
    (а, значит, и u
    i
    ) детерминированы:
    2 1
    )
    (
    )
    (
    ,
    )
    (


    n
    n
    D
    v
    D
    au
    v
    M
    i
    i
    i
    i




    5.3. Являются ли оценки параметров регрессии a* и b*
    несмещёнными и состоятельными?
    Оценка называется несмещённой, если её математическое ожидание совпадает с оцениваемой величиной.
    Найдём математические ожидания оценок:
    )
    (
    )
    (
    )
    (
    )
    (
    ;
    )
    (
    )
    (
    *
    *
    *
    2 2
    *
    b
    x
    a
    b
    x
    a
    a
    M
    x
    y
    M
    a
    x
    y
    M
    b
    M
    a
    u
    au
    u
    u
    v
    u
    M
    a
    M
    i
    i
    i
    i
    i
    i















    Выборочные коэффициенты a
    * и b
    *
    , получаемые методом наимень- ших квадратов, являются несмещёнными оценками параметров ли- нейной регрессии.
    Согласноопределению, дисперсия состоятельной оценки должна стремиться к нулю при неограниченном возрастании числа наблюде- ний.
    Найдём дисперсию оценки a
    *
    :














































    2 2
    2 2
    2 2
    2 2
    *
    )
    (
    )
    (
    2
    )
    (
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    u
    u
    y
    D
    u
    u
    u
    y
    u
    y
    u
    D
    u
    y
    y
    u
    D
    i
    u
    i
    v
    i
    u
    D
    a
    D


    21
    Здесь были использованы равенство
    0


    i
    u
    и свойство некоррелирован- ности результатов разных наблюдений (в этом случае дисперсия суммы равна сумме дисперсий).
    Полученный результат показывает, что оценка коэффициента рег- рессии a
    *
    является состоятельной при условии, что





    2
    lim
    i
    n
    u
    Это вполне естественное условие, означающее, что при


    n
    имеется бесконечное число ненулевых отклонений u
    i
    Оценку b
    *
    представим в виде




    1 1
    2 1
    1
    )
    (
    1
    )
    (
    2 2
    2 2
    2 2
    2 2
    2 2
    2 2
    2 2
    2 2
    2 2
    2 2
    2 2
    2 2
    *
    2 2
    2
    *
    *




















































































    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    u
    n
    x
    n
    u
    n
    x
    x
    u
    x
    n
    u
    u
    x
    n
    u
    u
    x
    u
    n
    u
    x
    n
    u
    u
    x
    n
    b
    D
    u
    u
    x
    n
    y
    u
    y
    u
    x
    n
    y
    u
    y
    y
    u
    x
    n
    y
    a
    x
    y
    b





    Очевидно, оценка b
    *
    всегда состоятельна.
    Можно также показать, что оценки a
    *
    и b
    *
    имеют наименьшую дис- персию из всех линейных несмещённых оценок, то есть являются эффек-
    тивными.
    6. КАЧЕСТВО РЕГРЕССИИ
    6.1. Что такое остатки регрессии и чем они отличаются
    от ошибок регрессии?
    Пусть оценки a
    *
    и b
    * получены. Тогда прогноз значения признака Y по значению X = x
    i даётся выборочным уравнением регрессии
    *
    *
    b
    x
    a
    y
    i
    x


    Реальные результаты наблюдений, конечно, отклоняются от этой зависи- мости. Пусть в i-ом наблюдении при X = x
    i было получено значение Y = y
    i
    (i =1, ..., n).
    Величины
    *
    *
    b
    x
    a
    y
    e
    i
    i
    i



    называются остатками регрессии.
    Отличие остатков регрессии e
    i от ошибок регрессии ε
    i
    заключается в следующем. Ошибки регрессии – теоретические, ненаблюдаемые величи- ны (точные значения параметров регрессии a и b неизвестны). Остатки же

    22 представляют собой отклонения от выборочного уравнения регрессии и, значит, наблюдаемы.
    6.2.Как оценить дисперсию ошибок σ
    2
    ?
    В п.5.3 мы получили выражения для дисперсий оценок параметров регрессии D(a
    *
    ) и D(b
    *
    ). В них, однако, фигурировала дисперсия ошибок
    2

    , которая на практике обычно неизвестна. Дисперсия ошибок
    2
    )
    (



    i
    D
    представляет собой третий неизвестный параметр регрессии.
    Может ли она быть оценена по остаткам регрессии?
    Рассмотрим величину

    2
    i
    e
    для того, чтобы выяснить, можно ли ис- пользовать её для оценки
    2

    . Перейдём при записи e
    i
    к отклонениям
    i
    i
    v
    u ,
    :
    i
    i
    i
    i
    i
    u
    a
    v
    b
    x
    a
    y
    b
    u
    x
    a
    v
    y
    e
    *
    *
    *
    *
    *
    )
    (










    ;
    )
    (
    2
    )
    (
    ]
    )
    [(
    )
    (
    )
    (
    2
    *
    2 2
    *
    2
    *
    2
    *
    2
    *
    2
    C
    B
    A
    u
    a
    a
    u
    a
    a
    u
    a
    a
    u
    a
    au
    u
    a
    v
    e
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i




























    Найдём


    )
    (
    )
    (
    )
    (
    2
    C
    M
    B
    M
    A
    M
    e
    M
    i












    2 2
    2 2
    )
    (
    )
    (
    )
    (
    ]
    )
    [(
    )
    (
    2 2
    2 2
    2 2
    2 2
    2 2
    2
    *
    2 2
    2 2
    *
    2 2
    *
    2





















































    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    i
    u
    u
    u
    u
    M
    u
    D
    u
    u
    M
    B
    M
    u
    u
    a
    u
    au
    u
    u
    v
    u
    a
    u
    u
    a
    D
    u
    a
    a
    M
    u
    A
    M


    2 2
    2
    )
    1
    (
    1
    )
    (
    )
    (












    n
    n
    n
    n
    D
    M
    C
    M
    i
    i
    В итоге получаем


    2 2
    2 2
    2
    )
    2
    (
    )
    1
    (
    2











    n
    n
    e
    M
    i
    . Отсюда сле- дует, что величина
    2 2
    *
    *
    2 2
    2
    )
    (
    2
    )
    (
    2
    s
    n
    b
    x
    a
    y
    n
    y
    y
    n
    e
    i
    i
    x
    i
    i












    является несмещённой оценкой дисперсии ошибок регрессии. Теперь мы можем заменить её оценкой s
    2
    , что позволяет получить характеристики рассеивания выборочных коэффициентов регрессии.

    23
    Величину
    2
    )
    (
    2




    n
    y
    y
    s
    x
    i
    называют стандартной ошибкой оценки Y. Стандартные отклонения оценок коэффициентов регрессии связаны с s следующими форму- лами:
    x
    x
    u
    u
    n
    x
    s
    s
    u
    s
    s
    i
    i
    i
    i
    b
    i
    a








    где
    ,
    ,
    2 2
    2
    Пример 10. В течение 5 лет в городе Nсопоставлялись данные о среднегодовом числе зарегистрированных автомобилей (Х, тыс. шт.) и числе дорожно-транспортных происшествий за год (Y,тыс.):
    Требуется:
     оценить линейную регрессию Y по X уравнением
    *
    *
    b
    x
    a
    y
    x


    ;
     определить s (стандартную ошибку оценки Y), а также
    a
    s и
    b
    s (стан- дартные отклонения оценок коэффициентов регрессии).
    Решение.
    Удобно составить таблицу следующего вида:
    i
    i
    x
    i
    y
    2
    i
    x
    i
    i
    y
    x
    i
    u
    *
    *
    b
    x
    a
    y
    i
    x


    x
    i
    i
    y
    y
    e


    2
    i
    e
    2
    i
    u
    1 80 12 6400 960
    -49 12.92
    -0.92 0.85 2401 2
    95 16 9025 1520
    -34 14.72 1.28 1.63 1156 3
    120 17 14400 2040
    -9 17.72
    -0.72 0.52 81 4
    150 22 22500 3300 21 21.32 0.68 0.46 441 5
    200 27 40000 5400 71 27.32
    -0.32 0.10 5041 сумма
    645 94 92325 13220 0


    3.57 9120 средняя
    129 18.8 18465 2644





    Выборочное уравнение регрессии:
    326 3
    12 0


    x
    y
    x
    . Применяя записан- ные выше формулы, легко получить: s = 1.09, s
    a
    = 0.011, s
    b
    = 1.552.
    6.3. Как убедиться в значимости коэффициента регрессии?
    Пусть имеется точечная оценка коэффициента регрессии a
    *
    . Сфор- мулируем правило проверки гипотезы о том, что коэффициент регрессии a
    равен некоторому предполагаемому значению a
    0
    Основная гипотеза имеет вид
    0 0
    :
    a
    a
    H

    при конкурирующей гипо- тезе
    0 1
    :
    a
    a
    H

    . В качестве критерия используем величину
    x
    i
    80 95 120 150 200
    y
    i
    12 16 17 22 27

    24
    a
    s
    a
    a
    T
    0
    *


    , имеющую распределение Стьюдента с (n – 2) степенями свободы.
    При заданном уровне значимости гипотезы

    находим правую гра- ницу двусторонней критической области
    )
    2
    ,
    (
    2

    n
    t
    cr

    (см. приложе- ние 1). При
    cr
    t
    T
    2

    нет оснований отклонить основную гипотезу, иначе H
    0 отвергается.
    На практике чаще всего нет никакого априорного предположения о значении коэффициента регрессии. В этом случае имеет смысл проверить гипотезу о том, не равен ли коэффициент регрессии нулю. Её принятие бу- дет говорить, что влияние фактора X на случайную величину Y незначимо.
    Значение критерия T при
    0 0

    a
    , т.е.
    a
    a
    s
    a
    t
    *

    , называется
    t -
    статистикой коэффициента
    a .
    Если
    )
    2
    ,
    (
    2


    n
    t
    t
    cr
    a

    , то коэффициент регрессии a значим.
    1   2   3   4   5   6   7   8   9   10


    написать администратору сайта