Главная страница
Навигация по странице:

  • 7. МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

  • Гефан Г.Д. Эконометрика, 2005. Учебное пособие для студентов специальностей Бухгалтерский учёт, анализ и аудит


    Скачать 0.9 Mb.
    НазваниеУчебное пособие для студентов специальностей Бухгалтерский учёт, анализ и аудит
    Дата04.06.2020
    Размер0.9 Mb.
    Формат файлаpdf
    Имя файлаГефан Г.Д. Эконометрика, 2005.pdf
    ТипУчебное пособие
    #128060
    страница4 из 10
    1   2   3   4   5   6   7   8   9   10
    Пример 11. На основе данных примера 10 проверим значимость ко- эффициента регрессии a при

    = 0.05. Основная гипотеза имеет вид
    0
    :
    0

    a
    H
    при конкурирующей гипотезе
    0
    :
    1

    a
    H
    . Ранее было получе- но:
    011 0
    ,
    12 0
    *


    a
    s
    a
    Следовательно, наблюдаемое значение критерия
    18 3
    )
    3
    ,
    05 0
    (
    2 011 0
    12 0




    cr
    a
    t
    t
    T
    (Критическая точка найдена по приложению 1.) Основная гипотеза отвер- гается. Влияние числа зарегистрированных автомобилей на число дорож- но-транспортных происшествий значимо.
    6.4. Как анализировать вариацию по уравнению регрессии?
    Зададимся вопросом: какую часть вариации признака Y описывает регрессия по X ? По сути, это вопрос о качестве регрессии. Для ответа на него применяется метод дисперсионного анализа, в котором полная вариа- ция признака «разбивается на части», соответствующие различным причи- нам (объясняемым и случайным).
    Общая дисперсия значений Y относительно выборочной средней арифметической
    y равна

    25
    ).
    (
    )
    (
    2
    )
    (
    1
    )
    (
    1
    )
    (
    1
    )
    (
    1 2
    2 2
    2
    y
    y
    y
    y
    n
    y
    y
    n
    y
    y
    n
    y
    y
    y
    y
    n
    y
    y
    n
    D
    x
    x
    i
    x
    x
    i
    x
    x
    i
    i



















    Рассмотрим последнее из трёх слагаемых.


    0
    )
    (
    1
    )
    )(
    (
    1
    )
    (
    )
    (
    )
    (
    )
    )(
    (
    1 2
    2
    *
    2
    *
    *
    *
    *
    *








































    x
    x
    xy
    xy
    i
    i
    i
    i
    i
    i
    i
    x
    x
    x
    i
    a
    x
    x
    n
    a
    x
    x
    y
    y
    n
    a
    x
    x
    x
    x
    a
    y
    y
    n
    a
    x
    x
    a
    y
    y
    y
    y
    y
    y
    n




    Здесь






    y
    x
    xy
    x
    x
    y
    y
    n
    i
    i
    xy
    )
    )(
    (
    1

    – оценка ковариации. Таким об- разом, в формуле для общей дисперсии остаётся два слагаемых, из кото- рых первое описывает рассеивание наблюдаемых значений Y относительно линии регрессии, а второе – вариацию Y, объясняемую вариацией X (ана- лог межгрупповой дисперсии).
    Домножив эту формулу на n, получим
    2 2
    2
    r
    e
    S
    S
    S


    , где



    2 2
    )
    (
    y
    y
    S
    i
    – полная сумма квадратов;



    2 2
    )
    (
    y
    y
    S
    x
    r
    – сумма квадратов, объясняемая регрессией;



    2 2
    )
    (
    x
    i
    e
    y
    y
    S
    – остаточная сумма квадратов.
    Коэффициентом детерминации регрессионной модели называется величина
    2 2
    2
    S
    S
    r
    r

    В силу определения,
    1 0
    2

    r
    . Идеальный случай
    1 2

    r
    означает, что результаты всех наблюдений лежат на линии регрессии, а все ос- татки регрессии равны нулю. Чем выше r
    2
    , тем выше качество рег- рессии. Коэффициент детерминации равен квадрату коэффициента линейной корреляции (
    2 2
    xy
    r
    r
    ).

    26 6.5. Как связаны между собой коэффициент детерминации
    и коэффициент линейной корреляции?
    Легко видеть, что
    2 2
    2 2
    *
    2 2
    2
    *
    2 2
    2
    )
    (
    )
    (
    )
    (
    )
    (
    )
    (
    )
    (
    xy
    y
    x
    i
    i
    i
    x
    r
    a
    y
    y
    x
    x
    a
    y
    y
    y
    y
    r














    , т.е. коэффициент детерминации равен квадрату коэффициента корреляции.
    Замечание. Коэффициент детерминации может использоваться не только в модели линейной регрессии. Однако в нелинейных моделях коэф- фициент линейной корреляции
    xy
    r
    утрачивает смысл. В этих случаях из- мерителем тесноты корреляции является так называемое корреляционное отношение, определяемое как корень квадратный из коэффициента детер- минации.
    6.6. Как убедиться, что регрессия является значимой?
    Даже если между Y и X отсутствует зависимость, коэффициент де- терминации, вычисленный по некоторой выборке, вряд ли окажется в точ- ности равным нулю (это может произойти только случайно). Следователь- но, при относительно небольших значениях
    2
    r (скажем, менее 0.3) возни- кает проблема: действительно ли существует регрессионная зависимость между Y и X , или отличие
    2
    r от нуля является случайным (незначимым).
    Конечно, этот вопрос достаточно тесно связан с проблемой значимости ко- эффициента регрессии a (см. п. 6.3), однако для ответа на него существует особый способ, называемый F - тестом.
    F -статистикой парной регрессии называется величина
    2 2
    2 2
    2
    :
    s
    S
    n
    S
    S
    F
    r
    e
    r



    , т.е. отношение объясняемой суммы квадратов к квадрату стандарт- ной ошибки оценки Y .
    Легко связать F -статистику с коэффициентом детерминации. Поде- лим числитель и знаменатель на полную сумму квадратов
    2
    S :
    )
    2
    (
    1
    )
    2
    (
    :
    )
    2
    (
    :
    2 2
    2 2
    2 2
    2 2
    2 2
    2
























    n
    r
    r
    n
    S
    S
    S
    S
    S
    n
    S
    S
    S
    S
    F
    r
    r
    e
    r
    Пусть имеется оценка регрессии уравнением
    *
    *
    b
    x
    a
    y
    x


    и вычислена
    F - статистика. Сформулируем правило проверки гипотезы о том, что ко- эффициент детерминации незначим, т.е. регрессия имеет нулевое качество.

    27
    При заданном уровне значимости гипотезы

    находим критическую точку распределения
    Фишера
    (см. приложение
    2).
    При
    )
    2
    ,
    1
    ,
    (


    n
    F
    F
    cr

    нет оснований отклонить основную гипотезу, иначе H
    0 отвергается. Последнее будет означать: такая величина ко- эффициента детерминации не могла появиться случайно.
    Пример 12. В течение 5 лет в городе Nсопоставлялись данные об уровне потребления алкогольных напитков (Х, усл. ед. на 1 чел.) и уровне травматизма (Y, число травмированных на 1000 жителей).
    Требуется:
     оценить линейную регрессию Y на X уравнением
    *
    *
    b
    x
    a
    y
    x


    ;
     с помощью коэффициента детерминации r
    2 выявить долю вариации
    (%), объясняемую линейной регрессией Y по X;
     с помощью F - теста проверить значимость регрессии.
    Решение.
    Удобно составить следующую таблицу:
    Итак,
    63 30 685 3


    x
    y
    x
    , S
    2
    = 524.8,

    2
    r
    S
    396.5,

    2
    e
    S
    128.3, r
    2
    =
    0.756. Это значит, что 75.6% вариации уровня травматизма объясняется вариацией уровня потребления алкогольных напитков, а остальные 24.4%
    – вариацией других факторов, не учтённых в модели.
    Значение F -статистики:

    F
    9.27. Критическая точка распределения
    Фишера:

    )
    3
    ,
    1
    ,
    05 0
    (
    cr
    F
    10.13. Т.к.
    )
    2
    ,
    1
    ,
    (


    n
    F
    F
    cr

    , регрессия оказыва- ется незначимой.
    Интерпретация полученного результата такова. Возможно, что низ- кое качество регрессии объясняется слабой связью количественных при- знаков. Однако для большей уверенности необходимо увеличить количе- ство наблюдений. Если при этом коэффициент детерминации не упадёт, то, возможно, регрессия будет признана значимой.
    i
    x
    15 13 17 18 20
    i
    y
    80 85 90 94 110
    i
    i
    x
    i
    y
    2
    i
    x
    i
    i
    y
    x
    *
    *
    b
    x
    a
    y
    i
    x


    2
    )
    (
    y
    y
    i

    2
    )
    (
    y
    y
    x

    2
    )
    (
    x
    i
    y
    y
    1 15 80 225 1200 85.90 139.24 34.76 34.86 2
    13 85 169 1105 78.53 46.24 175.98 41.81 3
    17 90 289 1530 93.27 3.24 2.17 10.72 4
    18 94 324 1692 96.96 4.84 26.61 8.76 5
    20 110 400 2200 104.33 331.24 156.97 32.16 сумма
    83 459 1407 7727

    524.80 396.50 128.30 средняя 16.6 91.8 281.4 1545.4





    28
    7. МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
    7.1. Почему модель парной регрессии часто является не-
    достаточной? Как выглядит модель множественной
    регрессии?
    Занимаясь корреляционно-регрессионным анализом, всегда прихо- дится иметь в виду, что зависимость некоторого количественного признака
    Y от какой-либо переменной X — не единственная (и, может быть, не самая существенная) причина вариации Y. Как правило, существует по крайней мере две-три переменные, влияние которых на Y является сопоставимым по важности. Мы, например, решали задачу о зависимости цены квартиры от её площади. Но за рамками рассмотрения осталось влияние других об- стоятельств: удалённость от центра города, этаж, количество комнат и т.д.
    Между тем, без всяких вычислений ясно, что роль этих факторов весьма существенна.
    Такого рода проблемы приводят к необходимости построения моде- ли множественной регрессии, когда вместо одной объясняющей перемен- ной X используется несколько переменных X
    1
    , X
    2
    , ..., X
    k
    .. При этом, как и в случае парной регрессии, нужно остерегаться ошибок в определении функциональной спецификации модели. Если мы строим, скажем, линей-
    ную модель регрессии, то нельзя включать в неё те переменные, зависи- мость от которых имеет более сложный характер. Например, зависимость цены квартиры от этажа, на котором она находится, имеет явно нелиней- ный характер (цена квартир на 1-ом и последнем этажах дома всегда не- сколько ниже, чем на средних этажах).
    Линейная модель множественной регрессии является естественным обобщением линейной модели парной регрессии.
    Предполагается, что количественный признак Y связан с объясняю- щими переменными X
    1
    , X
    2
    , ..., X
    k
    линейной зависимостью
    ),
    ...,
    ,
    1
    (
    2 2
    1 1
    n
    i
    b
    x
    a
    x
    a
    x
    a
    y
    i
    ki
    k
    i
    i
    i








    где i – номер наблюдения;
    i

    – ошибка регрессии;
    b
    a
    a
    a
    k
    ,
    ,...,
    ,
    2 1
    – неиз- вестные параметры линейной функции регрессии. Задача состоит в оценке регрессии уравнением
    *
    *
    2
    *
    2 1
    *
    1
    ,...,
    ,
    2 1
    b
    x
    a
    x
    a
    x
    a
    y
    k
    k
    x
    x
    x
    k





    Основные допущения остаются прежними (см. п. 5.1). Величины X
    1
    , X
    2
    , ...,
    X
    k
    полагаются детерминированными. Ошибка регрессии представляет со- бой нормальную случайную величину с
    2
    )
    (
    ;
    0
    )
    (





    i
    i
    D
    M
    вне зави- симости от i (гомоскедастичность). Ошибки разных наблюдений некорре- лированы:
    0
    )
    ε
    ε
    (

    j
    i
    M
    (
    j
    i
    ).

    29 7.2. Как найти оценки параметров множественной
    регрессии?
    Как и в случае парной регрессии, для нахождения оптимальных оце- нок неизвестных значений параметров необходимо воспользоваться мето- дом наименьших квадратов (см. п.4.1). Итак, требуется минимизировать функцию








    n
    i
    ki
    k
    i
    i
    i
    k
    b
    x
    a
    x
    a
    x
    a
    y
    b
    a
    a
    a
    S
    1 2
    2 2
    1 1
    2 1
    )
    (
    )
    ,
    ,...,
    ,
    (
    Запишем необходимые условия экстремума функции S (как и раньше, ин- дексацию по номеру наблюдения i опускаем):
    ,
    0
    )
    (
    2
    ,
    0
    )
    (
    2
    ,
    0
    )
    (
    2
    ,
    0
    )
    (
    2 1
    1 1
    1 2
    1 1
    2 1
    1 1
    1








































    b
    x
    a
    x
    a
    y
    b
    S
    x
    b
    x
    a
    x
    a
    y
    a
    S
    x
    b
    x
    a
    x
    a
    y
    a
    S
    x
    b
    x
    a
    x
    a
    y
    a
    S
    k
    k
    k
    k
    k
    k
    k
    k
    k
    k
    или
















































    )
    (
    )
    (
    )
    (
    ,
    )
    (
    )
    (
    )
    (
    ,
    )
    (
    )
    (
    )
    (
    ,
    )
    (
    )
    (
    )
    (
    2 2
    1 1
    2 2
    2 1
    1 2
    2 2
    2 2
    2 1
    2 1
    1 1
    1 2
    1 2
    1 2
    1
    y
    bn
    a
    x
    a
    x
    a
    x
    y
    x
    x
    b
    a
    x
    a
    x
    x
    a
    x
    x
    y
    x
    x
    b
    a
    x
    x
    a
    x
    a
    x
    x
    y
    x
    x
    b
    a
    x
    x
    a
    x
    x
    a
    x
    k
    k
    k
    k
    k
    k
    k
    k
    k
    k
    k
    k
    После деления на n получим:





























    ,
    ,
    ,
    2 2
    1 1
    2 2
    2 1
    1 2
    2 2
    2 2
    2 1
    2 1
    1 1
    1 2
    1 2
    1 2
    1
    y
    b
    a
    x
    a
    x
    a
    x
    y
    x
    b
    x
    a
    x
    a
    x
    x
    a
    x
    x
    y
    x
    b
    x
    a
    x
    x
    a
    x
    a
    x
    x
    y
    x
    b
    x
    a
    x
    x
    a
    x
    x
    a
    x
    k
    k
    k
    k
    k
    k
    k
    k
    k
    k
    k
    k

    30
    Итак, получена система k+1 линейных алгебраических уравнений с k+1 не- известными. При большом числе неизвестных обычно используют методы линейной алгебры, записывая систему в матричном виде, чего мы делать не будем. Как правило, в этих случаях система решается с помощью ком- пьютерных программ (например, “Анализ данных” в Excel). Если k неве- лико (2 или 3), то решить систему нетрудно даже вручную. Интересным представляется рассмотреть частный случай, когда в модель регрессии включены две независимые переменные:
    i
    i
    i
    i
    b
    x
    a
    x
    a
    y





    2 2
    1 1
    Система уравнений на параметры функции регрессии
    b
    a
    a
    ,
    ,
    2 1
    имеет вид
















    ,
    ,
    2 2
    1 1
    2 2
    2 2
    2 1
    2 1
    1 1
    2 1
    2 1
    2 1
    y
    b
    a
    x
    a
    x
    y
    x
    b
    x
    a
    x
    a
    x
    x
    y
    x
    b
    x
    a
    x
    x
    a
    x
    Исключим из системы неизвестную b:


























    )
    (
    ,
    )
    (
    ;
    2 2
    2 2
    2 2
    2 1
    2 1
    2 1
    1 1
    2 2
    1 2
    1 1
    2 1
    2 1
    2 2
    1 1
    y
    x
    y
    x
    a
    x
    x
    a
    x
    x
    x
    x
    y
    x
    y
    x
    a
    x
    x
    x
    x
    a
    x
    x
    a
    x
    a
    x
    y
    b
    Коэффициентами последней системы являются выборочные дисперсии и ковариации. Перепишем систему в виде









    ,
    2 2
    2 1
    1 2
    1 1
    2 1
    2 1
    y
    x
    x
    x
    x
    y
    x
    x
    x
    x
    a
    D
    a
    a
    a
    D




    где символ D обозначает дисперсии, а символ μ – ковариации, т.е.
    ;
    ;
    ;
    )
    (
    ;
    )
    (
    2 2
    ,
    1 1
    ,
    2 1
    2 1
    ,
    2 2
    2 2
    2 1
    2 1
    2 1
    2 1
    2 1
    y
    x
    y
    x
    y
    x
    y
    x
    x
    x
    x
    x
    x
    x
    D
    x
    x
    D
    y
    x
    y
    x
    x
    x
    x
    x













    Если только
    2 2
    1 2
    1
    x
    x
    x
    x
    D
    D


    , то система имеет единственное решение:
    2
    *
    2 1
    *
    1
    *
    2
    *
    2 2
    *
    1
    ,
    ,
    2 1
    2 1
    2 1
    1 1
    2 2
    1 2
    1 2
    1 2
    2 1
    x
    a
    x
    a
    y
    b
    D
    D
    D
    a
    D
    D
    D
    a
    x
    x
    x
    x
    x
    x
    y
    x
    x
    y
    x
    x
    x
    x
    x
    x
    x
    y
    x
    x
    y
    x


















    31 7.3. Как изменяются свойства оценок и показатели качества
    при переходе к множественной регрессии?
    Стандартная ошибка оценки Y и стандартные отклонения коэффици- ентов в случае множественной регрессии определяются формулами:
    1
    )
    (
    2
    ,...
    ,
    2 1





    m
    n
    y
    y
    s
    k
    x
    x
    x
    i
    ,
    1 1
    1 1
    2 2







    m
    n
    r
    r
    s
    j
    j
    j
    x
    x
    y
    a


    ,
    k
    j
    ,
    1

    , где
    y

    ,
    j
    x

    – среднеквадратические отклонения величин Y и X;





    2
    ,...,
    ,
    2 2
    )
    (
    )
    (
    2 1
    y
    y
    y
    y
    r
    k
    x
    x
    x
    i
    – коэффициент детерминации для уравнения множественной регрессии;
    2
    j
    x
    r
    – коэффициент детерминации для зависимости фактора
    j
    x
    от всех осталь- ных объясняющих переменных; m – число параметров при переменных x
    (в линейной регрессии совпадает с числом объясняющих переменных).
    Для оценки значимости коэффициентов, как и в случае парной рег- рессии, рассчитываются их
    t -статистики:
    j
    j
    a
    j
    a
    s
    a
    t
    /
    *

    Если
    )
    1
    ,
    (
    2



    m
    n
    t
    t
    cr
    a
    j

    , то коэффициент регрессии
    j
    a
    значим.
    F - статистика для проверки качества оценивания регрессии рассчи- тывается по формуле
    m
    r
    m
    n
    r
    ms
    S
    m
    n
    S
    m
    S
    F
    r
    e
    r
    )
    1
    (
    )
    1
    (
    1
    :
    2 2
    2 2
    2 2








    и при заданном уровне значимости гипотезы

    сравнивается с критиче- ской точкой распределения Фишера
    )
    1
    ,
    ,
    (

    m
    n
    m
    F
    cr

    В случае двух объясняющих переменных
    2

    m
    ,
    3
    )
    (
    2
    ,
    2 1




    n
    y
    y
    s
    x
    x
    i
    ,









    2 2
    ,
    2 2
    2 2
    2
    )
    (
    )
    (
    1 1
    2 1
    y
    y
    y
    y
    S
    S
    S
    S
    r
    i
    x
    x
    i
    e
    r
    ,
    2 2
    2 2
    1 2
    1
    x
    x
    x
    x
    r
    r
    r


    ,
    где последняя величина есть квадрат коэффициента корреляции
    1
    x и
    2
    x .
    Поэтому
    )
    1
    (
    )
    3
    )(
    1
    (
    )
    (
    )
    (
    2 2
    2 2
    ,
    2 1
    2 1
    2 1
    x
    x
    x
    x
    x
    i
    x
    x
    i
    x
    y
    a
    r
    n
    s
    n
    r
    y
    y
    y
    y
    s
    j
    j
    j













    ,
    2
    ,
    1

    j

    32
    1   2   3   4   5   6   7   8   9   10


    написать администратору сайта