Главная страница
Навигация по странице:

  • 6. Дисперсионный анализ модели множественной регрессии

  • эконометрика. Линейные, нелинейные и множественные регрессии студент II курса


    Скачать 120.87 Kb.
    НазваниеЛинейные, нелинейные и множественные регрессии студент II курса
    Дата07.02.2019
    Размер120.87 Kb.
    Формат файлаdocx
    Имя файлаэконометрика.docx
    ТипЗадача
    #66726
    страница3 из 4
    1   2   3   4

    3. Критерий Дарбина-Уотсона.

    Этот критерий является наиболее известным для обнаружения автокорреляции.

    Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:


    Критические значения d1 и d2 определяются на основе специальных таблиц для требуемого уровня значимости α, числа наблюдений n = 20 и количества объясняющих переменных m=1.

    Автокорреляция отсутствует, если выполняется следующее условие:

    d1 2 2.

    Не обращаясь к таблицам, можно пользоваться приблизительным правилом и считать, что автокорреляция остатков отсутствует, если 1.5 отсутствует.

    Для более надежного вывода целесообразно обращаться к табличным значениям.

    По таблице Дарбина-Уотсона для n=20 и k=1 (уровень значимости 5%) находим: d1 = 1.20; d2 = 1.41.

    Поскольку 1.20 <1.73 и 1.41 <1.73 <4 - 1.41, то автокорреляция остатков отсутствует.
    6. На одном графике отложить исходные данные итеоретическую прямую.

    9.Проверить вычисления в MS Excel.



    Выводы.
    Изучена зависимость Y от X. На этапе спецификации была выбрана парная линейная регрессия. Оценены её параметры методом наименьших квадратов. Статистическая значимость уравнения проверена с помощью коэффициента детерминации и критерия Фишера. Установлено, что в исследуемой ситуации 80.38% общей вариабельности Y объясняется изменением X. Установлено также, что параметры модели статистически значимы. Возможна экономическая интерпретация параметров модели - увеличение X на 1 ед.изм. приводит к увеличению Y в среднем на 0.983 ед.изм. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. При x=90, Y будет находиться в пределах от 36.24 до 59.74 ед.изм. и с вероятностью 95% не выйдет за эти пределы.


    Задача 2.



    Чистый доход в млрд. долл. США,

    Численность служащих в тыс. чел.

    Рыночная капитализация компании в млрд. долл. США,

    0,9

    43

    40,9+p2 61,9

    1,7

    64,7

    40,5+p2 61,5

    0,7

    24

    38,9+p2 59,9

    1,7

    50,2

    38,5+p2 59,5

    2,6

    106

    37,3+p2 58,3

    1,3

    96,6

    26,5+p2 47,5

    4,1

    347

    37+p2 58

    1,6

    85,6

    36,8+p2 57,8

    6,9

    745

    36,3+p2 57,3

    0,4

    4,1

    35,3+p2 56,3

    1,3

    26,8

    35,3+p2 56,3

    1,9

    42,7

    35+p2 56

    1,9

    61,8

    26,2+p2 47,2

    1,4

    212

    33,1+p2 54,1

    0,4

    105

    32,7+p2 53,7


    Требуется:
    1.
    Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.

    2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.
    3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.

    4. С помощью F-критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации. p=90%

    5. С помощью t-критерия Стьюдента оценить статистическую значимость параметров чистой регрессии. α = 0,01

    6. Дисперсионный анализ модели множественной регрессии α = 0,05.

    7. Проверьте наличие мультиколлинеарности в модели, вычислив значение показателя VIF, test Фарраром и Глаубером. α = 0,01.

    Проверить вычисления в MS Excel.

    Вывод и интерпретация.

    1. Построить линейную модель множественной регрессии.Записать стандартизованное уравнение множественной регрессии. Наоснове стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влиянияна результат.
    Система трех линейных уравнений с тремя неизвестными b0, b1, b2:

    ∑yi = nb0 + b1∑x1i + b2∑x2i

    ∑x1iyi = b0∑x1i + b1∑x1i2 + b2∑x1ix2i

    ∑x2iyi = b0∑x2i + b1∑x1ix2i + b2∑x2i2

    Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу:


    Y

    X1

    X2

    X12

    X22

    X1Y

    X2Y

    X1X2

    Y2

    0.9

    43

    61.9

    1849

    3831.61

    38.7

    55.71

    2661.7

    0.81

    1.7

    64.7

    61.5

    4186.09

    3782.25

    109.99

    104.55

    3979.05

    2.89

    0.7

    24

    59.9

    576

    3588.01

    16.8

    41.93

    1437.6

    0.49

    1.7

    50.2

    59.5

    2520.04

    3540.25

    85.34

    101.15

    2986.9

    2.89

    2.6

    106

    58.3

    11236

    3398.89

    275.6

    151.58

    6179.8

    6.76

    1.3

    96.6

    47.5

    9331.56

    2256.25

    125.58

    61.75

    4588.5

    1.69

    4.1

    347

    58

    120409

    3364

    1422.7

    237.8

    20126

    16.81

    1.6

    85.6

    57.8

    7327.36

    3340.84

    136.96

    92.48

    4947.68

    2.56

    6.9

    745

    57.3

    555025

    3283.29

    5140.5

    395.37

    42688.5

    47.61

    0.4

    4.1

    56.3

    16.81

    3169.69

    1.64

    22.52

    230.83

    0.16

    1.3

    26.8

    56.3

    718.24

    3169.69

    34.84

    73.19

    1508.84

    1.69

    1.9

    42.7

    56

    1823.29

    3136

    81.13

    106.4

    2391.2

    3.61

    1.9

    61.8

    47.2

    3819.24

    2227.84

    117.42

    89.68

    2916.96

    3.61

    1.4

    212

    54.1

    44944

    2926.81

    296.8

    75.74

    11469.2

    1.96

    0.4

    105

    53.7

    11025

    2883.69

    42

    21.48

    5638.5

    0.16

    28.8

    2014.5

    845.3

    774806.63

    47899.11

    7926

    1631.33

    113751.26

    93.7

    1.92

    134.3

    56.353

    51653.775

    3193.274

    528.4

    108.755

    7583.417

    6.247

    Для наших данных система уравнений имеет вид:
    28.8 = 15 b0 + 2014.5b1 + 845.3b2

    7926 = 2014.5b0 + 774806.63b1 + 113751.26b2

    1631.33 = 845.3b0 + 113751.26b1 + 47899.11b2

    Решая систему методом Крамера, находим:

    b0 = -0.554, b1 = 0.00801, b2 = 0.0248

    Уравнение регрессии:

    Y = -0.554 + 0.00801 X1 + 0.0248 X2
    С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности, которые определяются по формуле:
    Частный коэффициент эластичности показывает, насколько процентов в среднем изменяется признак-результат у с увеличением признака-фактора хj на 1% от своего среднего уровня при фиксированном положении других факторов модели.

    Частный коэффициент эластичности |E1| <1. Следовательно, его влияние на результативный признак Y незначительно.
    Частный коэффициент эластичности |E2| <1. Следовательно, его влияние на результативный признак Y незначительно.

    Таким образом, влияние рыночной капитализации выше влияния численности служащих (Ex2> Ex1).
    2. Найти коэффициенты парной, частной и множественнойкорреляции. Проанализировать их.


    Найдем средние квадратические отклонения признаков:
    =

    =

    Парные коэффициенты корреляции.

    Для y и x1

    =

    Для y и x2

    =

    Для x1 и x2

    =
    На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.

    =
    Теснота связи сильная

    =
    Теснота связи низкая.

    =
    Теснота связи низкая. Межфакторная связь слабая.

    3. Найти скорректированный коэффициент множественнойдетерминации. Сравнить его с нескорректированным (общим)коэффициентом детерминации.
    Объективную оценку качества построенной модели дает скорректированный индекс множественной детерминации, учитывающий поправку на число степеней свободы:
    где n - число наблюдений, m – число факторов.

    Коэффициент множественной корреляции можно определить через матрицу парных коэффициентов корреляции:
    где Δr - определитель матрицы парных коэффициентов корреляции; Δr11 - определитель матрицы межфакторной корреляции.

    Коэффициент множественной корреляции
    Аналогичный результат получим при использовании других формул:

    Связь между признаком Y и факторами Xi низкая.

    Расчёт коэффициента корреляции выполним, используя известные значения линейных коэффициентов парной корреляции и β-коэффициентов.

    Коэффициент детерминации

    R2 = 0.855
    4. С помощью F-критерия Фишера оценить статистическуюнадежность уравнения регрессии и коэффициента детерминации R2. p=90%
    Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

    Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

    R2 = 0.855

    Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

    1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α.

    2. Далее определяют фактическое значение F-критерия:

    где m=2 для множественной регрессии с двумя факторами.

    3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 2 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2-1.

    4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.

    В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

    Табличное значение критерия со степенями свободы k1=2 и k2=12, Fkp = 3.89

    Поскольку фактическое значение F> Fkp, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).

    5. С помощью t-критерия Стьюдента оценить статистическуюзначимость параметров чистой регрессии.α = 0,01
    Найдем парные коэффициенты корреляции.



    Признаки x и y

    ∑xi




    ∑yi




    ∑xiyi




    Для y и x1

    2014.5

    134.3

    28.8

    1.92

    7926

    528.4

    Для y и x2

    845.3

    56.353

    28.8

    1.92

    1631.33

    108.755

    Для x1 и x2

    845.3

    56.353

    2014.5

    134.3

    113751.26

    7583.417

    Дисперсии и среднеквадратические отклонения.
    Рассчитаем наблюдаемые значения t-статистики для ryx1 по формуле:

    где m = 1 - количество факторов в уравнении регрессии.
    По таблице Стьюдента находим Tтабл

    tкрит (n-m-1; α/2) = (13;0.005) = 3.012

    Поскольку tнабл> tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим

    Рассчитаем наблюдаемые значения t-статистики для ryx2 по формуле:
    Поскольку tнабл крит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим

    6. Дисперсионный анализ модели множественной регрессии α = 0,05.
    Дисперсии и среднеквадратические отклонения.



    Признаки x и y













    Для y и x1

    33617.285

    2.56

    183.35

    1.6

    Для y и x2

    17.576

    2.56

    4.192

    1.6

    Для x1 и x2

    17.576

    33617.285

    4.192

    183.35



    7. Проверьте наличие мультиколлинеарности в модели, вычислив значение показателя VIF, testФарраром и Глаубером.α = 0,01.
    1. Анализ мультиколлинеарности на основе матрицы коэффициентов корреляции.

    Если в матрице есть межфакторный коэффициент корреляции rxjxi> 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.

    В нашем случае все парные коэффициенты корреляции |r| <0.7, что говорит об отсутствии мультиколлинеарности факторов.

    Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |ryxi| <0.5 исключают из модели. Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции (по шкале Чеддока): если |r|>0.3 – связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 - связь средняя; 0.7 ≤ |r| ≤ 0.9 – связь сильная; |r|> 0.9 – связь весьма сильная.

    Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.

    Таким образом, связь между является существенной.

    Наибольшее влияние на результативный признак оказывает фактор x1 (r = 0.9222), значит, при построении модели он войдет в регрессионное уравнение первым.

    Более объективную характеристику тесноты связи дают частные коэффициенты корреляции, измеряющие влияние на результат фактора xi при неизменном уровне других факторов.

    2. Ридж-регрессия.

    Наиболее детальным показателем наличия проблем, связанных с мультиколлинеарностью, является коэффициент увеличения дисперсии, определяемый для каждой переменной как:
    где Rj2 коэффициент множественной детерминации в регрессии Xj на прочие X.

    О мультиколлинеарности будет свидетельствовать VIF от 4 и выше хотя бы для одного j.
    Поскольку VIF(b)1 ≥ 4, что говорит о мультиколлинеарности факторов x1, x2 и о необходимости исключения одного из них из дальнейшего анализа.
    Наиболее полным алгоритмом исследования мультиколлинеарности является алгоритм Фаррара-Глобера. С его помощью тестируют три вида мультиколлинеарности:

    1. Всех факторов (χ2 - хи-квадрат).

    2. Каждого фактора с остальными (критерий Фишера).

    3. Каждой пары факторов (критерий Стьюдента).

    1. Проверим переменные на мультиколлинеарность методом Фаррара-Глобера по первому виду статистических критериев (критерий "хи-квадрат").

    Формула для расчета значения статистики Фаррара-Глобера:

    χ2 = -[n-1-(2m+5)/6] ln(det[R]) = -[15-1-(2*2+5)/6] ln (0.145) = 24.11

    где m = 2 - количество факторов, n = 15 - количество наблюдений, det[R] - определитель матрицы парных коэффициентов корреляции R.

    Сравниваем его с табличным значением при v = m/2(m-1) = 1 степенях свободы и уровне значимости α. Если χ2> χтабл2, то в векторе факторов присутствует мультиколлинеарность.

    χтабл2(1;0.01) = 6.63490

    2. Проверим переменные на мультиколлинеарность по второму виду статистических критериев (критерий Фишера).

    Определяем обратную матрицу D = R-1:
    Вычисляем F-критерии Фишера:
    где dkk - диагональные элементы матрицы.

    Рассчитанные значения критериев сравниваются с табличными при v1=n-m и v2=m-1 степенях свободы и уровне значимости α. Если Fk> Fтабл, то k-я переменная мультиколлинеарна с другими.

    v1=15-2 = 14; v2=2-1 = 2. Fтабл (14;2) = 99.43
    Поскольку F1 ≤ Fтабл, то переменная y немультиколлинеарна с другими.
    Поскольку F2 ≤ Fтабл, то переменная x1 немультиколлинеарна с другими.
    Поскольку F3 ≤ Fтабл, то переменная x2 немультиколлинеарна с другими.

    3. Проверим переменные на мультиколлинеарность по третьему виду статистических критериев (критерий Стьюдента). Для этого найдем частные коэффициенты корреляции.

    Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x1.



    1

    43

    61,9

    0,9

    1

    64,7

    61,5

    1,7

    1

    24

    59,9

    0,7

    1

    50,2

    59,5

    1,7

    1

    106

    58,3

    2,6

    1

    96,6

    47,5

    1,3

    1

    347

    58

    4,1

    1

    85,6

    57,8

    1,6

    1

    745

    57,3

    6,9

    1

    4,1

    56,3

    0,4

    1

    26,8

    56,3

    1,3

    1

    42,7

    56

    1,9

    1

    61,8

    47,2

    1,9

    1

    212

    54,1

    1,4

    1

    105

    53,7

    0,4

    Y(x)

    Y-Y(x)

    (Y-Ycp)^2

    Ai

    (ei-ei1)^2

    1,323557

    -0,42356

    1,0404

    0,470619

     

    1,48805

    0,21195

    0,0484

    0,124676

    0,403869

    1,121355

    -0,42136

    1,4884

    0,601936

    0,401075

    1,322013

    0,377987

    0,0484

    0,222345

    0,638948

    1,740751

    0,859249

    0,4624

    0,33048

    0,231613

    1,39787

    -0,09787

    0,3844

    0,075285

    0,916078

    3,670145

    0,429855

    4,7524

    0,104843

    0,278494

    1,564428

    0,035572

    0,1024

    0,022233

    0,155459

    6,851384

    0,048616

    24,8004

    0,007046

    0,00017

    0,872315

    -0,47231

    2,3104

    1,180787

    0,271369

    1,054745

    0,245255

    0,3844

    0,188657

    0,514906

    1,175101

    0,724899

    0,0004

    0,381526

    0,230058

    1,110771

    0,789229

    0,0004

    0,415384

    0,004138

    2,488666

    -1,08867

    0,2704

    0,777619

    3,526491

    1,618849

    -1,21885

    2,3104

    3,047122

    0,016948

     

    8,18E-13

    38,404

    7,950558

    7,589617




    Умножаем матрицы, (XT*X)




    15

    2014,5

    2014,5

    774806,63

    845,3

    113751,26

    Умножаем матрицы, (XT*Y)




    28,8




    7926




    1631,33




    Вектор оценок коэффициентов регрессии




    -0,554250616




    0,008036598




    0,024753379




    Матрица (XTX)^-1




    12,12693702

    -0,00016997

    -0,000169974

    1,98388E-06

    -0,213606581

    -1,7117E-06

    se^2

    5,583407896

    s^2

    0,465283991

    s

    0,682117286

    k(x)




    5,642469658

    -7,9086E-05

    -7,90861E-05

    9,23067E-07

    -0,099387723

    -7,9644E-07

    sb0

    2,375388317

    sb1

    0,000960764

    sb2

    0,04201846

    R2

    0,854613897

    Количество переменных m

    2

    Степеней свободы k

    12

    F

    35,26941901

    Fkp

    6,92660814

    t-статистика. Критерий Стьюдента

    3,054539589

    Частные коэффициенты эластичности




    E1

    0,562143319

    E2

    0,726528877

    1   2   3   4


    написать администратору сайта