Главная страница
Навигация по странице:

  • Анализ мультиколлинеарности

  • Тестирование и устранение мультиколлинеарности

  • Модель регрессии в стандартном масштабе

  • Стандартизированные частные коэффициенты регрессии

  • Выводы

  • задачи предпринимательство. Задача 1 Имеются данные об урожайности зерновых в хозяйствах в области


    Скачать 270.77 Kb.
    НазваниеЗадача 1 Имеются данные об урожайности зерновых в хозяйствах в области
    Анкорзадачи предпринимательство
    Дата14.11.2022
    Размер270.77 Kb.
    Формат файлаdocx
    Имя файла1.docx
    ТипЗадача
    #788574
    страница3 из 3
    1   2   3

    Частные коэффициенты корреляции.
    Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и xi) при условии, что влияние на них остальных факторов (xj) устранено.
    На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.
    Частные коэффициенты корреляции вычисляются по формуле:

    где Rij - алгебраическое дополнение элемента rij матрицы R.


    Теснота связи низкая.


    Теснота связи низкая.
    Определим значимость коэффициента корреляции ryx2/x1.
    Для этого рассчитаем наблюдаемые значения t-статистики по формуле:


    Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
    Как видим, связь y и x2 при условии, что x1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x2 остается нецелесообразным.
    Определим значимость коэффициента корреляции ryx2/y.
    Для этого рассчитаем наблюдаемые значения t-статистики по формуле:


    Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
    Как видим, связь y и x2 при условии, что y войдет в модель, стала сильнее.
    При сравнении коэффициентов парной и частной корреляции видно, что из-за влияния межфакторной зависимости между xi происходит завышение оценки тесноты связи между переменными.
    Анализ мультиколлинеарности.
    1. Анализ мультиколлинеарности на основе матрицы коэффициентов корреляции.
    Если в матрице есть межфакторный коэффициент корреляции rxjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.
    В нашем случае r(x1x2) имеют |r|>0.7, что говорит о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа.
    Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |ryxi| < 0.5 исключают из модели. Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции (по шкале Чеддока): если |r|>0.3 – связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 - связь средняя; 0.7 ≤ |r| ≤ 0.9 – связь сильная; |r| > 0.9 – связь весьма сильная.
    Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
    Таким образом, связь между (y и xx1), (y и xx2) является существенной.
    Наибольшее влияние на результативный признак оказывает фактор x2(r = 0.967), значит, при построении модели он войдет в регрессионное уравнение первым.
    Более объективную характеристику тесноты связи дают частные коэффициенты корреляции, измеряющие влияние на результат фактора xi при неизменном уровне других факторов.
    2. Ридж-регрессия.
    Наиболее детальным показателем наличия проблем, связанных с мультиколлинеарностью, является коэффициент увеличения дисперсии, определяемый для каждой переменной как:

    где Rj2 коэффициент множественной детерминации в регрессии Xj на прочие X.
    О мультиколлинеарности будет свидетельствовать VIF от 4 и выше хотя бы для одного j.

    Поскольку VIF(b)1 ≥ 4, что говорит о мультиколлинеарности факторов x1, x2 и о необходимости исключения одного из них из дальнейшего анализа.
    Критерием плохой обсуловленности является высокая величина отношения λmaxmin максимального и минимального собственных чисел матрицы XTX — называемого показателем обусловленности. Это соотношение также позволяет судить о степени серьезности проблем мультиколлинеарности: показатель обусловленности в пределах от 10 до 100 свидетельствует об умеренной коллинеарности, свыше 1000 — об очень серьезной коллинеарности.
    Тестирование и устранение мультиколлинеарности.
    Коллинеарность – зависимость между факторами. В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:
    r(xjy) > r(xkxj) ; r(xky) > r(xkxj).
    Если одно из неравенств не соблюдается, то исключается тот параметр xk или xj, связь которого с результативным показателем Y оказывается наименее тесной.
    Для отбора наиболее значимых факторов xi учитываются следующие условия:
    - связь между результативным признаком и факторным должна быть выше межфакторной связи;
    - связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции rxjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;
    - при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.
    Наиболее полным алгоритмом исследования мультиколлинеарности является алгоритм Фаррара-Глобера. С его помощью тестируют три вида мультиколлинеарности:
    1. Всех факторов (χ2 - хи-квадрат).
    2. Каждого фактора с остальными (критерий Фишера).
    3. Каждой пары факторов (критерий Стьюдента).

    1. Проверим переменные на мультиколлинеарность методом Фаррара-Глоубера по первому виду статистических критериев (критерий "хи-квадрат").
    Формула для расчета значения статистики Фаррара-Глоубера:
    χ2 = -[n-1-(2m+5)/6]ln(det[R]) = -[9-1-(2*2+5)/6]ln(0.000161) = 56.75
    где m = 2 - количество факторов, n = 9 - количество наблюдений, det[R] - определитель матрицы парных коэффициентов корреляции R.
    Сравниваем его с табличным значением при v = m/2(m-1) = 1 степенях свободы и уровне значимости α. Если χ2 > χтабл2, то в векторе факторов присутствует мультиколлинеарность.
    χтабл2(1;0.05) = 3.84146

    2. Проверим переменные на мультиколлинеарность по второму виду статистических критериев (критерий Фишера).
    Определяем обратную матрицу D = R-1:

    D =

    15,4193

    1,2131

    -16,1224

    1,2131

    401,6798

    -402,3524

    -16,1224

    -402,3524

    418,4418














    Вычисляем F-критерии Фишера:

    где dkk - диагональные элементы матрицы.
    Рассчитанные значения критериев сравниваются с табличными при v1=n-m и v2=m-1 степенях свободы и уровне значимости α. Если Fk > FТабл, то k-я переменная мультиколлинеарна с другими.
    v1=9-2 = 8; v2=2-1 = 2. FТабл(8;2) = 19.4

    Поскольку F1 > Fтабл, то переменная y мультиколлинеарна с другими.

    Поскольку F2 > Fтабл, то переменная x1 мультиколлинеарна с другими.

    Поскольку F3 > Fтабл, то переменная x2 мультиколлинеарна с другими.

    3. Проверим переменные на мультиколлинеарность по третьему виду статистических критериев (критерий Стьюдента). Для этого найдем частные коэффициенты корреляции.
    Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x1, x2.
    Модель регрессии в стандартном масштабе.
    Модель регрессии в стандартном масштабе предполагает, что все значения исследуемых признаков переводятся в стандарты (стандартизованные значения) по формулам:

    где хji - значение переменной хji в i-ом наблюдении.

    Таким образом, начало отсчета каждой стандартизованной переменной совмещается с ее средним значением, а в качестве единицы изменения принимается ее среднее квадратическое отклонение S.
    Если связь между переменными в естественном масштабе линейная, то изменение начала отсчета и единицы измерения этого свойства не нарушат, так что и стандартизованные переменные будут связаны линейным соотношением:
    ty = ∑βjtxj
    Для оценки β-коэффициентов применим МНК. При этом система нормальных уравнений будет иметь вид:
    rx1y1+rx1x2•β2 + ... + rx1xm•βm
    rx2y=rx2x1•β1 + β2 + ... + rx2xm•βm
    ...
    rxmy=rxmx1•β1 + rxmx2•β2 + ... + βm
    Для наших данных (берем из матрицы парных коэффициентов корреляции):
    0.966 = β1 + 0.999β2
    0.967 = 0.999β1 + β2
    Данную систему линейных уравнений решаем методом Гаусса: β1 = -0.0787; β2 = 1.046;
    Искомое уравнение в стандартизованном масштабе: ty1tx12tx2
    Расчет β-коэффициентов можно выполнить и по формулам:


    Стандартизированная форма уравнения регрессии имеет вид:
    ty = -0.0787x1 + 1.046x2
    Найденные из данной системы β–коэффициенты позволяют определить значения коэффициентов в регрессии в естественном масштабе по формулам:


    a = y - ∑bj·xj


    Стандартизированные частные коэффициенты регрессии.
    Стандартизированные частные коэффициенты регрессии - β-коэффициенты (βj) показывают, на какую часть своего среднего квадратического отклонения S(у) изменится признак-результат y с изменением соответствующего фактора хj на величину своего среднего квадратического отклонения (Sхj) при неизменном влиянии прочих факторов (входящих в уравнение).
    По максимальному βj можно судить, какой фактор сильнее влияет на результат Y.
    По коэффициентам эластичности и β-коэффициентам могут быть сделаны противоположные выводы. Причины этого: а) вариация одного фактора очень велика; б) разнонаправленное воздействие факторов на результат.
    Коэффициент βj может также интерпретироваться как показатель прямого (непосредственного) влияния j-ого фактора (xj) на результат (y). Во множественной регрессии j-ый фактор оказывает не только прямое, но и косвенное (опосредованное) влияние на результат (т.е. влияние через другие факторы модели).
    Косвенное влияние измеряется величиной: ∑βirxj,xi, где m - число факторов в модели. Полное влияние j-ого фактора на результат равное сумме прямого и косвенного влияний измеряет коэффициент линейной парной корреляции данного фактора и результата - rxj,y.
    Так для нашего примера непосредственное влияние фактора x1 на результат Y в уравнении регрессии измеряется βj и составляет -0.0787; косвенное (опосредованное) влияние данного фактора на результат определяется как:
    rx1x2β2 = 0.999 * 1.046 = 1.0443
    Выводы.
    В результате расчетов было получено уравнение множественной регрессии: Y = -3.5036-0.01219X1 + 0.1147X2. Возможна экономическая интерпретация параметров модели: увеличение X1 на 1 ед.изм. приводит к уменьшению Y в среднем на 0.0122 ед.изм.; увеличение X2 на 1 ед.изм. приводит к увеличению Y в среднем на 0.115 ед.изм. По максимальному коэффициенту β2=1.046 делаем вывод, что наибольшее влияние на результат Y оказывает фактор X2.
    1   2   3


    написать администратору сайта