Главная страница
Навигация по странице:

  • Исходные данные для анализа 433 Решение.

  • 53.3. Компонентный анализ

  • Собственные значения главных компонент

  • Матрица парных коэффициентов корреляции

  • Курс социально-экономической статистики. М. Г. НазароваРекомендовано Министерством образования Российской Федерации в качестве учебника


    Скачать 5.92 Mb.
    НазваниеМ. Г. НазароваРекомендовано Министерством образования Российской Федерации в качестве учебника
    АнкорКурс социально-экономической статистики.pdf
    Дата10.07.2018
    Размер5.92 Mb.
    Формат файлаpdf
    Имя файлаКурс социально-экономической статистики.pdf
    ТипУчебник
    #21303
    страница46 из 49
    1   ...   41   42   43   44   45   46   47   48   49
    Пример. Построение регрессионного уравнения
    Согласно данным двадцати (п = 20) сельскохозяйственных районов, требуется построить регрессионную модель урожайности на основе следующих показателей:
    у — урожайность зерновых культур (ц/га);
    x
    1
    — число колесных тракторов (приведенной мощности) на 100 га;
    х
    2
    число зерноуборочных комбайнов на 100 га;
    х
    3
    число орудий поверхностной обработки почвы на 100га;
    x
    4
    — количество удобрений, расходуемых на гектар;
    х
    5
    количество химических средств оздоровления растений, расходуемых на гектар.
    Исходные данные для анализа приведены в табл. 53.1.
    Таблица 53.1
    Исходные данные для анализа

    433
    Решение. С целью предварительного анализа взаимосвязи показателей построена матрица R — таблица парных коэффициентов корреляции.
    Анализ матрицы парных коэффициентов корреляции показывает, что результативный признак наиболее тесно связан с показателем х
    4
    количеством удобрений, расходуемых на гектар (r
    yx4
    = 0,58).
    В то же время связь между аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (x
    1
    ) и числом орудий поверхностной обработки почвы x
    3
    (r
    x1x3
    ) = 0,98.
    О наличии мультиколлинеарности свидетельствуют также коэффициенты корреляции r
    x1x2
    = 0,85 и r
    x3x2
    = 0,88.
    Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим рассчитанное на ЭВМ регрессионное уравнение урожайности, включив в него все исходные показатели:
    y
    = 3,515 – 0,006x
    1
    + 15,542x
    2
    + 110x
    3
    + 4,475х
    4
    - 2,932x
    5.
    (53.22)
    (-0,01) (0,72) (0,13) (2,90) (-0,95)
    В скобках указаны t
    набл

    j
    ) = t
    j
    — расчетные значения t-критерия для проверки гипотезы о значимости коэффициента регрессии Н
    0
    : β
    j
    = 0, j = 1, 2, 3, 4, 5. Критическое значение t
    кр
    = 1,76 найдено по таблице t- распределения при уровне значимости α = 0,1 и числестепеней свободы v = 14.Из уравнения следует, что статистически значимым является коэффициент регрессии только при х
    4
    , так как |t
    4
    | = 2,90 > t
    кр
    = 1,76. Не поддаются экономической интерпретации отрицательные значения коэффициентов регрессии при х
    1
    и x
    5
    , из чего следует, что повышение насыщенности сельского хозяйства колесными тракторами
    1
    ) и средствами оздоровления растений (x
    5
    ) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии неприемлемо.
    После реализации алгоритма пошагового регрессионного анализа с исключением переменных и учетом того, что в уравнение должна войти только одна из трех тесно связанных переменных (x
    1
    , х
    2
    или x
    3
    ), получаем окончательное уравнение регрессии
    y
    = 7,342 + 0,345x
    1
    + 3,294x
    4
    . (53.23)
    (11,12) (2,09) (3,02)
    Уравнение значимо при α = 0,05, так как F
    набл
    = 266 > F
    кр
    = 3,20, найденного по таблице F-распределения при
    α = 0,05, v
    1
    = 3 и v
    2
    = 17. Значимы и коэффициенты регрессии β
    1
    и β
    4
    , так как |t
    j
    | > t
    кр
    = 2,11 (при α = 0,05, v = 17).
    Коэффициент регрессии β
    1
    следует признать значимым (β
    1
    ≠ 0) из экономических соображений; при этом t
    1
    = 2,09 лишь незначительно меньше t
    кр
    = 2,11. В случае если α = 0,1, t
    кр
    = 1,74 и коэффициент регрессии β
    1
    статистически значим.

    434
    Из уравнения регрессии следует, что увеличение на единицу числа тракторов на 100 га пашни приводит к росту урожайности зерновых в среднемна0,345 ц/га (b
    1
    = 0,345).
    Коэффициенты эластичности Э
    1
    = 0,068 и Э
    4
    = 0,161 (Э
    j
    =
    y
    x
    b
    j
    j
    ) показывают, что при увеличении показателей x
    1
    и х
    4
    на 1% урожайность зерновых повышается соответственно на 0,068% и 0,161%.
    Множественный коэффициент детерминации r
    2
    y
    = 0,469 свидетельствует о том, что только 46,9% вариации урожайности объясняется вошедними в модель показателями (x
    1
    и x
    4
    ), т.е. насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов
    2
    , x
    3
    , х
    5
    , погодными условиями и др.). Средняя относительная ошибка аппроксимации

    = 10,5% свидетельствует об адекватности модели, так же как и величина остаточной дисперсии s
    2
    = 1,97.
    53.3. Компонентный анализ
    Компонентный анализ предназначен для преобразования системы k исходных признаков в систему k новых показателей (главных компонент). Главные компоненты не коррелированы между собой и упорядочены по величине их дисперсий, причем первая главная компонента имеет наибольшую дисперсию, а последняя, k-я наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.
    Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются т первых компонент (т << k).
    При наличии результативного признака у может быть построено уравнение регрессии на главных компонентах.
    На основании матрицы исходных данных размерности п х k, где х
    ij
    .— значение j-го показателя у i-го наблюдения (i = 1, 2, ..., n; j = 1, 2, .... k), вычисляют средние значения показателей
    k
    x
    x
    x
    ,...,
    ,
    2 1
    а также s
    1
    , ..., s
    k
    и матрицу нормированных значений с элементами
    Рассчитывается матрица парных коэффициентов корреляции:
    (53.24) с элементами

    435
    (53.25) где j, l= 1, 2, .... k.
    На главной диагонали матрицы R, т.е. при j = l, расположены элементы
    Модель компонентного анализа имеет вид
    (53.26) где a
    iv
    — «вес», т.е. факторная нагрузка v-й главной компоненты на j-ю переменную; f
    iv
    — значение v-й главной компоненты для i-го наблюдения (объекта), где v = 1, 2, ...,k.
    В матричной форме модель (53.26) имеет вид
    (53.27) f
    iv
    — значение v-й главной компоненты для i-го наблюдения (объекта);
    a
    iv
    — значение факторной нагрузки v-й главной компоненты на j-ю переменную.
    Матрица F описывает п наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, т.е. f
    v
    =







    n
    i
    iv
    fiv
    n
    i
    iv
    f
    n
    s
    f
    n
    1 2
    2 1
    1 1
    ,
    0 1
    , a главные компоненты не коррелированы между собой. Из этого следует, что
    (53.28)
    Выражение (53.28) может быть представлено в виде

    436
    (53.29)
    С целью интерпретации элементов матрицы А рассмотрим выражение для парного коэффициента корреляции между переменной z
    j
    и, например, f
    1
    -й главной компонентой. Так как z
    о
    и f
    1
    нормированы, будем иметь с учетом (53.26):
    Принимая во внимание (53.29), окончательно получим
    Рассуждая аналогично, можно записать в общем виде
    (53.30) для всех j = 1, 2, .,., k и v = 1, 2, .... k.
    Таким образом, элемент a
    jv
    матрицы факторных нагрузок А характеризует тесноту линейной связи между исходной переменной z
    j
    и главной компонентой f
    v
    , т.е. –1 a
    jv
    +1.
    Рассмотрим теперь выражение для дисперсии нормированной переменной z
    j
    . С учетом (53.26) будем иметь где v, v'= 1, 2, ..., k.
    Учитывая (53.29), окончательно получим
    (53.31)
    По условию, переменные z
    j
    нормированы и s
    2
    о
    = 1. Таким образом, дисперсия переменной z
    j
    , согласно (53.31), представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.
    Полный вклад v-й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле
    (53.32)

    437
    Одно из основополагающих условий метода главных компонент связано с представлением корреляционной матрицы R через матрицу факторных нагрузок А. Подставив для этого (53.27) в (53.24), будем иметь
    Учитывая (53.28), окончательно получим
    (53.33)
    Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.
    Из линейной алгебры известно, что для любой симметричной матрицы R всегда существует такая ортогональная матрица U, что выполняется условие
    (53.34)
    Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения λ
    v
    > 0 для любых v =1, 2, ..., k.
    В компонентном анализе элементы матрицы Λ ранжированы: λ
    1
    ≥ λ
    2
    ... ≥λ
    v
    ... ≥ λ
    k
    ≥ 0. Как будет показано ниже, собственное значение λ
    v
    характеризует вклад v-й главной компоненты в суммарную дисперсию исходного признакового пространства.
    Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя, k-я, — наименьший.
    В ортогональной матрице U собственных векторов v-й столбец является собственным вектором, соответствующим λ
    v
    -му значению.
    Собственные значения λ
    1
    ≥ ... ≥ λ
    v
    .... ≥λ
    k
    находятся как корни характеристического уравнения
    (53.35)
    Собственный вектор V
    v
    , соответствующий собственному значению λ
    v
    корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из (53.34):
    (53.36)
    Нормированный собственный вектор U
    v
    равен

    438
    Из условия ортогональности матрицы U следует, что U
    -1
    = U
    T
    , но тогда, по определению, матрицы R и Λ подобны, так как они, согласно (53.34), удовлетворяют условию
    Так как у подобных матриц суммы диагональных элементов равны, то
    Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь
    Таким образом,
    (53.37)
    Представим матрицу факторных нагрузок А в виде
    (53.38) а v-й столбец матрицы А — как где U
    v
    — собственный вектор матрицы R, соответствующий собственному значению λ
    v
    .
    Найдем норму вектора А
    v
    :
    (53.39)
    Здесь учитывалось, что вектор U
    v
    — нормированный и U
    T
    v
    U
    v
    = 1. Таким образом,
    Сравнив полученный результат с (53.32), можно сделать вывод, что собственное значение λ
    v
    характеризует вклад v-й главной компоненты в суммарную дисперсию всех исходных признаков. Из
    (53.38) следует, что
    (53.40)
    Согласно (53.37), общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад v-й главной компоненты определяется по формуле
    %
    100

    k
    v

    Суммарный вклад т первых главных компонент определяется из выражения
    %
    100 1
    1



    m
    v
    v
    k


    439
    Обычно для анализа используют т первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%.
    Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют собой линейные функции исходных признаков. Для экономической интерпретации f
    v
    используются лишь те х
    j
    , для которых |a
    jv
    | > 0,5.
    Значения главных компонент для каждого i-го объекта (i = 1, 2, .... n) задаются матрицей F.
    Матрицу значений главных компонент можно получить из формулы откуда
    Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты не коррелированы.
    При построении уравнений регрессии следует учитывать все главные компоненты.
    Пример. Построение регрессионного уравнения
    По данным примера из § 53.2 провести компонентный анализ и построить уравнение регрессии урожайности Y на главных компонентах.
    Решение. В примере из § 53.2 пошаговая процедура регрессионного анализа позволила исключить отрицательное значение мультиколлинеарности на качество регрессионной модели за счет значительной потери информации. Из пяти исходных показателей в окончательную модель вошли только два (x
    1
    и x
    4
    ). Более рациональным в условиях мультиколлинеарности можно считать построение уравнения регрессии на главных компонентах, которые являются линейными функциями всех исходных показателей и не коррелированы между собой.
    Воспользовавшись методом главных компонент, найдем собственные значения и на их основе — вклад главных компонент в суммарную дисперсию исходных показателей x
    1
    , х
    2
    , х
    3
    , х
    4
    , х
    5
    (табл. 53.2).
    Таблица 53.2
    Собственные значения главных компонент
    Ограничимся экономической интерпретацией двух первых главных компонент, общий вклад которых в суммарную дисперсию составляет 89,0%. В матрице факторных нагрузок звездочкой указаны элементы а
    jv
    = rx
    j
    f
    v
    , учитывающиеся при интерпретации главных компонент f
    v
    , где j, v = 1, 2,
    ..., 5.
    Из матрицы факторных нагрузок А следует, что первая главная компонента наиболее тесно связана со следующими показателями: x
    1
    — число колесных тракторов на 100 га (a
    11
    = rx
    1
    f
    1
    = 0,95); х
    2
    число

    440 зерноуборочных комбайнов на 100 га (rx
    2
    f
    1
    = 0,97); х
    3
    число орудий поверхностной обработки почвы на 100 га
    (rx
    3
    f
    1
    = 0,94). В этой связи первая главная компонента — f
    1
    — интерпретирована как уровень механизации работ.
    Вторая главная компонента — f
    2
    — тесно связана с количеством удобрений
    4
    ) и химических средств оздоровления растений (x
    5
    ), расходуемых на гектар, и интерпретирована как уровень химизации растениеводства.
    Уравнение регрессии на главных компонентах строится по данным вектора значений результативного признака Y и матрицы F значений главных компонент.
    Некоррелированность главных компонент между собой и тесноту их связи с результативным признаком у показывает матрица парных коэффициентов корреляции (табл. 53.3).
    Анализ матрицы парных коэффициентов корреляции свидетельствует о том, что результативный признак у наиболее тесно связан с первой (r
    yf1
    = 0,48), третьей (r
    yf3
    = 0,37) и. второй (r
    yf2
    = 0,34) главными компонентами.
    Можно предположить, что толькоэти главные компоненты войдут в регрессионную модель у.
    Таблица 53.3
    Матрица парных коэффициентов корреляции
    Первоначально в модель у включают все главные компоненты (в скобках указаны расчетные значения t- критерия):
    (53.41)
    Качество модели характеризуют: множественный коэффициент детерминации r
    2
    y
    = 0,517, средняя относительная ошибка аппроксимации

    = 10,4%, остаточная дисперсия s
    2
    = 1,79 и F
    набл
    = 121. Ввиду того что
    F
    набл
    > F
    кр
    =2,85 при α = 0,05, v
    1
    = 6, v
    2
    = 14, уравнение регрессии значимо и хотя бы один из коэффициентов регрессии — β
    1
    , β
    2
    , β
    3
    , β
    4
    — не равен нулю.
    Если значимость уравнения регрессии (гипотеза Н
    0
    : β
    1
    = β
    2
    = β
    3
    = β
    4
    = 0проверялась при α = 0,05, то значимость коэффициентов регрессии, т.е. гипотезы H
    0
    : β
    j
    = 0 (j = 1, 2, 3, 4), следует проверять при уровне значимости, большем, чем 0,05, например при α = 0,1. Тогда при α = 0,1, v = 14 величина t
    кр
    = 1,76, и значимыми, как следует из уравнения (53.41), являются коэффициенты регрессии β
    1
    , β
    2
    , β
    3
    Учитывая, что главные компоненты не коррелированы между собой, можно сразу исключить из уравнения все незначимые коэффициенты, и уравнение примет вид
    (53.42)
    Сравнив уравнения (53.41) и (53.42), видим, что исключение незначимых главных компонент f
    4
    и f
    5
    , не отразилось на значениях коэффициентов уравнения b
    0
    = 9,52, b
    1
    = 0,93, b
    2
    = 0,66 и соответствующих t
    j
    (j = 0, 1, 2,
    3).
    Это обусловлено некоррелированностью главных компонент. Здесь интересна параллель уравнений регрессии по исходным показателям (53.22), (53.23) и главным компонентам (53.41), (53.42).
    Уравнение (53.42) значимо, поскольку F
    набл
    = 194 > F
    кр
    = 3,01, найденного при α = 0,05, v
    1
    = 4, v
    2
    = 16.
    Значимы и коэффициенты уравнения, так как t
    j
    > t
    кр
    . = 1,746, соответствующего α = 0,01, v = 16 для j = 0, 1, 2, 3.
    Коэффициент детерминации r
    2
    y
    = 0,486 свидетельствует о том, что 48,6% вариации у обусловлено влияниемтрех первых главных компонент.
    Уравнение (53.42) характеризуется средней относительной ошибкой аппроксимации

    = 9,99% и остаточной дисперсией s
    2
    = 1,91.
    Уравнение регрессии на главных компонентах (53.42) обладает несколько лучшими аппроксимирующими свойствами по сравнению с регрессионной моделью (53.23) по исходным показателям: r
    2
    )
    ( f
    y
    = 0,486 > r
    2
    )
    ( x
    y
    =

    441 0,469;
    )
    ( f

    = 9,99% <

    (х) = 10,5% и s
    2
    (f) = 1,91 < s
    2
    (x) = 1,97. Кроме того, в уравнении (53.42) главные компоненты являются линейными функциями всех исходных показателей, в то время как в уравнение (53.23) входят только две переменные (x
    1
    и х
    4
    ). В ряде случаев приходится учитывать, что модель (53.42) трудноинтерпретируема, так как в нее входит третья главная компонента f
    3
    , которая нами не интерпретирована и вклад которой в суммарную дисперсию исходных показателей (x
    1
    , ..., х
    5
    ) составляет всего 8,6%. Однако исключение f
    3
    из уравнения (53.42) значительно ухудшает аппроксимирующие свойства модели: r
    2
    )
    ( f
    y
    = 0,349;
    )
    ( f

    = 12,4% и s
    2
    (f) = 2,41. Тогда в качестве регрессионной модели урожайности целесообразно выбрать уравнение (53.23).
    1   ...   41   42   43   44   45   46   47   48   49


    написать администратору сайта