Курс социально-экономической статистики. М. Г. НазароваРекомендовано Министерством образования Российской Федерации в качестве учебника
Скачать 5.92 Mb.
|
Пример. Построение регрессионного уравнения Согласно данным двадцати (п = 20) сельскохозяйственных районов, требуется построить регрессионную модель урожайности на основе следующих показателей: у — урожайность зерновых культур (ц/га); x 1 — число колесных тракторов (приведенной мощности) на 100 га; х 2 — число зерноуборочных комбайнов на 100 га; х 3 — число орудий поверхностной обработки почвы на 100га; x 4 — количество удобрений, расходуемых на гектар; х 5 — количество химических средств оздоровления растений, расходуемых на гектар. Исходные данные для анализа приведены в табл. 53.1. Таблица 53.1 Исходные данные для анализа 433 Решение. С целью предварительного анализа взаимосвязи показателей построена матрица R — таблица парных коэффициентов корреляции. Анализ матрицы парных коэффициентов корреляции показывает, что результативный признак наиболее тесно связан с показателем х 4 — количеством удобрений, расходуемых на гектар (r yx4 = 0,58). В то же время связь между аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (x 1 ) и числом орудий поверхностной обработки почвы x 3 (r x1x3 ) = 0,98. О наличии мультиколлинеарности свидетельствуют также коэффициенты корреляции r x1x2 = 0,85 и r x3x2 = 0,88. Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим рассчитанное на ЭВМ регрессионное уравнение урожайности, включив в него все исходные показатели: y€ = 3,515 – 0,006x 1 + 15,542x 2 + 110x 3 + 4,475х 4 - 2,932x 5. (53.22) (-0,01) (0,72) (0,13) (2,90) (-0,95) В скобках указаны t набл (β j ) = t j — расчетные значения t-критерия для проверки гипотезы о значимости коэффициента регрессии Н 0 : β j = 0, j = 1, 2, 3, 4, 5. Критическое значение t кр = 1,76 найдено по таблице t- распределения при уровне значимости α = 0,1 и числестепеней свободы v = 14.Из уравнения следует, что статистически значимым является коэффициент регрессии только при х 4 , так как |t 4 | = 2,90 > t кр = 1,76. Не поддаются экономической интерпретации отрицательные значения коэффициентов регрессии при х 1 и x 5 , из чего следует, что повышение насыщенности сельского хозяйства колесными тракторами (х 1 ) и средствами оздоровления растений (x 5 ) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии неприемлемо. После реализации алгоритма пошагового регрессионного анализа с исключением переменных и учетом того, что в уравнение должна войти только одна из трех тесно связанных переменных (x 1 , х 2 или x 3 ), получаем окончательное уравнение регрессии y€ = 7,342 + 0,345x 1 + 3,294x 4 . (53.23) (11,12) (2,09) (3,02) Уравнение значимо при α = 0,05, так как F набл = 266 > F кр = 3,20, найденного по таблице F-распределения при α = 0,05, v 1 = 3 и v 2 = 17. Значимы и коэффициенты регрессии β 1 и β 4 , так как |t j | > t кр = 2,11 (при α = 0,05, v = 17). Коэффициент регрессии β 1 следует признать значимым (β 1 ≠ 0) из экономических соображений; при этом t 1 = 2,09 лишь незначительно меньше t кр = 2,11. В случае если α = 0,1, t кр = 1,74 и коэффициент регрессии β 1 статистически значим. 434 Из уравнения регрессии следует, что увеличение на единицу числа тракторов на 100 га пашни приводит к росту урожайности зерновых в среднемна0,345 ц/га (b 1 = 0,345). Коэффициенты эластичности Э 1 = 0,068 и Э 4 = 0,161 (Э j = y x b j j ) показывают, что при увеличении показателей x 1 и х 4 на 1% урожайность зерновых повышается соответственно на 0,068% и 0,161%. Множественный коэффициент детерминации r 2 y = 0,469 свидетельствует о том, что только 46,9% вариации урожайности объясняется вошедними в модель показателями (x 1 и x 4 ), т.е. насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (х 2 , x 3 , х 5 , погодными условиями и др.). Средняя относительная ошибка аппроксимации = 10,5% свидетельствует об адекватности модели, так же как и величина остаточной дисперсии s 2 = 1,97. 53.3. Компонентный анализ Компонентный анализ предназначен для преобразования системы k исходных признаков в систему k новых показателей (главных компонент). Главные компоненты не коррелированы между собой и упорядочены по величине их дисперсий, причем первая главная компонента имеет наибольшую дисперсию, а последняя, k-я — наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин. Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются т первых компонент (т << k). При наличии результативного признака у может быть построено уравнение регрессии на главных компонентах. На основании матрицы исходных данных размерности п х k, где х ij .— значение j-го показателя у i-го наблюдения (i = 1, 2, ..., n; j = 1, 2, .... k), вычисляют средние значения показателей k x x x ,..., , 2 1 а также s 1 , ..., s k и матрицу нормированных значений с элементами Рассчитывается матрица парных коэффициентов корреляции: (53.24) с элементами 435 (53.25) где j, l= 1, 2, .... k. На главной диагонали матрицы R, т.е. при j = l, расположены элементы Модель компонентного анализа имеет вид (53.26) где a iv — «вес», т.е. факторная нагрузка v-й главной компоненты на j-ю переменную; f iv — значение v-й главной компоненты для i-го наблюдения (объекта), где v = 1, 2, ...,k. В матричной форме модель (53.26) имеет вид (53.27) f iv — значение v-й главной компоненты для i-го наблюдения (объекта); a iv — значение факторной нагрузки v-й главной компоненты на j-ю переменную. Матрица F описывает п наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, т.е. f v = n i iv fiv n i iv f n s f n 1 2 2 1 1 1 , 0 1 , a главные компоненты не коррелированы между собой. Из этого следует, что (53.28) Выражение (53.28) может быть представлено в виде 436 (53.29) С целью интерпретации элементов матрицы А рассмотрим выражение для парного коэффициента корреляции между переменной z j и, например, f 1 -й главной компонентой. Так как z о и f 1 нормированы, будем иметь с учетом (53.26): Принимая во внимание (53.29), окончательно получим Рассуждая аналогично, можно записать в общем виде (53.30) для всех j = 1, 2, .,., k и v = 1, 2, .... k. Таким образом, элемент a jv матрицы факторных нагрузок А характеризует тесноту линейной связи между исходной переменной z j и главной компонентой f v , т.е. –1 ≤ a jv ≤ +1. Рассмотрим теперь выражение для дисперсии нормированной переменной z j . С учетом (53.26) будем иметь где v, v'= 1, 2, ..., k. Учитывая (53.29), окончательно получим (53.31) По условию, переменные z j нормированы и s 2 о = 1. Таким образом, дисперсия переменной z j , согласно (53.31), представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент. Полный вклад v-й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле (53.32) 437 Одно из основополагающих условий метода главных компонент связано с представлением корреляционной матрицы R через матрицу факторных нагрузок А. Подставив для этого (53.27) в (53.24), будем иметь Учитывая (53.28), окончательно получим (53.33) Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R. Из линейной алгебры известно, что для любой симметричной матрицы R всегда существует такая ортогональная матрица U, что выполняется условие (53.34) Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения λ v > 0 для любых v =1, 2, ..., k. В компонентном анализе элементы матрицы Λ ранжированы: λ 1 ≥ λ 2 ≥ ... ≥λ v ... ≥ λ k ≥ 0. Как будет показано ниже, собственное значение λ v характеризует вклад v-й главной компоненты в суммарную дисперсию исходного признакового пространства. Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя, k-я, — наименьший. В ортогональной матрице U собственных векторов v-й столбец является собственным вектором, соответствующим λ v -му значению. Собственные значения λ 1 ≥ ... ≥ λ v .... ≥λ k находятся как корни характеристического уравнения (53.35) Собственный вектор V v , соответствующий собственному значению λ v корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из (53.34): (53.36) Нормированный собственный вектор U v равен 438 Из условия ортогональности матрицы U следует, что U -1 = U T , но тогда, по определению, матрицы R и Λ подобны, так как они, согласно (53.34), удовлетворяют условию Так как у подобных матриц суммы диагональных элементов равны, то Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь Таким образом, (53.37) Представим матрицу факторных нагрузок А в виде (53.38) а v-й столбец матрицы А — как где U v — собственный вектор матрицы R, соответствующий собственному значению λ v . Найдем норму вектора А v : (53.39) Здесь учитывалось, что вектор U v — нормированный и U T v U v = 1. Таким образом, Сравнив полученный результат с (53.32), можно сделать вывод, что собственное значение λ v характеризует вклад v-й главной компоненты в суммарную дисперсию всех исходных признаков. Из (53.38) следует, что (53.40) Согласно (53.37), общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад v-й главной компоненты определяется по формуле % 100 k v Суммарный вклад т первых главных компонент определяется из выражения % 100 1 1 m v v k 439 Обычно для анализа используют т первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%. Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют собой линейные функции исходных признаков. Для экономической интерпретации f v используются лишь те х j , для которых |a jv | > 0,5. Значения главных компонент для каждого i-го объекта (i = 1, 2, .... n) задаются матрицей F. Матрицу значений главных компонент можно получить из формулы откуда Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты не коррелированы. При построении уравнений регрессии следует учитывать все главные компоненты. Пример. Построение регрессионного уравнения По данным примера из § 53.2 провести компонентный анализ и построить уравнение регрессии урожайности Y на главных компонентах. Решение. В примере из § 53.2 пошаговая процедура регрессионного анализа позволила исключить отрицательное значение мультиколлинеарности на качество регрессионной модели за счет значительной потери информации. Из пяти исходных показателей в окончательную модель вошли только два (x 1 и x 4 ). Более рациональным в условиях мультиколлинеарности можно считать построение уравнения регрессии на главных компонентах, которые являются линейными функциями всех исходных показателей и не коррелированы между собой. Воспользовавшись методом главных компонент, найдем собственные значения и на их основе — вклад главных компонент в суммарную дисперсию исходных показателей x 1 , х 2 , х 3 , х 4 , х 5 (табл. 53.2). Таблица 53.2 Собственные значения главных компонент Ограничимся экономической интерпретацией двух первых главных компонент, общий вклад которых в суммарную дисперсию составляет 89,0%. В матрице факторных нагрузок звездочкой указаны элементы а jv = rx j f v , учитывающиеся при интерпретации главных компонент f v , где j, v = 1, 2, ..., 5. Из матрицы факторных нагрузок А следует, что первая главная компонента наиболее тесно связана со следующими показателями: x 1 — число колесных тракторов на 100 га (a 11 = rx 1 f 1 = 0,95); х 2 — число 440 зерноуборочных комбайнов на 100 га (rx 2 f 1 = 0,97); х 3 — число орудий поверхностной обработки почвы на 100 га (rx 3 f 1 = 0,94). В этой связи первая главная компонента — f 1 — интерпретирована как уровень механизации работ. Вторая главная компонента — f 2 — тесно связана с количеством удобрений (х 4 ) и химических средств оздоровления растений (x 5 ), расходуемых на гектар, и интерпретирована как уровень химизации растениеводства. Уравнение регрессии на главных компонентах строится по данным вектора значений результативного признака Y и матрицы F значений главных компонент. Некоррелированность главных компонент между собой и тесноту их связи с результативным признаком у показывает матрица парных коэффициентов корреляции (табл. 53.3). Анализ матрицы парных коэффициентов корреляции свидетельствует о том, что результативный признак у наиболее тесно связан с первой (r yf1 = 0,48), третьей (r yf3 = 0,37) и. второй (r yf2 = 0,34) главными компонентами. Можно предположить, что толькоэти главные компоненты войдут в регрессионную модель у. Таблица 53.3 Матрица парных коэффициентов корреляции Первоначально в модель у включают все главные компоненты (в скобках указаны расчетные значения t- критерия): (53.41) Качество модели характеризуют: множественный коэффициент детерминации r 2 y = 0,517, средняя относительная ошибка аппроксимации = 10,4%, остаточная дисперсия s 2 = 1,79 и F набл = 121. Ввиду того что F набл > F кр =2,85 при α = 0,05, v 1 = 6, v 2 = 14, уравнение регрессии значимо и хотя бы один из коэффициентов регрессии — β 1 , β 2 , β 3 , β 4 — не равен нулю. Если значимость уравнения регрессии (гипотеза Н 0 : β 1 = β 2 = β 3 = β 4 = 0проверялась при α = 0,05, то значимость коэффициентов регрессии, т.е. гипотезы H 0 : β j = 0 (j = 1, 2, 3, 4), следует проверять при уровне значимости, большем, чем 0,05, например при α = 0,1. Тогда при α = 0,1, v = 14 величина t кр = 1,76, и значимыми, как следует из уравнения (53.41), являются коэффициенты регрессии β 1 , β 2 , β 3 Учитывая, что главные компоненты не коррелированы между собой, можно сразу исключить из уравнения все незначимые коэффициенты, и уравнение примет вид (53.42) Сравнив уравнения (53.41) и (53.42), видим, что исключение незначимых главных компонент f 4 и f 5 , не отразилось на значениях коэффициентов уравнения b 0 = 9,52, b 1 = 0,93, b 2 = 0,66 и соответствующих t j (j = 0, 1, 2, 3). Это обусловлено некоррелированностью главных компонент. Здесь интересна параллель уравнений регрессии по исходным показателям (53.22), (53.23) и главным компонентам (53.41), (53.42). Уравнение (53.42) значимо, поскольку F набл = 194 > F кр = 3,01, найденного при α = 0,05, v 1 = 4, v 2 = 16. Значимы и коэффициенты уравнения, так как t j > t кр . = 1,746, соответствующего α = 0,01, v = 16 для j = 0, 1, 2, 3. Коэффициент детерминации r 2 y = 0,486 свидетельствует о том, что 48,6% вариации у обусловлено влияниемтрех первых главных компонент. Уравнение (53.42) характеризуется средней относительной ошибкой аппроксимации = 9,99% и остаточной дисперсией s 2 = 1,91. Уравнение регрессии на главных компонентах (53.42) обладает несколько лучшими аппроксимирующими свойствами по сравнению с регрессионной моделью (53.23) по исходным показателям: r 2 ) ( f y = 0,486 > r 2 ) ( x y = 441 0,469; ) ( f = 9,99% < (х) = 10,5% и s 2 (f) = 1,91 < s 2 (x) = 1,97. Кроме того, в уравнении (53.42) главные компоненты являются линейными функциями всех исходных показателей, в то время как в уравнение (53.23) входят только две переменные (x 1 и х 4 ). В ряде случаев приходится учитывать, что модель (53.42) трудноинтерпретируема, так как в нее входит третья главная компонента f 3 , которая нами не интерпретирована и вклад которой в суммарную дисперсию исходных показателей (x 1 , ..., х 5 ) составляет всего 8,6%. Однако исключение f 3 из уравнения (53.42) значительно ухудшает аппроксимирующие свойства модели: r 2 ) ( f y = 0,349; ) ( f = 12,4% и s 2 (f) = 2,41. Тогда в качестве регрессионной модели урожайности целесообразно выбрать уравнение (53.23). |