66 Молчанова Статистика УМК без титула (1). I. Теория статистики
Скачать 1.56 Mb.
|
шаговая регрессия (шаговый регрессионный анализ). Сущность метода шаговой регрессии заключается в последовательном включении 176 факторов в уравнение регрессии и последующей проверке их значимости. Факторы поочередно вводятся в уравнение так называемым «прямым методом». При проверке значимости введенного фактора определяется на сколько уменьшается сумма квадратов остатков и увеличивается величина множественного коэффициента корреляции ( R 2 ). Одновременно используется и обратный метод, то есть исключение факторов, ставших незначимыми. Фактор является незначимым, если его включение в уравнение регрессии только изменяет значения коэффициентов регрессии, не уменьшая суммы квадратов остатков и не увеличивая их значения. Если при включении в модель соответствующего факторного признака величина множественного коэффициента корреляции увеличивается, а коэффициента регрессии не изменяется (или меняется несущественно), то данный признак существенен и его включение в уравнение регрессии необходимо. В противном случае, фактор нецелесообразно включать в модель регрессии. При построении модели регрессии возможна проблема мультиколлинеарности, под которой понимается тесная зависимость между факторными признаками, включенными в модель ( ij x r > 0,8). Наличие мультиколлинеарности между признаками приводит к: искажению величины параметров модели, которые имеют тенденцию к завышению, чем осложняется процесс определения наиболее существенных факторных признаков; изменению смысла экономической интерпретации коэффициентов регрессии. В качестве причин возникновения мультиколлинеарности между признаками, можно выделить следующие: изучаемые факторные признаки являются характеристикой одной и той же стороны явления или процесса. Например: показатели объема производимой продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется, так как они оба характеризуют размер предприятия; факторные признаки являются составляющими элементами друг друга; факторные признаки по экономическому смыслу дублируют друг друга. Устранение мультиколлинеарности может реализовываться через исключение из корреляционной модели одного или нескольких линейно- связанных факторных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы. 177 Вопрос о том, какой из факторов следует отбросить, решается на основании качественного и логического анализа изучаемого явления. Качество уравнения регрессии зависит от степени достоверности и надежности исходных данных и объема совокупности. Исследователь должен стремиться к увеличению числа наблюдений, так как большой объем наблюдений является одной из предпосылок построения адекватных статистических моделей. Аналитическая форма связи результативного признака от ряда факторных выражается и называется многофакторным (множественным) уравнением регрессии или моделью связи. Линейное уравнение множественной регрессии имеет вид: k k k x a x a x a a y + + + + = 2 2 1 1 0 , , 2 , 1 (1.9.7) где k y ,..., 3 , 2 , 1 - теоретические значения результативного признака, полученные в результате подстановки соответствующих значений факторных признаков в уравнение регрессии; k х х х ,..., , 2 1 - факторные признаки; k а а а ,..., , 2 1 - параметры модели (коэффициенты регрессии). Параметры уравнения могут быть определены графическим методом, методом наименьших квадратов и так далее. 1.9.4 Собственно-корреляционные параметрические методы изучения связи Измерение тесноты и направления связи является важной задачей изучения и количественного измерения взаимосвязи социально- экономических явлений. Оценка тесноты связи между признаками предполагает определение меры соответствия вариации результативного признака от одного (при изучении парных зависимостей) или нескольких (множественных) факторных. Линейный коэффициент корреляции характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. 178 В теории разработаны и на практике применяются различные модификации формулы расчета данного коэффициента: y x xy y x xy r σ σ × ⋅ − = (1.9.8) Производя расчет по итоговым значениям исходных переменных, линейный коэффициент корреляции можно вычислить по формуле: ( ) [ ] ( ) [ ] ∑ ∑ − ⋅ ∑ ∑ − ∑ ∑ ∑ ⋅ − ⋅ = 2 2 2 2 y y n x x n y x xy n xy r (1.9.9) Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость, выражаемая формулой: y x i i a r σ σ = (1.9.10) где a i - коэффициент регрессии в уравнении связи; i x σ - среднеквадратическое отклонение соответствующего, статистически существенного, факторного признака. Линейный коэффициент корреляции изменяется в пределах от -1 до 1: 1 1 ≤ ≤ − r . Знаки коэффициентов регрессии и корреляции совпадают. При этом интерпретацию выходных значений коэффициента корреляции можно представить в следующей таблице 1.9.3: Таблица 1.9.3 Оценка линейного коэффициента корреляции Значение линейного коэффициента связи Характер связи Интерпретация связи r = 0 отсутствует - 0<r<1 прямая с увеличением x увеличивается y -1<r<0 обратная с увеличением x уменьшается y и наоборот r=1 функциональная каждому значению факторного признака строго соответствует одно значение результативного признака 179 Пример. По исходным данным, представленным в таблице 1.9.2, оценим тесноту связи с помощью коэффициента корреляции (см. табл. 1.9.4). Таблица 1.9.4 Расчетная таблица для определения коэффициента корреляции № п/п x y ху 2 х 2 у 1 2 3 4 5 6 7 8 9 10 5 4 7 10 1 2 8 12 3 6 10,2 7,5 13,9 12,8 0,6 2,8 13,2 10,1 5,4 12,7 51 30 97,3 128 0,6 5,6 105,6 121,2 16,2 76,2 25 16 49 100 1 4 64 144 9 36 104,04 56,25 193,21 163,84 0,36 7,84 174,24 102,01 29,16 161,29 Сумма 58 89,2 631,7 448 992,24 Средняя 5,8 8,92 63,17 44,8 99,224 1. Используя формулу (1.9.8) получаем: ( ) ; 34 , 3 64 , 33 8 , 44 8 , 5 8 , 44 ) ( 2 2 2 ≈ − = − = − = x х x σ 43 , 4 6576 , 19 5664 , 79 224 , 99 ) 92 , 8 ( 224 , 99 ) ( 2 2 2 ≈ = − = − = − = y у y σ 77 , 0 8 , 14 434 , 11 8 , 14 736 , 51 17 , 63 43 , 4 34 , 3 92 , 8 8 , 5 17 , 63 ≈ = − = ⋅ ⋅ − = xy r 2. По формуле (1.9.9) значение коэффициента корреляции составило: ( ) [ ] ( ) [ ] 77 , 0 76 , 1965 1116 6 , 5173 6317 2 , 89 24 , 992 10 58 448 10 2 , 89 58 7 , 631 10 2 2 ≈ ⋅ − = − ⋅ ⋅ − ⋅ ⋅ − ⋅ = xy r Таким образом, результат по всем формулам одинаков и свидетельствует о сильной прямой зависимости между изучаемыми признаками. В случае наличия нелинейной зависимости между двумя признаками для измерения тесноты связи применяют теоретическое корреляционное отношение: 2 2 2 2 1 σ σ σ δ η ост Т − = = (1.9.11) где 2 δ - дисперсия выравненных значений результативного признака, то есть рассчитанных по уравнению регрессии; 180 2 σ - дисперсия эмпирических (фактических) значений результативного признака. Для оценки тесноты связи также рассчитывается коэффициент детерминации: 2 2 2 σ δ η = (1.9.12) Коэффициент детерминации показывает, какая доля вариации результативного признака объясняется вариацией изучаемого фактора х. Корреляционное отношение ( η ) изменяется в пределах от 0 до 1 ( 1 0 ≤ ≤ η ) и анализ степени тесноты связи полностью соответствует линейному коэффициенту корреляции (таблица 1.9.1). Для измерения тесноты связи при множественной корреляционной зависимости, то есть при исследовании трех и более признаков одновременно, вычисляется множественный и частные коэффициенты корреляции. Множественный коэффициент корреляции вычисляется при наличии линейной связи между результативным и несколькими факторными признаками, а также между каждой парой факторных признаков. Множественный коэффициент корреляции для двух факторных признаков вычисляется по формуле: 2 2 1 2 1 2 1 2 2 2 1 2 1 1 2 x x x x yx yx yx yx x x y r r r r r r R − ⋅ ⋅ − + = (1.9.13) где i yx r - парные коэффициенты корреляции между признаками. Множественный коэффициент корреляции изменяется в пределах от 0 до 1 и по определению положителен: 1 0 ≤ ≤ R Приближение R к единице свидетельствует о сильной зависимости между признаками. Частные коэффициенты корреляции характеризуют степень тесноты связи между двумя признаками x 1 и x 2 при фиксированном значении других (k − 2) факторных признаков, то есть когда влияние x 3 исключается, то есть оценивается связь между x 1 и x 2 в «чистом виде». 181 В случае зависимости y от двух факторных признаков x 1 и x 2 коэффициенты частной корреляции имеют вид: − − ⋅ ⋅ − = 2 2 1 2 2 2 2 1 1 2 1 1 1 x x y x yx x x yx x yx r r r r r r (1.9.14) − − ⋅ ⋅ − = 2 2 1 2 1 2 1 1 2 1 2 1 1 x x y x x x y x yx x yx r r r r r r где r - парные коэффициенты корреляции между указанными в индексе переменными. В первом случае исключено влияние факторного признака x 2 , во втором - x 1 . Эти показатели могут быть и отрицательными, так как они показывают, какая существует связь между признаками: прямая или обратная. 1.9.5 Принятие решений на основе уравнений регрессии Интерпретация моделей регрессии осуществляется методами той отрасли знаний, к которой относится исследуемое явление. Но всякая интерпретация начинается со статистической оценки уравнения регрессии в целом и оценки значимости входящих в модель факторных признаков. Чем больше величина коэффициента регрессии, тем значительнее влияние данного признака на моделируемый. Знаки коэффициентов регрессии говорят о характере влияния на результативный признак. Если факторный признак имеет знак плюс, то с увеличением данного фактора результативный признак возрастает; если факторный признак имеет знак минус, то с его увеличением результативный признак уменьшается. Если экономическая теория подсказывает, что факторный признак должен иметь положительное значение, а он имеет знак минус, то необходимо проверить расчеты параметров уравнения регрессии. Такое явление чаще всего бывает в силу допущенных ошибок при решении. Однако следует иметь в виду, что когда рассматривается совокупное влияние факторов, то в силу наличия взаимосвязей между ними характер их влияния может меняться. С целью расширения возможностей экономического анализа, используются частные коэффициенты эластичности, определяемые по формуле: 182 y x a i i x Э ⋅ = 1 (1.9.15) где i x - среднее значение соответствующего факторного признака; y - среднее значение результативного признака; 1 a - коэффициент регрессии при соответствующем факторном признаке. Коэффициент эластичности показывает на сколько процентов в среднем изменится значение результативного признака при изменении соответствующего факторного признака на 1%, при исключении влияния других факторов, учтенных в модели. Частный коэффициент детерминации: i i i x yx x r d β ⋅ = (1.9.16) где i yx r - парный коэффициент корреляции между результативным и i- ым факторным признаком; i x β - соответствующий стандартизованный коэффициент уравнения множественной регрессии: y х x i i а σ σ β ⋅ = 1 (1.9.17) Частный коэффициент детерминации показывает на сколько процентов вариация результативного признака объясняется вариацией i-го признака, входящего в множественное уравнение регрессии. Наиболее полная экономическая интерпретация моделей регрессии позволяет выявить резервы развития и повышения деловой активности субъектов экономики. 1.9.6 Методы изучения связи качественных признаков При наличии соотношения между вариацией качественных признаков говорят об их ассоциации, взаимосвязанности. Для оценки связи в этом случае используют ряд показателей. Коэффициент ассоциации и контингенции. Для определения тесноты связи двух качественных признаков, каждый из которых состоит только из двух групп, применяются коэффициенты ассоциации и контингенции. Для их вычисления строится таблица, которая показывает связь между двумя явлениями, каждое из которых должно быть 183 альтернативным, то есть состоящим из двух качественно отличных друг от друга значений признака (например, хороший, плохой). Таблица 1.9.5 Таблица для вычисления коэффициентов ассоциации и контингенции у х 0 1 Итого 0 a b a+b 1 c d c+d Итого a+c b+d N Коэффициенты вычисляются по формулам: ассоциации: bc ad bc ad K a + − = (1.9.18) контингенции: ( ) ( ) ( ) ( ) d c c a d b b a bc ad K k + ⋅ + ⋅ + ⋅ + − = (1.9.19) Причем, всегда коэффициент контингенции меньше коэффициента ассоциации ( а К > к К ). Связь считается подтвержденной, если а К ≥ 0,5 или к К ≥ 0,3. Пример. В результате обследования студентов факультета экономики и менеджмента БГТУ им. В.Г. Шухова получены данные, представленные в таблице 1.9.6. Определим коэффициент контингенции между успеваемостью и посещаемостью спортивных секций студентами. Таблица 1.9.6 Зависимость успеваемости студентов от посещаемости спортивных секций Успеваемость Количество студентов посещающих спортивные секции не посещающих спортивные секции Итого Удовлетворительная Неудовлетворительная 374 17 102 51 476 68 а К = ; 833 , 0 20808 17340 1734 19074 1734 19074 17 102 51 374 17 102 51 374 = = + − = ⋅ + ⋅ ⋅ − ⋅ 184 к К = 394 , 0 987 , 44003 17340 153 391 68 476 17 102 51 374 = = ⋅ ⋅ ⋅ ⋅ − ⋅ Таким образом, связь между успеваемостью и посещаемостью спортивных секций студентами факультета экономики и менеджмента имеет место, но не столь существенна. Когда каждый из качественных признаков состоит более чем из двух групп, то для определения тесноты связи возможно применение коэффициентов взаимной сопряженности Пирсона и Чупрова. Эти коэффициенты вычисляются по следующим формулам: коэффициент Пирсона: 2 2 1 ϕ ϕ + = П K (1.9.20); коэффициент Чупрова: ( )( ) 1 1 K 2 1 2 − − = K K Ч ϕ (1.9.21) где 2 ϕ - показатель взаимной сопряженности; ϕ - определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот, соответствующего столбца и строки. Вычитая из этой суммы «1», получим величину 2 ϕ : ∑ − = 1 2 2 y x xy n n n ϕ ; K 1 - число значений (групп) первого признака; K 2 - число значений (групп) второго признака. Чем ближе величина коэффициента Пирсона и коэффициента Чупрова к 1, тем теснее связь. Таблица 1.9.7 Вспомогательная таблица для расчета коэффициента |