Шмойлова_Теория статистики. Московская финансовопромышленная академия
Скачать 1.4 Mb.
|
Глава 8. Статистическое изучение взаимосвязи социально- экономических явлений 8.1. Причинность, регрессия, корреляция Исследование объективно существующих связей между социально-экономическими явлениями и процессами является важнейшей задачей теории статистики. В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения - это такая связь явлений и процессов, когда изменение одного из них - причины ведет к изменению другого - следствия. Финансово-экономические процессы представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих процессов необходимо выявлять главные, основные причины, абстрагируясь от второстепенных. В основе первого этапа статистического изучения связи лежит качественный анализ, связанный с анализом природы социального или экономического явления методами экономической теории, социологии, конкретной экономики. Второй этап - построение модели связи, базируется на методах статистики: группировках, средних величинах, и так далее. Третий, последний этап - интерпретация результатов, вновь связан с качественными особенностями изучаемого явления. Статистика разработала множество методов изучения связей. Выбор метода изучения связи зависит от познавательной цели и задач исследования. Признаки по их сущности и значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными , или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называются результативными В статистике различают функциональную и стохастическую зависимости. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем, при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков. Связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению. По степени тесноты связи различают (табл.8.1): Таблица 8.1. Количественные критерии оценки тесноты связи Величина показателя связи Характер связи До ±0,3 практически отсутствует ±0,3 - ±0,5 слабая ±0,5 - ±0,7 умеренная ±0,7 - ±1,0 сильная По направлению выделяют связь прямую и обратную. Прямая - это связь, при которой с увеличением или с уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного признака. Так, рост объемов производства способствует увеличению прибыли предприятия. В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака, то есть обратная – это связь, при которой с увеличением или с уменьшением значений одного признака происходит уменьшение или увеличение значений другого признака. Так снижение себестоимости единицы производимой продукции влечет за собой рост рентабельности. По аналитическому выражению выделяют связи прямолинейные (или просто линейные ) и нелинейные . Если статистическая связь между явлениями может быть приблизительно выражена уравнением прямой линии, то ее называют линейной связью вида: y a a x x = + 0 1 (8.1) Если же связь может быть выражена уравнением какой-либо кривой, то такую связь называют нелинейной или криволинейной, например: параболы - y a a x a x x = + + 0 1 2 2 (8.2) гиперболы - y a a x x = + 0 1 1 ; и т.д.. Для выявления наличия связи, ее характера и направления в статистике используются методы: приведения параллельных данных; графический; аналитических группировок; корреляции, регрессии. Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере. Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат - результативного. Каждое пересечение линий, проводимых через эти оси, обозначаются точкой. При отсутствии тесных связей имеет место беспорядочное расположение точек на графике. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи. y x 0 Рис. 8.1. График корреляционного поля В статистике принято различать следующие виды зависимостей: 1. Парная корреляция - связь между двумя признаками (результативным и факторным, или двумя факторными). 2. Частная корреляция - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков. 3. Множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование. Корреляционный анализ имеет своей задачей количественное определение тесноты и направления связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи). Теснота связи количественно выражается величиной коэффициентов корреляции, которые, давая количественную характеристику тесноты связи между признаками, позволяют определять «полезность» факторных признаков при построении уравнения множественной регрессии. Знаки при коэффициентах корреляции характеризуют направление связи между признаками. Регрессия тесно связана с корреляцией и позволяет исследовать аналитическое выражение взаимосвязи между признаками. Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком), обусловлено влиянием одной или нескольких независимых величин (факторных признаков). Одной из проблем построения уравнений регрессии является их размерность, то есть определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным. Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, быстрее и качественнее реализуемую. В то же время, построение модели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс. При построении моделей регрессии должны соблюдаться следующие требования: 1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями. 2. Возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей. 3. Все факторные признаки должны иметь количественное (числовое) выражение. 4. Наличие достаточно большого объема исследуемой совокупности (в последующих примерах в целях упрощения изложения материала это условие нарушено, т.е. объем очень мал). 5. Причинно-следственные связи между явлениями и процессами должны описываться линейной или приводимой к линейной форме зависимостью. 6. Отсутствие количественных ограничений на параметры модели связи. 7. Постоянство территориальной и временной структуры изучаемой совокупности. Соблюдение данных требований позволяет построить модель, наилучшим образом описывающую реальные социально-экономические явления и процессы. 8.2. Парная регрессия на основе метода наименьших квадратов Парная регрессия позволяет получить аналитическое выражение связи между двумя признаками: результативным и факторным. Определить тип уравнения можно, исследуя зависимость графически, однако существуют более общие указания, позволяющие выявить уравнение связи, не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково, то это свидетельствует о том, что связь между ними линейная, а при обратной связи - гиперболическая. Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или степенная регрессия. Оценка параметров уравнений регрессии (a0, a1, и a2 - в уравнении параболы второго порядка) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и нахождении параметров модели (a0 , a1), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии: S = ∑ = n i 1 ( y i - y x ) 2 → min Система нормальных уравнений для нахождения параметров линейной парной регрессии методом наименьших квадратов имеет следующий вид: = + = + ∑ ∑ ∑ ∑ ∑ = = = = = n i n i i i i n i i n i n i i i y x x a x y x a a na 1 1 2 1 1 0 1 1 1 0 (8.3) где n - объем исследуемой совокупности (число единиц наблюдения). В уравнениях регрессии параметр a0 показывает усредненное влияние на результативный признак неучтенных в уравнении факторных признаков. Коэффициент регрессии a1 показывает, на сколько в среднем изменяется значение результативного признака при увеличении факторного признака на единицу собственного измерения. Пример. Имеются следующие данные о размере страховой суммы и страховых возмещений на автотранспортные средства одной из страховых компаний г. Москвы на 01.01.2004 г. Таблица 8.2. Зависимость между размером страховых возмещений и страховой суммой на автотранспорт одной из страховых компаний г. Москвы на 01.01.2004 г. № автомобиля в регистре Объем страхового возмещения (тыс.долл.США), Yi Стоимость застрахованного автомобиля (тыс.долл.США), Xi 1 2 3 4 5 6 7 8 9 10 0,1 1,3 0,1 2,6 0,1 0,3 4,6 0,3 0,4 7,3 8,8 9,4 10,0 10,6 11,0 11,9 12,7 13,5 15,5 16,7 Итого 17,1 120,1 Предположим наличие линейной зависимости между рассматриваемыми признаками. Построим расчетную таблицу для определения параметров линейного уравнения регрессии объема страхового возмещения (табл. 8.3). Таблица 8.3. Расчетная таблица для определения параметров уравнения регрессии № автомо- биля в регистре Объем страхового возмещения (тыс.долл. США), Yi Стоимость застрахованного автомобиля (тыс.долл.США), Xi x2 xy y x 1 2 3 4 5 6 7 8 9 10 0,1 1,3 0,1 2,6 0,1 0,3 4,6 0,3 0,4 7,3 8,8 9,4 10,0 10,6 11,0 11,9 12,7 13,5 15,5 16,7 77,44 88,36 100,00 112,36 121,00 141,61 161,29 182,25 240,25 278,89 0,88 12,22 1,00 27,56 1,10 3,57 58,42 4,05 6,20 121,91 0,052 0,362 0,672 0,982 1,188 1,653 2,066 2,479 3,513 4,133 Итого 17,1 120,1 1503,45 236,91 17,100 Система нормальных уравнений для данного примера имеет вид: = + = + 91 , 236 45 , 1503 1 , 120 1 , 17 1 , 120 10 1 0 1 0 a a a a Отсюда: a 0 = -4,4944; a1 = 0,5166. Следовательно, y x =- 4,4944+0,5166 х. Значения y x в таблице 8.3 получены путем подстановки значений факторного признака хi (стоимость застрахованного автомобиля) в уравнение регрессии y x =- 4,4944+0,5166 х. Коэффициент регрессии a1 = 0,5166 означает, что при увеличении стоимости застрахованного автомобиля на 1 тыс.долл.США, объем страхового возмещения (тыс.долл.США) возрастет в среднем на 0,5166 тыс.долл. США. 8.3. Множественная (многофакторная) регрессия Изучение связи между тремя и более связанными между собой признаками носит название множественной (многофакторной) регрессии: ) ,..., , ( 2 1 ,..., 2 , 1 k k x x x f y = Построение моделей множественной регрессии включает несколько этапов: 1. Выбор формы связи (уравнения регрессии); 2. Отбор факторных признаков; 3. Обеспечение достаточного объема совокупности. Выбор типа уравнения затрудняется тем, что для любой формы зависимости можно выбрать целый ряд уравнений, которые в определенной степени будут описывать эти связи. Основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации. Важным этапом построения уже выбранного уравнения множественной регрессии является отбор и последующее включение факторных признаков. С одной стороны, чем больше факторных признаков включено в уравнение, тем оно лучше описывает явление. Однако модель размерностью 100 и более факторных признаков сложно реализуема и требует больших затрат машинного времени. Сокращение размерности модели за счет исключения второстепенных, экономически и статистически несущественных факторов способствует простоте и качеству ее реализации. В то же время построение модели регрессии малой размерности может привести к тому, что такая модель будет недостаточно адекватна исследуемым явлениям и процессам. Проблема отбора факторных признаков для построения моделей взаимосвязи может быть решена на основе интуитивно-логических или многомерных математико-статистических методов анализа. Наиболее приемлемым способом отбора факторных признаков является шаговая регрессия (шаговый регрессионный анализ). Сущность метода шаговой регрессии заключается в реализации алгоритмов последовательного “включения”, “исключения” или “включения-исключения” факторов в уравнение регрессии и последующей проверке их статистической значимости. Алгоритм “включения” заключается в том, что факторы поочередно вводятся в уравнение так называемым «прямым методом». При проверке значимости введенного фактора определяется, на сколько уменьшается сумма квадратов остатков и увеличивается величина множественного коэффициента корреляции (R2). Одновременно используется и алгоритм последовательного «исключения», сущность которого заключается в том, что исключаются факторы, ставшие незначимыми по статистическим критериям. Фактор является незначимым, если его включение в уравнение регрессии только изменяет значения коэффициентов регрессии, не уменьшая суммы квадратов остатков и не увеличивая их значения. Если при включении в модель соответствующего факторного признака величина множественного коэффициента корреляции увеличивается, а коэффициента регрессии не изменяется (или меняется несущественно), то данный признак существенен и его включение в уравнение регрессии необходимо. В противном случае, фактор нецелесообразно включать в модель регрессии. При построении модели регрессии возможна проблема мультиколлинеарности, под которой понимается тесная зависимость между факторными признаками, включенными в модель ( , ) r x ij > 0 8 Наличие мультиколлинеарности между признаками вызывает: • искажение величины параметров модели, которые имеют тенденцию к завышению, чем осложняется процесс определения наиболее существенных факторных признаков; • изменение смысла экономической интерпретации коэффициентов регрессии. В качестве причин возникновения мультиколлинеарности между признаками можно выделить следующие: • изучаемые факторные признаки являются характеристикой одной и той же стороны изучаемого явления или процесса. Например: показатели объема производимой продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется, так как они оба характеризуют размер предприятия; • факторные признаки являются составляющими элементами друг друга. Например: показатели выработки продукции на одного работающего и численность работающих одновременно в модель включать нельзя, так как в основе расчета показателей лежит один и тот же показатель – численность работающих на предприятии. • факторные признаки по экономическому смыслу дублируют друг друга. Устранение мультиколлинеарности может реализовываться через исключение из корреляционной модели одного или нескольких линейно- связанных факторных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы. Вопрос о том, какой из факторов следует отбросить, решается на основании качественного, логического анализа изучаемого явления, а также на основе анализа тесноты связи между результативным (y) c каждым из сильно коллинеарно связанных факторных признаков. Из дальнейшего анализа целесообразно исключить тот факторный признак, связь которого с результативным наименьшая. Качество уравнения регрессии зависит от степени достоверности и надежности исходных данных и объема совокупности. Исследователь должен стремиться к увеличению числа наблюдений, так как большой объем наблюдений является одной из предпосылок построения адекватных статистических моделей. Аналитическая форма связи результативного признака от нескольких факторных выражается и называется многофакторным (множественным) уравнением регрессии или моделью связи. Линейное уравнение множественной регрессии имеет вид: y a a x a x a x k k k 1 2 0 1 1 2 2 , ,..., = + + + + где y k 1 2 3 , , ,..., - теоретические значения результативного признака, полученные в результате подстановки соответствующих значений факторных признаков в уравнение регрессии; x x x k 1 2 , ,..., - факторные признаки; a a a k 1 2 , ,..., - параметры модели (коэффициенты регрессии). Параметры уравнения могут быть определены графическим методом или методом наименьших квадратов. Пример. По следующим данным о выручке (y), спросу по номиналу (x1) и объему продаж (x2) корпоративных ценных бумаг определим зависимость между признаками. Таблица 8.4. Основные характеристики корпоративных ценных бумаг Серия ценной бумаги Выручка, млрд. руб., y Спрос по номиналу, млрд. руб., x1 Объем продаж по номиналу, млрд. руб., x2 0001 0002 0003 0004 0005 0006 0007 3,0 5,4 5,9 4,8 3,3 3,4 5,3 6,8 11,2 9,1 6,9 6,4 6,9 12,2 3,5 6,7 6,8 5,9 3,8 4,3 6,9 Итого 31,1 59,5 37,9 Система нормальных линейных уравнений имеет вид: na a x a x y a x a x a x x x y a x a x x a x x y 0 1 1 2 2 0 1 1 1 2 2 1 2 1 0 2 1 1 2 2 2 2 2 + + = + + = + + = ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ Для определения параметров линейного уравнения регрессии составим расчетную таблицу: Таблица 8.5. Расчетная таблица для определения параметров уравнения регрессии выручки от реализации корпоративных ценных бумаг Серия ценной бумаги Выру- чка, млрд. руб., y Спрос по номина- лу, млрд. руб., x1 Объем продаж по номиналу, млрд. руб., x2 2 1 x x1 x2 x1 y x 2 2 x2 y 0001 0002 0003 0004 0005 0006 0007 3,0 5,4 5,9 4,8 3,3 3,4 5,3 6,8 11,2 9,1 6,9 6,4 6,9 12,2 3,5 6,7 6,8 5,9 3,8 4,3 6,9 46,24 125,44 82,81 47,61 40,96 47,61 148,84 23,80 75,04 61,88 40,71 24,32 29,67 84,18 20,40 60,48 53,69 33,12 21,12 23,46 64,66 12,25 44,89 46,24 34,81 14,44 18,49 47,61 10,50 36,18 40,12 28,32 12,54 14,62 36,57 Итого 31,1 59,5 37,9 539,51 339,6 276,93 218,73 178,85 Система уравнений примет следующий вид: = + + = + + = + + 85 , 178 73 , 218 60 , 339 9 , 37 93 , 276 6 , 339 51 , 539 5 , 59 1 , 31 9 , 37 5 , 59 7 2 1 0 2 1 0 2 1 0 a a a a a a a a a Таким образом: 2 1 , 879 , 0 082 , 0 378 , 0 2 1 x x y x x + − = . 8.4. Собственно-корреляционные параметрические методы изучения связи Измерение тесноты (силы) и направления связи является важной задачей изучения и количественного измерения взаимосвязи социально- экономических явлений. Оценка тесноты связи между признаками предполагает определение меры соответствия вариации результативного признака и одного (при изучении парных зависимостей) или нескольких (множественных зависимостей) факторных признаков. Линейный коэффициент корреляции (К. Пирсона) характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. В теории разработаны и на практике применяются различные модификации формулы расчета данного коэффициента: r x y x y x y = − ⋅ ⋅ σ σ (8.4) Производя расчет по итоговым значениям исходных переменных, линейный коэффициент корреляции можно вычислить по формуле: ( ) ( ) r n x y x y n x x n y y = − − ⋅ − ∑ ∑ ∑ ∑ ∑ ∑ ∑ 2 2 2 2 (8.5) Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость, выражаемая формулой: r a i x y i = σ σ (8.6) где a i - коэффициент регрессии в уравнении связи; σ x i - среднее квадратическое отклонение соответствующего, статистически существенного, факторного признака. Линейный коэффициент корреляции изменяется в пределах от -1 до 1: [ − ≤ ≤ 1 1 r ]. Знаки коэффициентов регрессии и корреляции совпадают. При этом интерпретацию выходных значений коэффициента корреляции можно осуществлять следующим образом (табл.8.6): Таблица 8.6. Оценка линейного коэффициента корреляции Значение линейного коэффициента связи Характеристика связи Интерпретация связи r = 0 отсутствует - 0 -1<r<0 обратная с увеличением x уменьшается y и наоборот r=1 функциональная каждому значению факторного признака строго соответствует одно значение результативного признака Пример На основе выборочных данных о деятельности 6 предприятий одной из отраслей промышленности Российской Федерации оценить тесноту связи между трудоемкостью продукции предприятия (X, чел.- час.) и объемом ее производства (Y, млн. руб.) Таблица 8.7. Расчетная таблица для определения коэффициента корреляции № п/п Объем произведен- ной продукции, млн. руб., Y Затраты на 100 изделий, чел.-час, X yx y2 x2 1 2 3 4 5 6 221 1070 1001 606 779 789 96 77 77 89 82 81 21216 82390 77077 53934 63878 63909 48841 1144900 1002000 367236 606841 622520 9216 5929 5929 7921 6724 6561 Сумма 4466 502 362404 3792338 42280 Средняя 744,33 83,67 60400,67 632056,33 7046,67 1. Используя формулу (8.4) получаем: σ y y y 2 2 2 2 632056 3 744 3 78029 3 = − = − = ( ) , ( , ) , σ x x x 2 2 2 2 7046 67 83 67 46 = − = − = ( ) , ( , ) r = − ⋅ ⋅ = − 60400 67 744 33 83 67 78029 3 46 0 98 , , , , , 2. По формуле (8.5) значение коэффициента корреляции составило: [ ] [ ] r = ⋅ − ⋅ ⋅ − ⋅ ⋅ − = = − − ⋅ − = = − ⋅ = − = − 6 362404 4466 502 6 42280 502 6 3792338 4466 2174424 2241932 253680 252004 22754028 19945156 67508 1676 2808872 67508 68612 46 0 98 2 2 ( ) ( ) ( ) ( ) , , Таким образом, результат по всем формулам одинаков и свидетельствует о сильной обратной зависимости между изучаемыми признаками. В случае наличия линейной или нелинейной зависимости между двумя признаками для измерения тесноты связи применяют так называемое корреляционное отношение. Различают эмпирическое и теоретическое корреляционное отношение. Эмпирическое корреляционное отношение рассчитывается по данным группировки, когда δ 2 характеризует отклонения групповых средних результативного показателя от общей средней: 2 2 2 2 2 2 2 1 σ δ σ σ σ σ σ η = − = − = (8.7) где η - корреляционное отношение; 2 σ - общая дисперсия; σ 2 - средняя из частных (групповых) дисперсий; 2 δ - межгрупповая дисперсия (дисперсия групповых средних). Все эти дисперсии есть дисперсии результативного признака. Теоретическое корреляционное отношение определяется по формуле: 2 2 2 2 1 σ σ σ δ η ост − = = (8.8) где δ 2 - дисперсия выровненных значений результативного признака, то есть рассчитанных по уравнению регрессии; σ 2 - дисперсия эмпирических (фактических) значений результативного признака; 2 ост σ - остаточная дисперсия. Корреляционное отношение изменяется в пределах от 0 до 1 ( ) 0 1 ≤ ≤ η Для измерения тесноты связи при множественной корреляционной зависимости, то есть при исследовании трех и более признаков одновременно, вычисляется множественный и частные коэффициенты корреляции. Множественный коэффициент корреляции вычисляется при наличии линейной связи между результативным и несколькими факторными признаками, а также между каждой парой факторных признаков. Множественный коэффициент корреляции для двух факторных признаков вычисляется по формуле: R r r r r r r y x x yx yx yx yx x x x x / 1 2 1 2 1 2 1 2 1 2 2 2 2 2 1 = + − ⋅ ⋅ − (8.9) где r yx i - парные коэффициенты корреляции между признаками. Множественный коэффициент корреляции изменяется в пределах от 0 до 1 и по определению положителен: 0 1 ≤ ≤ R . Приближение R к единице свидетельствует о сильной зависимости между признаками. На основе данных таблицы 8.4 рассчитаем коэффициент множественной корреляции: 748 , 0 1 1 1 1 = ⋅ ⋅ − = x y yx x y yx r σ σ , 983 , 0 2 2 2 2 = ⋅ ⋅ − = x y yx x y yx r σ σ ; 817 , 0 2 1 1 2 * 1 2 1 2 = = − σ σ x x x x x x x x r Множественный коэффициент корреляции составит: 975 , 0 817 , 0 1 817 , 0 983 , 0 748 , 0 2 983 , 0 748 , 0 2 2 2 / 2 1 = − ⋅ ⋅ ⋅ − + − = x x y R Частные коэффициенты корреляции характеризуют степень тесноты связи между двумя признаками x 1 и x 2 при фиксированном значении других ( ) k − 2 факторных признаков, то есть когда влияние x 3 исключается, то есть оценивается связь между x 1 и x 2 в «чистом виде». В случае зависимости y от двух факторных признаков x 1 и x 2 коэффициенты частной корреляции имеют вид: ( ) ( ) r r r r r r yx x yx x x yx x y x x 1 2 1 1 2 2 2 1 2 1 1 2 2 / = − ⋅ − ⋅ − ( ) ( ) r r r r r r yx x yx x y x x x y x x 2 1 2 1 1 2 1 1 2 1 1 2 2 / = − ⋅ − ⋅ − (8.10) где r - парные коэффициенты корреляции между указанными в индексе переменными. В первом случае исключено влияние факторного признака x 2 , во втором - x 1 На основании приведенных выше данных о зависимости трех факторов деятельности предприятий вычислим частные коэффициенты корреляции (табл. 8.4): ( ) ( ) 517 , 0 817 , 0 1 983 , 0 1 983 , 0 817 , 0 748 , 0 2 2 / 2 1 − = − ⋅ − ⋅ − = x yx r 972 , 0 1 2 / = x yx r ; 668 , 0 / 2 1 = y x x r 8.5. Принятие решений на основе уравнений регрессии Интерпретация моделей регрессии осуществляется методами той отрасли знаний, к которой относится исследуемое явление. Но всякая интерпретация начинается со статистической оценки уравнения регрессии в целом и оценки значимости входящих в модель факторных признаков. Прежде всего необходимо рассмотреть коэффициенты регрессии. Чем больше величина коэффициента регрессии, тем значительнее влияние данного признака на моделируемый. Знаки коэффициентов регрессии говорят о характере влияния на результативный признак. Если факторный признак имеет знак плюс, то с увеличением данного фактора результативный признак возрастает; если факторный признак имеет знак минус, то с его увеличением результативный признак уменьшается. Если экономическая теория подсказывает, что факторный признак должен иметь положительное значение, а он имеет знак минус, то необходимо проверить расчеты параметров уравнения регрессии. Такое явление чаще всего бывает в силу допущенных ошибок при решении. Однако следует иметь ввиду, что когда рассматривается совокупное влияние факторов, то в силу наличия взаимосвязей между ними характер их влияния может меняться. С целью расширения возможностей экономического анализа, используются частные коэффициенты эластичности , определяемые по формуле: Э a x y x i i = ⋅ 1 (8.11) где i x - среднее значение соответствующего факторного признака; y - среднее значение результативного признака; a 1 - коэффициент регрессии при соответствующем факторном признаке. Коэффициент эластичности показывает на сколько процентов в среднем изменится значение результативного признака при изменении факторного признака на 1%. Рассчитаем коэффициент эластичности ( Э x i ) по исходным данным о зависимости между выручкой ( y ), спросом по номиналу ( x 1 ) и объемом продаж по номиналу ( 2 x ) корпоративных ценных бумаг одной из корпораций, приведенным в таблице 8.4. 082 , 0 1 − = a ; 879 , 0 2 = a 44 , 4 7 1 , 31 = = y ; ; 5 , 8 7 5 , 59 1 = = x 41 , 5 7 9 , 37 2 = = x ; 16 , 0 44 , 4 5 , 8 082 , 0 1 1 1 − = ⋅ − = ⋅ = y x a Э x 07 , 1 44 , 4 41 , 5 879 , 0 2 2 2 = ⋅ = = y x a Э x Это значит, что при увеличении спроса по номиналу на ценные бумаги на 1%, выручка от их реализации снизится на 0,16%, а при увеличении объема продаж по номиналу на 1%, выручка увеличится на 1,07%. Частный коэффициент детерминации : d r x yx x i i i = ⋅ β (8.12) где r yx i - парный коэффициент корреляции между результативным и i - ым факторным признаком; β x i - соответствующий стандартизованный коэффициент уравнения множественной регрессии: β σ σ x x y a i 1 1 = ⋅ (8.13) Частный коэффициент детерминации показывает на сколько процентов вариация результативного признака объясняется вариацией i - го признака, входящего в множественное уравнение регрессии. По данным, приведенным в таблице 8.4 рассчитаем частный коэффициент детерминации для фактора x 1 - спрос по номиналу на ценные бумаги: 1 1 1 x yx x r d β = ; 1 1 1 x y yx x y yx r σ σ ⋅ ⋅ − = ; β σ σ x x y a 1 1 1 = 56 , 39 7 93 , 276 1 1 = = = ∑ n yx yx ; ; 44 , 4 7 1 , 31 = = = ∑ n y y ; 5 , 8 7 5 , 59 1 1 = = = ∑ n x x ( ) ( ) ; 23 , 1 44 , 4 7 55 , 146 2 2 2 2 = − = − = y y y σ ( ) ; 82 , 4 5 , 8 7 51 , 539 ) ( 2 2 1 2 1 2 = − = − = x x x σ 109 , 1 23 , 1 2 = = = y y σ σ ; 195 , 2 82 , 4 = = x σ 748 , 0 195 , 2 109 , 1 5 , 8 44 , 4 56 , 39 1 = ⋅ ⋅ − = yx r 16 , 0 109 , 1 195 , 2 082 , 0 1 − = ⋅ − = x β ; ( ) 12 , 0 16 , 0 748 , 0 1 − = − ⋅ = x d Определим частный коэффициент детерминации для фактора x 2 - объем продаж ценных бумаг по номиналу: 006 , 0 2 2 2 = ⋅ = x yx x r d β . ; 983 , 0 2 = r x y ; 10 , 1 109 , 1 390 , 1 879 , 0 2 2 2 = ⋅ = ⋅ = σ σ β y x a x 10 , 1 10 , 1 983 , 0 2 ≈ ⋅ = d x Полная экономическая интерпретация моделей регрессии позволяет выявить резервы развития и повышения деловой активности субъектов рыночной экономики. 8.6. Методы изучения связи качественных признаков При наличии соотношения между вариацией качественных признаков говорят об их ассоциации, взаимосвязанности. Для оценки связи в этом случае используют ряд показателей. Коэффициент ассоциации и контингенции. Для определения тесноты связи двух качественных признаков, каждый из которых состоит только из двух групп, применяются коэффициенты ассоциации и контингенции. Для их вычисления строится таблица, которая показывает связь между двумя явлениями, каждое из которых должно быть альтернативным, то есть состоящим из двух качественно отличных друг от друга значений признака (например, изделие годное или бракованное). Таблица 8.8. Таблица для вычисления коэффициентов ассоциации и контингенции a b a+b c d c+d a+c b+d a+b+c+d Коэффициенты вычисляются по формулам: ассоциации: K ad bc ad bc a = − + (8.14) контингенции: ( ) ( ) ( ) K ad bc a b b d a c c d k = − + ⋅ + ⋅ + ⋅ + ( ) (8.15) Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается подтвержденной, если K a ≥ 0 5 , или K k ≥ 0 3 , Пример . Исследуем связь между участием населения одного из городов в экологических акциях и уровнем его образования. Результаты обследования характеризуются следующими данными: Таблица 8.9. Зависимость участия населения города в экологических акциях от образовательного уровня Из них Группы рабочих Числен- ность населения города участвую- щих в акциях не участвующих в акциях Имеют среднее образование Не имеют среднего образования 100 100 78 32 22 68 Итого 200 110 90 K a = ⋅ − ⋅ ⋅ + ⋅ = = 78 68 32 22 78 68 32 22 4600 6608 0 766 , ( ) ( ) ( ) K k = ⋅ − ⋅ + ⋅ + ⋅ + ⋅ + = − = 78 68 32 22 78 22 22 68 78 32 32 68 5304 704 99000000 0 46 ( ) , Таким образом, связь между участием населения города в экологических акциях и его образовательным уровнем имеет место, но не столь существенна. Когда каждый из качественных признаков состоит более чем из двух групп, то для определения тесноты связи возможно применение коэффициентов взаимной сопряженности Пирсона и Чупрова. Эти коэффициенты вычисляются по следующим формулам: K п = + ϕ ϕ 2 2 1 ; ( ) ( ) K K K = − ⋅ − ϕ 2 1 2 1 1 (8.16) где ϕ 2 - показатель взаимной сопряженности; ϕ - определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки. Вычитая из этой суммы «1», получим величину ϕ 2 : ϕ 2 2 1 = − ∑ n n n x y x y ; K 1 - число значений (групп) первого признака; K 2 - число значений (групп) второго признака. Чем ближе величина K п и Kч к 1, тем теснее связь. Таблица 8.10. Вспомогательная таблица для расчета коэффициента взаимной сопряженности у х I II III Всего I n x y n x II n x III n x Итого n y n y n y n 1 2 2 2 + = = ∑ ∑ ∑ ∑ ϕ n n n n n n x y x y x y y x Пример. С помощью коэффициента взаимной сопряженности исследуем связь между себестоимостью продукции и накладными расходами на ее реализацию. Таблица 8.11. Зависимость между себестоимостью продукции и накладными расходами на ее реализацию Себестоимость Накладные расходы Низкая Средняя Высокая Итого Низкие Средние Высокие 19 7 4 12 18 10 9 15 26 40 40 40 Итого 30 40 50 120 183 , 1 414 , 0 356 , 0 431 , 0 40 50 26 40 10 30 4 40 50 15 40 18 30 7 40 50 9 40 12 30 19 1 2 2 2 2 2 2 2 2 2 2 = + + = = + + + + + + + + = + ϕ 1 1183 2 + = ϕ , ; ϕ 2 0183 = , K п = = = 0183 1183 0155 0 39 , , , , ; Kч = 0183 2 2 0 21 , , ⋅ = . Связь слабая. Особое значение для оценки связи имеет биссериальный коэффициент корреляции, который дает возможность оценить связь между качественным альтернативным и количественным варьирующим признаками. Данный коэффициент вычисляется по формуле: r y y pq Z y = − ⋅ 2 1 σ (8.17) где y 2 и y 1 - средние в группах; σ y - среднее квадратическое отклонение фактических значений признака от среднего уровня; p - доля первой группы; q - доля второй группы; Z - табулированные (табличные) значения Z -распределения в зависимости от p Пример. Распределение предприятий одной из отраслей промышленности по уровню дохода и источникам средств существования характеризуется следующими данными: Таблица 8.12. Зависимость уровня доходов сотрудников коммерческой структуры от уровня их образования Уровень доходов, (млн.руб.) 200- 300 300- 400 400- 500 500- 600 Источник средств 250 350 450 550 Всего Банковский кредит Собственные средства 5 9 7 4 6 2 4 1 22 16 Итого 14 11 8 5 38 9 , 390 22 8600 22 4 550 6 450 7 350 5 250 1 = = ⋅ + ⋅ + ⋅ + ⋅ = y 8 , 318 16 5100 16 1 550 2 450 4 350 9 250 1 = = ⋅ + ⋅ + ⋅ + ⋅ = y 5 , 360 38 13700 38 5 550 8 450 11 350 14 250 = = ⋅ + ⋅ + ⋅ + ⋅ = общ y 7 , 104 = σ ; 3975 , 0 = табл Z p = = 22 38 0 58 , ; q = 0 42 , ; p q Z ⋅ = ⋅ = 0 58 0 42 0 3975 0 61 , , , , 42 , 0 61 , 0 7 , 104 9 , 390 8 , 318 = ⋅ − = r . Величина биссериального коэффициента корреляции также подтверждает умеренную тесноту связи между изучаемыми признаками. 8.7. Ранговые коэффициенты связи В анализе социально-экономических явлений часто приходится прибегать к различным условным оценкам с помощью рангов, а взаимосвязь между отдельными признаками измерять с помощью непараметрических коэффициентов связи. Ранжирование - это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения. Ранг - это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Если значения признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным средней арифметической из соответствующих номеров мест, которые они определяют. Данные ранги называются связными. Среди непараметрических методов оценки тесноты связи наибольшее значение имеют ранговые коэффициенты Спирмена( ρ xy ) и Кендалла ( τ xy ). Эти коэффициенты могут быть использованы для определения тесноты связи как между количественными, так и между качественными признаками (рейтинги, уровни образования, квалификации и т.п.). Коэффициент корреляции рангов (коэффициент Спирмена ) рассчитывается по формуле: ρ x y i d n n = − − ∑ 1 6 1 2 2 ( ) (8.18) где d i 2 - квадраты разности рангов; n - число наблюдений (число пар рангов). Коэффициент Спирмена принимает значения в интервале [ ] −1 1 ; Пример. По данным о прибыли и объеме кредитных вложений 10 коммерческих банков одного из регионов Российской Федерации на 01.01.2004 г. определить с помощью коэффициента Спирмена зависимость между этими признаками. Таблица 8.13. Расчет коэффициента Спирмена Ранги № банка Кредитные вложения, млн. руб., X Прибыль, млн.руб., Y R x R y Разность рангов y x i R R d − = d i 2 1 2 3 8 9 10 11 1 2 3 4 5 6 7 8 9 10 2887 1710 3010 2472 2535 1897 2783 1862 1800 2003 557 605 628 488 418 397 501 589 269 437 9 1 10 6 7 4 8 3 2 5 7 9 10 5 3 2 6 8 1 4 2 -8 0 1 4 2 2 -5 1 1 4 64 0 1 16 4 4 25 1 1 Итого - - - - - 120 ρ x y = − ⋅ ⋅ = − = 1 6 120 10 99 1 720 990 0 3 , (связь слабая). Ранговый коэффициент корреляции Кендалла ( τ xy ) также может использоваться для измерения взаимосвязи между качественными и количественными признаками, характеризующими однородные объекты и ранжированные по одному принципу. Расчет рангового коэффициента Кендалла осуществляется по формуле: τ = − 2 1 S n n ( ) (8.19) где n - число наблюдений; S - сумма разностей между числом последовательностей и числом инверсий по второму признаку. Расчет данного коэффициента выполняется в следующей последовательности: 1. Значения X ранжируются в порядке возрастания или убывания; 2. Значения Y располагаются в порядке, соответствующем значениям X ; 3. Для каждого ранга Y определяется число следующих за ним значений рангов, превышающих его величину. Суммируя таким образом числа определяется величина P , как мера соответствия последовательностей рангов по X и Y и учитывается со знаком (+); 4. Для каждого ранга Y определяется число следующих за ним значений рангов, меньших его величины. Суммарная величина обозначается через Q и фиксируется со знаком (-); 5. Определяется сумма баллов по всем членам ряда. В приведенном примере (таблица 8.11) P = + + + + + + + + = 1 8 1 6 4 3 3 2 1 29 16 0 0 0 ) 1 ( ) 1 ( 0 ) 6 ( 0 ) 8 ( − = + + + − + − + + − + + − = Q Таким образом: τ = ⋅ − ⋅ − = 2 29 16 10 10 1 0 28 ( ) ( ) , что свидетельствует о практическом отсутствии связи между рассматриваемыми признаками по данной совокупности коммерческих банков. Как правило, коэффициент Кендалла меньше коэффициента Спирмена. При достаточно большом объеме совокупности значения данных коэффициентов имеют следующую зависимость: y x ρ τ 3 2 = Связь между признаками признается статистически значимой, если значения коэффициентов ранговой корреляции Спирмена и Кендалла больше 0,5. Для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент ранговой корреляции (коэффициент конкордации) W , который вычисляется по формуле: ) ( 12 3 2 n n m S W − ⋅ = (8.19) где m - количество факторов n - число наблюдений S - отклонение суммы квадратов рангов от средней квадратов рангов. Пример. Определим тесноту связи между объемом реализованной продукции, прибылью и численностью работающих по 10 предприятиям отрасли. Таблица 8.14. Расчет коэффициента конкордации № пред- прия- тия Уставной капитал, млн. руб., X Число выставлен- ных акций, Y Число занятых на предприя- тиях, Z R x R y R Z Сумма строк Квад- раты сумм 1 2 3 4 5 6 7 8 9 10 3069 1720 4217 2465 2740 1910 2928 1866 1815 2379 871 945 1578 697 631 510 830 873 482 676 320 326 333 342 351 366 379 382 402 405 9 1 10 6 7 4 8 3 2 5 7 9 10 5 3 2 6 8 1 4 1 2 3 4 5 6 7 8 9 10 17 12 23 15 15 12 21 19 12 19 289 144 529 225 225 144 441 361 144 361 Итого - - - - - - 165 2863 5 , 140 5 , 2722 2863 10 ) 165 ( 2863 2 = − = − = S 19 , 0 ) 10 1000 ( 9 5 , 140 12 ) ( 12 3 2 = − ⋅ = − = n n m S W , что свидетельствует о слабой связи между рассматриваемыми признаками. Ранговые коэффициенты Спирмена, Кендалла и конкордации имеют то преимущество, что с помощью их можно измерять и оценивать связи как между количественными так и между атрибутивными признаками, которые поддаются ранжированию. |