СтатистикаЛевина 2012. Е. И. Левина статистика учебное пособие кемерово 2012 1 Рецензенты
Скачать 4.61 Mb.
|
5.1. Виды взаимосвязей 5.2. Балансовый метод. 5.3. Метод параллельных ранжированных рядов. 5.3. Метод параллельных ранжированных рядов. 5.4. Метод аналитических группировок. 5.5. Метод дисперсионного анализа. 5.6. Корреляционно-регрессионный метод установления связей. 5.7. Простейшие методы установления тесноты связи 5.8. Задачи по теме 5 МЕТОДЫ ИЗУЧЕНИЯ КОРРЕЛЯЦИОННОЙ СВЯЗИ 5.1. Виды взаимосвязей Статистические распределения характеризуются наличием более или менее значительной вариации в величине признака у отдельных единиц совокупности. Естественно, возникает вопрос о том, какие же причины формируют уровень признака в данной совокупности и каков конкретный вклад каждой из них. Изучение действительности показывает, что вариация каждого изучаемого признака находится в тесной связи и взаимодействии с вариацией других признаков, характеризующих исследуемую совокупность единиц. При этом следует иметь ввиду, что по той роли, которую играют признаки во взаимосвязи изучаемых явлений, их подразделяют на факторные, то есть воздействующие на другие признаки и результативные, которые являются результатом действия этих факторов. Причем в зависимости от сложившихся объективных условий и цели исследования признаки могут меняться ролями. В одних случаях они являются факторными признаками, в других – результативными. Рассматривая зависимость между признаками, необходимо выделить прежде всего две функциональные и корреляционные. При функциональной связи каждому значению величины факторного признака соответствует только одно значение результативного признака. Функциональные связи обычно выражаются формулами. Чаще всего такие связи наблюдаются в точных науках, главным образом математике и физике. Например, площадь круга – результативный признак – прямо пропорциональна его радиусу – факторному признаку ( 2 R S ). Имеют место функциональные связи ив экономических процессах – это связи единичные, отражающие взаимосвязь только отдельных сторон сложных явлений общественной жизни. Например, зарплата рабочего при повременной оплате труда равна произведению дневной ставки на отработанное время. Функциональные связи являются полными и точными связями, так как обычно известны перечень всех факторов и механизм их воздействия на результативный признак в виде того или иного уравнения функции y = f (x 1 , x 2 , …, x n ). Таким образом, при функциональных связях величина результативного показателя полностью определяется факторными признаками (одним или несколькими. При этом важно отметить, что функциональная зависимость с одинаковой силой проявляется у всех единиц совокупности, независимо от изменения других признаков данного явления. Так, будет ли круг характеризовать площадь в городе, или диск для метания в спортивных состязаниях, или еще какой-либо объект, всюду указанная зависимость его от размера радиуса будет проявляться. Значит, установив на основе единичного исследования эту зависимость, мы можем пользоваться ею в любых аналогичных случаях. Однако в массовых явлениях общественной жизни ввиду крайнего разнообразия факторов, их взаимосвязи и противоречивого действия, наличия факторов, неподдающихся строгому учету и контролю, возникает широкое варьирование результативного признака. Это свидетельствует о том, что связь между признаками-факторами и результативным признаком неполная, а проявляется лишь в общем, среднем. Такие связи называются корреляционными. При корреляционной связи под влиянием изменения многих факторных признаков (ряд из которых может быть неизвестен) меняется средняя величина результативного признака. 150 Например Уровень производительности труда на заводах даже одинаковой специализации зависит не только от размера энерговооруженности труда на заводе, хотя этот фактор имеет важное значение для всех наблюдаемых единиц. На него оказывают влияние и такие факторы, как режим работы на заводе, организация его снабжения, личные качества производственного персонала и многие другие. Поэтому, сравнивая производительность труда и уровень энерговооруженности труда на двух отдельно взятых заводах, можно и не увидеть между ними прямой зависимости. Может случиться так, что на заводе, на котором выше энерговооруженность труда, оказался ниже уровень производительности. Это означает, что на уровень производительности труда на этом заводе оказали существенное влияние какие-то иные факторы, его понижающие. Но, если мы возьмем достаточно большое число заводов, обнаружится прямая зависимость в изменении энерговооруженности труда и производительности труда. Следовательно, важная особенность корреляционных связей состоит в том, что они обнаруживаются не в единичных случаях, а в массе и требуют для своего исследования массовых наблюдений, то есть статистических данных. Проявление корреляционных зависимостей подвержено действию закона больших чисел лишь в достаточно большом числе фактов индивидуальные особенности и второстепенные факторы сгладятся и зависимость, если она имеет существенную силу, проявляется достаточно отчетливо. Вторая важная особенность корреляционных связей состоит в том, что они являются неполными. Анализируя зависимость между уровнем энерговооруженности труда и его производительностью, мы берем важный фактор, от которого зависит производительность труда, но этот фактор не единственный. Производительность труда на предприятиях зависит от других существенных факторов. Поэтому даже на массовом материале, где случайные связи погашаются, обнаруженные зависимости не будут носить полного, то есть функционального характера. Они будут в той или иной мере приближаться к функциональной связи, но действие прочих неучтенных факторов проявится в том, что корреляционная связь окажется неполной, она не достигнет по силе связи функциональной. 151 Прямые и обратные связи. В зависимости от направления действия как функциональные, таки корреляционные связи могут быть как прямыми, таки обратными. При прямой связи направление изменения результативного признака совпадает с направлением изменения признака-фактора, то есть с увеличением факторного признака увеличивается и результативный и, наоборот, с уменьшением факторного признака уменьшается и результативный признак. В противном случае между рассматриваемыми величинами существуют обратные связи. В явлениях общественной жизни встречаются и те и другие виды связи. Например чем выше квалификация рабочего (разряд, тем выше уровень производительности труда – прямая связь. А чем выше производительность труда, тем ниже себестоимость продукции обратная связь. Прямолинейная и криволинейная связи. По аналитическому выражению связи могут быть прямолинейными и криволинейными. При прямолинейной связи с возрастанием величины факторного признака происходит непрерывное возрастание (или убывание) величин результативного признака. Математически такая связь представляется уравнением прямой уха х, где у – индивидуальные значения результативного признаках индивидуальные значения факторного признака а, b – параметры уравнения ух – теоретическое значение результативного признака, а графически – прямой линией. При криволинейной связи с возрастанием факторного признака возрастание (или убывание) результативного признака происходит неравномерно или направление его изменения меняется на обратное. Графически такие связи представляются кривыми линиями, а математически такие связи представляются Полулогарифмическая y x = a + b lg x; Показательная y x = a + b x ; Степенная y x = a x b ; Параболическая y x = a + b x + с x 2 ; 152 Гиперболическая y x = a + b и др. Решение математических уравнений связи предполагает вычисление по исходным данным их параметров. Это осуществляется способом выравнивания эмпирических данных методом наименьших квадратов. В основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных y i от выравненных y xi : При этом нужно иметь ввиду, что только функциональные связи аналитическим уравнением выражаются точно, корреляционные связи – лишь приближенно, при условии абстрагирования от влияния всех прочих факторов. Поэтому на графике и будет наблюдаться разброс точек (ух) вблизи теоретической линии. Однофакторные и многофакторные связи. Для корреляционных связей есть различие в том случае, если исследуется связь между одним признаком-фактором и результативным признаком (при абстрагировании влияния других) и несколькими факторными признаками и результативным признаком. В первом случае говорят о парной связи (связь между двумя признаками) и о парной корреляции, во втором случае – о многофакторной связи и о множественной корреляции. В этом случае имеется ввиду, что все факторы действуют комплексно, то есть одновременно и во взаимосвязи. То, при сравнении функциональной и корреляционной зависимостей следует иметь ввиду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака. В отличие от жесткости однозначно функциональной связи корреляционные связи характеризуются множеством причини следствий и устанавливаются лишь их тенденции. 153 Для исследования функциональных связей применяются балансовый метод индексный метод. Для изучения корреляционных связей используются разные методы метод параллельных ранжированных рядов метод аналитических группировок метод дисперсионного анализа -корреляционно-регрессионный метод простейшие методы. 5.2. Балансовый метод. Балансовая система показателей, сгруппированных в сводную ведомость в виде двусторонней таблицы, отображающую зависимость между источниками формирования ресурсов (средств) и их использованием. Причем должно соблюдаться следующее условие итого левой части таблицы равняется итого правой части. Свое проявление оно получает в формуле Он + П = В + Ок , где Он – остаток ресурсов на начало изучаемого периода П – поступление ресурсов за период В – выбытие ресурсов в изучаемом периоде Ок – остаток ресурсов наконец периода. Левая часть формулы (Он + П) характеризует предложение ресурсов, а правая часть (Ок + В) – их использование. Ресурсы Их использование Итого Итого Нужно отметить, что в виде баланса выражается большинство народнохозяйственных связей. 5.3. Метод параллельных ранжированных рядов. 154 Простейшим приемом обнаружения связи является сопоставление двух параллельных рядов – ряда значений факторного признака и соответствующих ему значений результативного признака. Значения факторного признака располагают в ранжированном порядке и затем прослеживают направление изменения величины результативного признака. Результативный признак в дальнейшем будем обозначать через у, а факторный признак – через х. Пример Имеются следующие данные обследования рабочих предприятия, принятых на работу за последние 5 лет. По двадцати рабочим была выявлена зарплата (результативный признаки процент выполнения нормы выработки (факторный признак. Порядковый номер рабочего Зарплата за месяц, р. Процент выполнения нормы выработки 1 1.734 186 2 3 1.690 1.720 180 190 4 1.725 184 5 1.714 181 6 1.738 200 7 1.702 176 8 1.674 140 9 1.677 144 10 1.670 136 11 1.700 164 12 1.690 170 13 14 1.702 1.700 169 155 15 1.685 158 16 1.670 156 17 1.695 168 18 1.654 115 19 1.660 116 20 1.662 119 С целью установления зависимости процента выполнения нормы выработки и зарплаты за месяц проранжируем исходный ряд по проценту выполнения нормы выработки. 155 Порядковый номер рабочего Процент выполнения нормы выработки Зарплата за месяц, р. 1 2 3 18 115 16540 19 116 16600 20 119 16620 10 136 16700 8 140 16740 9 144 16770 14 155 17000 16 156 16700 15 158 16850 11 164 17000 17 168 16950 13 12 169 170 17020 16900 7 176 17020 2 180 16900 5 181 17140 4 184 17250 1 186 17340 3 190 17200 6 200 17380 Таким образом, можно видеть, что в целом для всей совокупности рабочих увеличение процента выполнения нормы выработки приводит к увеличению уровня зарплаты, получаемой рабочими. Хотя в отдельных случаях наличие такой зависимости может и не усматриваться. В тех случаях, когда возрастание величины факторного признака ведет за собой возрастание и величины результативного признака, говорят о возможном наличии прямой корреляционной связи. Если же с увеличением факторного признака, величина результативного признака имеет тенденцию к снижению, то можно предполагать обратную связь между признаками. Нужно отметить, что данный метод используется при небольшом количестве информации. А недостатком является отсутствие количественной оценки связи. 156 Для предварительного выявления наличия связи и раскрытия ее характера применяют графический метод. Используя данные об индивидуальных значениях признака-фактора и соответствующих ему значениях результативного признака, можно построить в прямоугольных координатах точечный график, который называют полем корреляции. Для нашего случая поле корреляции имеет следующий вид. 5.4. Метод аналитических группировок. Метод аналитических группировок используется при большом объеме информации. Для применения этого метода сначала все наблюдения разбиваются на группы в зависимости отвели- чины признака-фактора, а затем по каждой группе вычисляют среднее значение результативного признака. Пример Имеются следующие данные по 30 предприятиям одной из отраслей промышленности. Зависимость уровня зарплаты рабочих (у) от процента выполнения ими нормы выработки (х 1650 1660 1670 1680 1690 1700 1710 1720 1730 1740 1750 0 50 100 150 200 250 х у Зависимость уровня зарплаты рабочих (у) от процента выполнения ими нормы выработки (х) 16400 16500 16600 16700 16800 16900 17000 17100 17200 17300 17400 17500 0 50 100 150 200 250 х у 157 № предприятия Потери рабочего времени, тыс. чел-дн. Выпуск продукции, млн р. 1 66,0 65,0 2 44,0 78,0 3 91,0 41,0 4 78,0 54 5 57,4 66 6 42,0 80 7 100,0 45 8 79,8 57 9 57,0 67 10 38,0 81 11 23,1 92 12 112,0 48 13 72,0 59 14 55,7 68 15 36,0 83 16 85,2 52 17 72,8 62 18 54,6 69 19 37,0 85 20 56,4 70 21 56,0 71 22 70,4 64 23 53,6 72 24 34,9 88 25 55,4 73 26 52,0 74 27 20,4 96 28 53,1 75 29 12,0 101 30 46,0 76 Установим наличие и характер связи между величиной потерь рабочего времени и выпуском продукции методом аналитической группировки. Вначале строим рабочую таблицу, образовав 5 групп предприятий с равными интервалами. 158 Распределение предприятий по величине потерь рабочего времени. № Группы предприятий по величине потерь рабочего времени п/п Потери рабочего времени, тыс. чел-дн. Выпуск продукции, млн р. А Б 1 2 3 1 12 – 32 (+) 29 27 11 12 20,4 23,1 101 96 92 Итого 3 55,5 289 2 32 – 52 24 15 19 10 6 2 30 26 34,9 36 37 38 42 44 46 52 88 83 85 81 80 78 76 74 Итого 8 329,9 645 3 52 – 72 28 23 18 25 14 21 20 9 5 1 22 13 53,1 53,6 54,6 55,4 55,7 56,0 56,4 57,0 57,4 66,0 70,4 72,0 75 72 69 73 68 71 70 67 66 65 64 59 Итого 12 707,6 819 4 72 – 92 17 4 8 16 3 72,8 78 79,8 85,2 91 62 54 57 52 41 Итого 5 406,8 266 5 92 – 11 5 12 100 112 45 48 Итого 2 212 93 Всего 30 1711,8 2112 159 Для установления наличия и характера связи между величиной потерь рабочего времени и выпуском продукции поданным рабочей таблицы строим итоговую аналитическую таблицу. Зависимость величины выпуска продукции (у) от уровня потерь рабочего времени (х. № п/п Группы п/п по величине потерь рабочего времени Число п/п Потери раб. времени, тыс. чел-дн. Выпуск продукции, млн. руб. всего средн. уровень потерь рабочего времени всего в среднем на 1 п/п А Б 1 2 3 4 5 1 12 – 32 3 55,5 18,5 289 96,3 2 32 – 52 8 329,9 41,2 645 80,6 3 52 – 72 12 707,6 59 819 68,3 4 72 – 92 5 406,8 81,4 266 53,2 5 92 – 112 2 212 106 93 46,5 Итого 30 1711,8 57,06 2112 70,4 Данные таблицы показывают, что с увеличением уровня потерь рабочего времени, средняя величина выпуска продукции в расчете на одно предприятие уменьшается. Следовательно между исследуемыми признаками существует обратная корреляционная зависимость. Корреляционная зависимость отчетливо обнаруживается только при рассмотрении средних значений результативного признака, соответствующих определенным значениям факторного признака, так как при достаточно большом числе наблюдений в каждой группе влияние прочих случайных факторов при расчете групповой средней будет взаимопогашаться, и четче выступит зависимость результативного признака от фактора, положенного в основу группировки. Иначе, предполагается, что все прочие причины, если они носят случайный характер, при определении средней по группам взаимопогашаются, то есть дают в каждой группе один и тот же результат. Следовательно, различия ввели- чине средних будут связаны только с различиями данного факторного признака. Если бы связи между факторными результативным признаком не было, то все групповые средние были бы примерно одинаковыми по величине. 160 5.5. Метод дисперсионного анализа. Для статистической совокупности, сгруппированной по изучаемому признаку, возможно вычисление трех видов дисперсий общей ( 2 ); -межгрупповой ( 2 ) и средней из внутригрупповых дисперсий ( 2 k ). Между указанными видами дисперсий существует соотношение, которое называется правилом сложения дисперсий 2 2 2 к На основе данного правила строится метод дисперсионного анализа. Общая дисперсия характеризует вариацию признака, которая зависит от всех условий в данной совокупности f f х x о о о i 2 2 ) ( , где x i – индивидуальное значение признака о частота, то есть число повторений данного значения признака ох общая средняя для всей изучаемой совокупности. Межгрупповая дисперсия отражает вариацию изучаемого признака, которая возникает под влиянием факторного признака, положенного в основу группировки f f х х k k о к 2 2 ) ( , где х – средняя по отдельным группам o x – средняя общая f k – численность отдельных групп. Средняя внутригрупповых дисперсий характеризует случайную вариацию в каждой отдельной группе. Эта вариация возникает 161 под влиянием других, не учитываемых факторов и не зависит от факторного признака, положенного в основу группировки. Зная, что внутригрупповая дисперсия равна f f x x k k k k k 2 2 ) ( , то средняя внутригрупповых дисперсий определяется как n k k 2 Если основанием группировки является факторный признак, то с помощью правила сложения дисперсий можно измерить силу его влияния на результативный признак, вычислив коэффициент детерминации и эмпирическое корреляционное отношение. Коэффициент детерминации 2 показывает долю общей вариации результативного признака, обусловленную вариацией группировочного признака. Эмпирическое корреляционное отношение 2 По абсолютной величине он может изменяться в интервале [0,1]. Если = 0, следовательно, группировочный признак не оказывает влияния на результативный. Если = 1, следовательно, изменение результативного признака полностью обусловлено группировочным признаком, то есть между ними существует функциональная связь. Таким образом, чем ближе к 1, тем теснее связь и наоборот. Поэтому порядок установления взаимосвязи методом дисперсионного анализа сводится к следующему рассчитывают общую среднюю и общую дисперсию по всей совокупности всю совокупность разбивают на группы по изучаемому признаку 162 по каждой группе рассчитывают среднее значение признака и дисперсию рассчитывают среднюю дисперсию из внутригрупповых рассчитывают межгрупповую дисперсию рассчитывают индекс корреляции. Пример Рассмотрим этот метод поданным распределения торговых предприятий по объему товарооборота и формам собственности. Расчет общей дисперсии, складывающейся под влиянием всех факторов. Средний объем товарооборота на одно предприятие составит, следовательно, руб млн x o 105 100 Общая дисперсия товарооборота по исследуемым предприятиям будет равна f f x x o o o o 2 2 ) ( / , следовательно, Группы п/п по количеству товарооборота, млн. руб. Численность предприятий по формам собственности Расчетные показатели гос. г f част. ч f всего о f x o / ) ( / о x x 2 ) ( / о x x f x x o о 2 ) ( / 60 – 80 (+) - 21 21 70 1.470 -35 1.225 25.725 80 – 100 - 27 27 90 2.430 -15 225 6.075 100 –120 10 14 24 110 2.640 +5 25 600 120 – 140 11 5 16 130 2.080 25 625 10.000 140 – 160 6 2 8 150 1.200 45 2.025 16.200 160 – 180 4 - 4 170 680 65 4.225 16.900 Итого 31 69 100 10.500 8.350 75.500 163 755 100 75500 2 o , что обусловлено и мощностью предприятий и формой собственности. Дальше рассмотрим, как складываются показатели товарооборота и его вариации по группам в зависимости от форм собственности. Расчет дисперсии по государственным предприятиям. г x / f г f x г г / г г x x / 2 ) ( / г г x x f x x г г г 2 ) ( / 1 2 3 4 5 6 110 10 1.100 -23 529 5.290 130 11 1.430 -3 9 99 150 6 900 17 289 1.734 170 4 680 37 1.369 5.476 Итого 31 4.110 12.599 Средний объем товарооборота по государственным предприятиям составил f f x x г г г г / , следовательно, руб млн x г 133 31 4110 г г г г г f f х х 2 2 ) ( 406 31 12599 2 г Расчет дисперсии по частным предприятиям. ч x / f ч f x ч ч / ч ч x x / 2 ) ( / ч ч x x f x x ч ч ч 2 ) ( / 1 2 3 4 5 6 70 21 1.470 -23 529 11.109 90 27 2.430 -3 9 243 110 14 1.540 17 289 4.046 130 5 650 37 1.369 6.845 150 2 300 57 3.249 6.498 Итого 69 6.390 28.741 164 Средний объем товарооборота на одночастное предприятие составил f ч f x x ч ч ч / , следовательно, руб млн x г 93 69 6930 ч ч ч ч ч f f х х 2 2 ) ( 417 69 28741 2 ч 4)Средняя из групповых дисперсий дает обобщающую характеристику вариации, возникающую под влиянием неучтенных факторов. 412 2 823 2 417 406 Расчет межгрупповой дисперсии Группы п/п по формам собственности Средний объем товарооборота одного п/п, млн. руб Число п/п, f k 0 х x k 2 ) ( о k х х f x x k o k 2 ) ( 1 2 3 4 5 6 государственные 133 31 28 784 24.304 частные 93 69 -12 144 9.936 Итого 100 34.240 Мерой колеблемости частных средних вокруг общей средней является межгрупповая дисперсия f f x x k k o k 2 2 ) ( , следовательно, 324 100 34240 Общая дисперсия равна 165 2 2 2 k , следовательно, 754 411 342 2 6) Определим коэффициент детерминации 2 2 2 , следовательно, 755 342 2 0,453 или 45,3 % Таким образом, 45,3 % различий в объеме товарооборота предприятий определено формой собственности предприятий, а 54,7 % – влиянием других факторов. Следовательно, индекс корреляции (эмпирическое корреляционное отношение 2 2 , то есть 673 , 0 755 Данное значение индекса корреляции свидетельствует осу- щественном влиянии на объем товарооборота формы собственности предприятия. |