66 Молчанова Статистика УМК без титула (1). I. Теория статистики
Скачать 1.56 Mb.
|
Относительными показателями вариации являются: относительное линейное отклонение; 136 коэффициент вариации и др. Для иллюстрации расчетов этих показателей воспользуемся следующими данными: Таблица 1.7.1 Распределение организаций по размерам среднемесячных затрат на рабочую силу Группы организаций по средним размерам затрат на рабочую силу в % от среднеотраслевых затрат Удельный вес предприятий по обследованным отраслям экономики, в % к итогу до 30 13,2 30 – 50 28,6 50 – 75 24,9 75 – 100 13,6 100 – 150 12,2 150 – 250 5,7 250 – 300 1,8 Итого: 100 Самым простым показателем, уже использованным выше при группировке данных, является размах вариации. Он представляет собой разность максимального и минимального значений признака: R = min max х х − =300 – 0 = 300% (1.7.1) Недостатком данного показателя является то, что он оценивает только границы варьирования признака и не отражает его колеблемость внутри этих границ. Для анализа вариации необходим и показатель, который отражает все колебания варьирующего признака, дающий обобщенную ее характеристику. В качестве такой величины можно условно принять среднюю величину из всех значений признака, так как в ней более или менее погашаются случайные отклонения от закономерного хода развития явления, и средняя тем самым отражает типичный размер признака у данной однородной совокупности единиц. Такая средняя называется средним линейным отклонением ( d ). Оно вычисляется как средняя арифметическая из абсолютных значений отклонений вариант х i и х (взвешенная или простая в зависимости от исходных условий) по следующим формулам: n x i x d ∑ − = (1.7.2) – простая формула; ∑ ∑ − = i f i f x i x d (1.7.3) – взвешенная формула; По данным нашего примера определим среднее линейное отклонение, построив для удобства расчетов вспомогательную табл. 1.7.2. 137 1) находим середины интервалов ( i х ′ ) по исходным данным (гр. 1) и записываем их в таблицу (гр. 3); 2) определим произведения значений середин интервалов ( i х ′ ) на соответствующие им веса (f i ) (гр. 4). В итоге получаем 7248,3. Рассчитаем среднюю величину по формуле средней арифметической взвешенной: % 5 , 72 100 3 , 7248 = = ⋅ ′ = ∑ ∑ i i i f f x x Таблица 1.7.2 Распределение организаций по размерам среднемесячных затрат на рабочую силу Группы организаций по средним размерам затрат на рабочую силу в % от средне- отраслевых затрат х i Удельный вес предприя- тий по обследо- ванным отраслям экономики, в % к итогу f i Сере- дина ин- тер- вала ( i х ′ ) i i f х ⋅ ′ x х i − ′ i i f x х ⋅ − ′ ( ) i i f x х ⋅ − ′ 2 1 2 3 4 5 6 7 до 30 13,2 15,0 198,0 57,5 759 43642,5 30 – 50 28,6 40,0 1144,0 32,5 929,5 30208,75 50 – 75 24,9 62,5 1556,3 10 249 2490 75 – 100 13,6 87,5 1190,0 15 204 3060 100 – 150 12,2 125 1525,0 52,5 640,5 33626,25 150 – 250 5,7 200 1140,0 127,5 726,75 92660,63 250 – 300 1,8 275 495,0 202,5 364,5 73811,25 Итого: 100 7248,3 3873,25 279499,38 3) для расчета среднего линейного отклонения находим абсолютные отклонения середины интервалов, принятых нами в качестве вариантов признака ( i х ′ ) от средней величины ( х ) (гр. 5) 4) вычисляем произведения отклонений | i х ′ - х | на их веса (f i ) и подсчитываем сумму этих произведений (3873,25). Результаты заносим в гр. 6. 5) делим эту сумму на сумму весов, чтобы получить искомую величину d : % 7 , 38 100 25 , 3873 = = d 138 Следующие абсолютные показатели, которые мы будем определять, это дисперсия и среднее квадратическое отклонение. Эти показатели являются общепринятыми мерами вариации и часто используются в статистических исследованиях. Дисперсия представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины и вычисляется по формулам простой и взвешенной дисперсий (в зависимости от исходных данных): ( ) n x x i ∑ − = 2 2 σ (1.7.4) – простая формула; ( ) ∑ ∑ − = i i i f f x x 2 2 σ (1.7.5) – взвешенная формула; Среднее квадратическое отклонение определяется как квадратный корень из дисперсии и имеет ту же размеренность, что и изучаемый признак: ( ) n x x i ∑ − = 2 σ (1.7.6) – простая формула; ( ) ∑ ∑ − = i i i f f x x 2 σ (1.7.7) – взвешенная формула; Рассмотрим расчет дисперсии и среднего квадратического отклонения по данным таблицы 1.7.2. 1) возводим отклонения i х ′ от х во вторую степень и умножаем на их веса f i , затем подсчитываем сумму этих произведений. Эта сумма равна 279499,38. Результаты записываем в гр. 7. 2) разделив эту сумму на сумму весов, получаем дисперсию: 0 , 2795 100 38 , 279499 2 = = σ 3) извлекая из дисперсии корень второй степени, получаем среднее квадратическое отклонение: % 9 , 52 2795 = = σ Степень вариации в данной совокупности велика, так как средняя величина равна 72,5%. Это говорит о том, что рассматриваемая нами совокупность неоднородна. 139 Рассмотренные показатели позволяют получить абсолютное значение вариации, т.е. оценивают ее в единицах измерения исследуемого признака. В отличие от них, относительное линейное отклонение и коэффициент вариацииизмеряет колеблемость в относительном выражении, относительно среднего уровня, что во многих случаях является предпочтительнее. Относительное линейное отклонение ( d V ): % 100 ⋅ = x d V d (1.7.8) Определим значение этого показателя по нашим данным: d V =38,7/ 72,5*100=53,4% Коэффициент вариации ( σ V ): ,% 100 ⋅ = x V σ σ (1.7.9) Определим значение коэффициента вариации по нашим данным: σ V =52,9/ 72,5*100=73,0% Рассчитанная величина свидетельствует о значительном относительном уровне колеблемости признака. Если σ V превышает 33%, то совокупность по рассматриваемому признаку можно считать неоднородной. Следует отметить, что дисперсию используют не только для оценки вариации, но и при измерении взаимосвязей, для проверки статистических гипотез и т.п. Дисперсия может быть рассчитана и по упрощенной формуле: ( ) 2 2 2 x х − = σ (1.7.10) Как и любая средняя, дисперсия имеет определенные математические свойства: а) если все значения признака х i уменьшить (увеличить) на определенную величину, дисперсия не изменится; б) если все значения признака изменить в k раз, то дисперсия изменится в k 2 раз; 140 в) в случае замены частот частостями дисперсия не изменится. Статистическое изучение вариации многих социально- экономических явлений проводится и при помощи дисперсии альтернативного признака, вариация которого имеет два взаимоисключающих значения – «1» (наличие данного признака) и «0» (отсутствие его), долю вариантов, обладающих данным признаком, р, и не обладающих им q. Так как ряд р + q = 1, то средняя p x = , а дисперсия альтернативного признака рq = 2 σ , где n m p = , n – число наблюдений, m – число единиц совокупности, обладающее данным признаком, q = 1- р. Отсюда дисперсию доли альтернативного признака можно выразить следующим образом: ) 1 ( 2 р р − = σ (1.7.11) Пример. Экзамен по информатике сдали 25 человек из 30. Определим дисперсию доли студентов, не сдавших экзамен: 2 , 0 30 5 = = Р 16 , 0 ) 2 , 0 1 ( 2 , 0 2 = − = σ Наряду с изучением вариации признака по всей совокупности в целом часто бывает необходимо проследить количественные изменения признака по группам, на которые разделяется совокупность, а также и между группами. Такое изучение вариации достигается посредством вычисления и анализа различных видов дисперсии. 1.7.3 Виды дисперсий и методы их расчета Для совокупности, сгруппированной по определенному признаку можно рассчитать три вида дисперсий: внутригрупповую дисперсию; межгрупповую дисперсию; общую дисперсию. Внутригрупповая дисперсия оценивает колеблемость значения индивидуального признака внутри группы. Эта вариация возникает под влиянием неучтенных факторов и не зависит от признака, положенного в основу группировки. Она исчисляется следующим образом: ( ) ∑ ∑ − = i i i i i f f x x 2 2 σ , (1.7.12) 141 где i х - средняя по изучаемой группе (групповая средняя). Средняя из внутригрупповых дисперсий отражает ту часть вариации результативного признака, которая обусловлена действием всех прочих неучтенных факторов, кроме фактора, по которому осуществлялась группировка. Средняя из внутригрупповых дисперсий определяется по формуле арифметической взвешенной: ∑ ∑ ⋅ = i i i i f f σ σ 2 2 (1.7.13) Межгрупповая дисперсия отражает ту часть вариации результативного признака, которая обусловлена воздействием признака факторного. Это воздействие проявляется в отклонении групповых средних от общей средней: ( ) ∑ ∑ ⋅ − = i i i f f x x 2 2 δ (1.7.14) Общая дисперсия оценивает вариацию изучаемого признака, возникающего под влиянием всех факторов. Между рассматриваемыми видами дисперсий существует определенная взаимосвязь, которая называется правилом сложения дисперсий: 2 2 2 δ σ σ + = i (1.7.15) Согласно правилу сложения дисперсий общая дисперсия, возникающая под влиянием всех факторов, равна сумме дисперсий, возникающих под влиянием всех прочих факторов, и дисперсии, возникающей за счет группировочного признака. Зная любые два вида дисперсий, можно определить или проверить правильность расчета третьего вида. На основании правила сложения дисперсий можно измерить тесноту связи между группировочным (факторным) и результативным признаками. Для этого рассчитывается: 1) коэффициент детерминации: 2 2 2 σ δ η = (1.7.16) Коэффициент детерминации показывает, какая доля вариации результативного признака объясняется вариацией признака фактора, положенного в основу группировки. 142 2) эмпирическое корреляционное отношение: σ δ η 2 2 = (1.7.17) Величина показателя изменяется в пределах от 0 до 1. Чем ближе к 1, тем сильнее взаимосвязь между рассматриваемыми признаками. Пример: По данным обследования коммерческих банков города, 70% общего числа клиентов составили юридические лица со средним размером кредита 120 тыс. руб. и коэффициентом вариации 25%, а 30% - физические лица со средним размером ссуды 20 тыс. руб. при среднем квадратическом отклонении 6 тыс. руб. Используя правила сложения дисперсий, определим тесноту связи между размером кредита и типом клиента, исчислив эмпирическое корреляционное отношение. Расчет эмпирического корреляционного отношения включает несколько этапов: 1) в данном примере групповые средние нам даны по условию: 1 i х = 120 тыс. руб.; 2 i x = 20 тыс. руб.; 2) рассчитаем, используя групповые средние, общую среднюю: 90 30 70 30 20 70 120 руб тыс f f х х i i i = + ⋅ + ⋅ = ∑ ∑ = 3) затем вычислим среднюю из внутригрупповых дисперсий. Для этого сначала проведем расчеты дисперсий по группам, используя исходные данные: 900 30 30 100 25 120 100 100 2 2 1 1 = ⇒ ⋅ ⋅ ⇒ ⋅ = = = = = i i руб тыс V x x V σ σ σ σ σ ; 36 6 6 2 2 2 2 = = = ⇒ i i руб тыс σ σ ; Подставив полученные значения в формулу, получим: 143 8 , 640 100 1080 63000 30 70 30 36 70 900 2 2 = + = + ⋅ + ⋅ = ∑ ∑ ⋅ = i i i i f f σ σ 4) теперь определим межгрупповую дисперсию: ( ) 2100 100 14700 63000 30 70 30 ) 90 20 ( 70 ) 90 120 ( ; 2 2 2 2 2 = + = + ⋅ − + ⋅ − = ⋅ − = ∑ ∑ δ δ i i i f f x x Таким образом, общая дисперсия по правилу сложения дисперсий равна: 8 , 2740 2100 8 , 640 2 2 2 = + = + = δ σ σ i 5) рассчитаем эмпирическое корреляционное отношение: 875 , 0 8 , 2740 2100 2 2 = = = σ δ η Полученная величина свидетельствует о том, что тип клиента существенно влияет на размер кредита. Наряду с вариацией индивидуальных значений признака вокруг средней может наблюдаться и вариация индивидуальных долей признака вокруг средней доли. Для анализа этой вариации вычисляются следующие виды дисперсий. Внутригрупповая дисперсия доли определяется по следующей формуле: ) 1 ( 2 i i i p p p − ⋅ = σ (1.7.18) Средняя из внутригрупповых дисперсий: ( ) ( ) ∑ ∑ ⋅ − ⋅ = − ⋅ = i i i i i i i n n p p p p P 1 1 2 σ (1.7.19) Межгрупповая дисперсия: ( ) i i i i n n p p P ∑ ⋅ − = 2 2 δ , (1.7.20) 144 где i n - численность единиц в отдельных группах; р - доля изучаемого признака во всей совокупности, которая определяется по следующей формуле: ∑ ∑ ⋅ = i i i n n p p (1.7.21) Общая дисперсия имеет вид: ( ) p p P − ⋅ = 1 2 σ (1.7.22) Три вида дисперсии связаны между собой следующим образом: δ σ σ 2 2 2 p p P i + = (1.7.23) Данная взаимосвязь дисперсий называется теоремой сложения дисперсии доли признака. Эта теорема широко используется в изучении колеблемости качественных признаков. Тренировочные задания 1. Имеются следующие выборочные данные о расходах на платные услуги домохозяйствами городского и сельского населения: Группы населения Обследовано домохозяйств Доля расходов на платные услуги, % Городское 620 40 Сельское 280 30 145 Определите для домохозяйств городского и сельского населения: 1) общую дисперсию; 2) среднюю из групповых дисперсий; 3) межгрупповую дисперсию, используя правило сложения дисперсий. Решение: 1. Определим общую дисперсию. Для этого сначала рассчитаем долю изучаемого признака во всей совокупности: % 9 , 36 900 33200 280 620 280 30 620 40 = = + ⋅ + ⋅ = ∑ ∑ ⋅ = i i i f f p p , Подставив полученное значение в формулу, получим: ( ) 2328 , 0 ) 369 , 0 1 ( 369 , 0 1 2 = − ⋅ = − ⋅ = p p P σ ; 2. Вычислим среднюю из групповых дисперсий: ( ) ; 2307 , 0 900 280 21 , 0 620 24 , 0 280 620 280 ) 3 , 0 1 ( 3 , 0 620 ) 4 , 0 1 ( 4 , 0 ; 1 2 2 = ⋅ + ⋅ = + ⋅ − + ⋅ − = ∑ ∑ ⋅ − ⋅ = σ σ i i i i i i P P f f p p 3. Теперь рассчитаем межгрупповую дисперсию, используя правило сложения дисперсий: 0021 , 0 2307 , 0 2328 , 0 2 2 2 2 2 2 = − = − = ⇒ + = i i p р р p p P σ σ δ δ σ σ ; Проверим полученный результат, исчислив межгрупповую дисперсию обычным способом: 146 |