66 Молчанова Статистика УМК без титула (1). I. Теория статистики
Скачать 1.56 Mb.
|
взаимной сопряженности у х I II III Итого I II III xy n x n x n 185 x n Итого y n y n y n n ∑ ∑ = ∑ ∑ = + x y xy y x xy n n n n n n 2 2 2 1 ϕ (1.9.22) Пример. С помощью коэффициентов взаимной сопряженности исследуем связь между квалификацией рабочих предприятия и уровнем их образования (см. табл. 1.9.8). Таблица 1.9.8 Зависимость квалификации рабочих от их уровня образования Квалификация Образование Итого незаконченное среднее среднее незаконченное высшее Низкая Средняя Высокая 15 10 - 5 20 15 - 5 20 20 35 35 Итого 25 40 25 90 642 , 1 35 20 20 40 15 35 25 5 40 20 25 10 20 40 5 25 15 1 2 2 2 2 2 2 2 2 = + + + + + + = + ϕ ; 642 , 1 1 2 = + ϕ 642 , 0 2 = ϕ 63 , 0 39 , 0 642 , 1 642 , 0 = = = П K ; 57 , 0 321 , 0 2 2 642 , 0 = = ⋅ = Ч K Связь умеренная. 186 1.9.7 Ранговые коэффициенты связи Исследуя экономику, необходимо считаться с взаимосвязью наблюдаемых показателей и величин. При этом полнота описания, так или иначе, определяется количественными характеристиками причинно- следственных связей между ними. Оценка наиболее существенной из них, а также воздействия одних факторов на другие является одной из основных задач статистики. Формы проявления взаимосвязей разнообразны. Одна из основных форм корреляционная (неполная, статистическая) связь. Задачи корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак. Ранжирование - упорядочение единиц совокупности по значению признака. При ранжировании каждой единице совокупности присваивается ранг. Ранг - этопорядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Если значения признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным средней арифметической из соответствующих номеров мест, которые определяют. Данные ранги называются связными. Среди непараметрических методов оценки тесноты связи наибольшее значение имеют ранговые коэффициенты Спирмена ( y x p ) и Кендалла ( τ ). Эти коэффициенты могут быть использованы для определения тесноты связи как между количественными, так и между качественными признаками. Коэффициент корреляции рангов (коэффициент Спирмена) рассчитывается по формуле: ( ) 1 6 1 2 2 − ∑ − = n n d i y x ρ (1.9.23) d – разность рангов признаков Х и Y; n – число наблюдаемых единиц. 187 В случае отсутствия связи y x p =0. При прямой связи коэффициент y x p - положительная дробь, при обратной – отрицательная. Коэффициент Спирмена принимает любые значения в интервале [−1; 1] . Пример. По данным пятнадцати заводов, представленных в табл. 1.9.9, рассчитать коэффициент ранговой корреляции Спирмена, характеризующий степень тесноты связи между стоимостью основных фондов и выработкой цемента. Сущность метода Спирмена состоит в следующем: 1) располагают варианты факторного признака по возрастанию - ранжируют единицы по значению признака y; 2) для каждой единицы совокупности указывают ранг с точки зрения результативного признака y . Если связь между признаками прямая, то с увеличением ранга признака x ранг признака y также будет возрастать; при тесной связи ранги признаков x и y в основном совпадут. При обратной связи возрастанию рангов признака x будет, как правило, соответствовать убывание рангов признака y. В случае отсутствия связи последовательность рангов признака y не будет обнаруживать никакого порядка возрастания или убывания. Таблица 1.9. 9 Исходные данные № п/п Среднегодовая стоимость промышленно- производственных фондов, млн. руб. (х) Выпуск цемента, тыс. т (у) 1 2 3 4 5 6 7 8 9 10 11 11,1 8,4 8,0 7,9 5,3 10,3 8,0 8,7 12,8 5,4 5,8 8,8 22,3 19,8 20,8 11,5 25,8 22,8 15,7 21,7 10,7 12,2 188 12 13 14 15 3,6 5,5 4,5 2,9 8,5 13,9 14,5 7,6 Возьмем данные по условию, занесем их в графы 1-3 табл. 1.9.10 и проведем ранжирование (распределение по рангам). Результаты ранжирования отражены в графах 4 и 5 табл. 1.9.10. Для определения рангового коэффициента Спирмена ( y x p ) заполним графы 6 и 7 таблицы 1.9.10. Подставим в формулу (1.9.23) данные графы 7 табл. 1.9.10, n = 15 и получим: 63 , 0 3360 1254 1 ) 1 15 ( 15 209 6 1 2 = − = − ⋅ − = y x ρ В итоге получили положительную дробь, причем значение ее больше, чем 0,5, что свидетельствует о существенной прямой связи между стоимостью основных производственных фондов и количеством выпущенного цемента. , Таблица 1.9.10 Расчетные данные для определения рангового коэффициента Спирмена № п/п Среднегодовая стоимость промышленно- производственных фондов, млн. руб. х Выпуск цемента, тыс. т у Ранги Раз- ность ран- гов d Квадрат раз- ности рангов 2 d x R у R 1 2 3 4 5 6 7 1 2 3 4 5 6 7 11,1 8,4 8,0 7,9 5,3 10,3 8,0 8,8 22,3 19,8 20,8 11,5 25,8 22,8 14 11 9 8 4 13 10 3 13 10 11 5 15 14 11 -2 -1 -3 -1 -2 -4 121 4 1 9 1 4 16 189 8 9 10 11 12 13 14 15 8,7 12,8 5,4 5,8 3,6 5,5 4,5 2,9 15,7 21,7 10,7 12,2 8,5 13,9 14,5 7,6 12 15 5 7 2 6 3 1 9 12 4 6 2 7 8 1 3 3 1 1 0 -1 -5 0 9 9 1 1 0 1 25 0 ∑ - - - - - 209 Ранговый коэффициент корреляции Кендалла ( τ ) также может использоваться для измерения взаимосвязи между качественными и количественными признаками, характеризующими однородные объекты и ранжированные по одному принципу. Расчет рангового коэффициента Кендалла осуществляется по формуле: ( ) 1 2 − = n n S τ (1.9.24) где n - число наблюдений; S - сумма разностей между числом последовательностей и числом инверсий по второму признаку. Расчет данного коэффициента выполняется в следующей последовательности: 1. Значения x ранжируются в порядке возрастания или убывания; 2. Значения y располагаются в порядке, соответствующем значениям x; 3. Для каждого ранга y определяется число следующих за ним значений рангов, превышающих его величину. Суммируя, таким образом, числа определяется величина P, как мера соответствия последовательностей рангов по x и y и учитывается со знаком (+); 4. Для каждого ранга y определяется число следующих за ним значений рангов, меньших его величины. Суммарная величина обозначается через Q и фиксируется со знаком (-); 5. Определяется сумма баллов по всем членам ряда. В приведенном примере (таблица 1.9.10): P = 14+13+7+9+9+7+7+4+4+1+1+2+0+1+0 = 79; Q = 0+0+5+2+1+2+1+3+2+4+3+1+1+0+0 = 25; Таким образом: 190 ( ) ( ) 51 , 0 1 15 15 25 79 2 = − − ⋅ = τ , что свидетельствует об умеренной связи между рассматриваемыми признаками. Как правило, коэффициент Кендалла меньше коэффициента Спирмена. При достаточно большом объеме совокупности значения данных коэффициентов имеют следующую зависимость: y x p 3 2 = τ Связь между признаками признается статистически значимой, если значения коэффициентов ранговой корреляции Спирмена и Кендалла больше 0,5. Тренировочные задания 1. Имеются данные от Fortune о связи между оборотом и прибылью крупнейших компаний мира в 2004 г.: 191 // «Эксперт» №28 (475), 2005 Составьте линейное уравнение регрессии. Вычислите параметры методом наименьших квадратов и сформулируйте выводы. Решение: Расчетные показатели представим в следующей таблице: Расчетная таблица для определения параметров уравнения регрессии в зависимости от оборота и прибыли компаний 2 х ху 2 у х у 82944,00 2966,40 106,09 16,5 81282,01 4390,54 237,16 16,3 73332,64 6851,24 640,09 15,4 72199,69 4890,34 331,24 15,3 37442,25 541,80 7,84 10,6 31222,89 547,77 9,61 9,5 29790,76 1881,34 118,81 9,3 29652,84 602,70 12,25 9,3 23378,41 2568,72 282,24 8,1 23286,76 1831,20 144,00 8,0 484532,25 27072,05 1889,33 118,3 Компания Оборот, млрд. долл. (x) Прибыль, млрд. долл. (y) 1. Wal Mart Stores 288,0 10,3 2. BP 285,1 15,4 3. Exxon Mobil 270,8 25,3 4. Royal Dutch/Shell 268,7 18,2 5. General Motors 193,5 2,8 6. Daimler Chrysler 176,7 3,1 7. Toyota Motor 172,6 10,9 8. Ford Motor 172,2 3,5 9. General Electric 152,9 16,8 10. Total 152,6 12,0 Итого: 2133,1 118,3 192 Система нормальных уравнений для нахождения параметров линейной парной регрессии методом наименьших квадратов имеет следующий вид: ∑ ∑ ∑ = + ∑ ∑ = + ; 2 1 0 1 0 xy x a x a y x a n a где n - объем исследуемой совокупности; 0 а - показывает усредненное влияние на результативный признак неучтенных факторов; 1 а - коэффициент регрессии, показывает, на сколько изменяется в среднем значение результативного признака при изменении факторного на единицу его собственного измерения. Решим систему: 05 , 27072 а 25 , 484532 2133,1a 118,3; 2133,1a 10a 1 0 1 0 = + = + ; 89 , 295206 1 , 2133 10 25 , 484532 25 , 484532 1 , 2133 1 , 2133 10 2 = − ⋅ = = ∆ ; 68 , 427224 25 , 484532 05 , 27072 1 , 2133 3 , 118 0 − = = ∆ a ; 77 , 18374 05 , 27072 1 , 2133 3 , 118 10 1 = = ∆ a ; 0 0 ∆ ∆ = a a ; 1 1 ∆ ∆ = a a ; 4472 , 1 89 , 295206 68 , 427224 0 − = − = a , 0622 , 0 89 , 295206 77 , 18374 1 = = a Отсюда: 0622 , 0 4472 , 1 x у x + − = С увеличением оборота на 1 млрд. долл., прибыль компаний возрастает в среднем на 62,2 млн. долл. 193 2. При опросе жителей РФ предлагалось высказать свое мнение по следующим утверждениям: 1. Вступление в ВТО будет способствовать росту ВВП. 2. Вступление в ВТО никак не повлияет на рост ВВП. Результаты обследования характеризуются следующими данными (чел.): Варианты ответов Количество опрашиваемых в возрасте, лет Всего 18-35 36-50 Верно первое 150 135 285 Верно второе 105 110 215 Итого: 255 245 500 Рассчитать коэффициенты ассоциации и контингенции. Решение: Воспользуемся вспомогательной таблицей для вычисления коэффициентов ассоциации и контингенции: a b a+b c d c+d a+c b+d a+b+c+d Коэффициенты вычисляются по следующим формулам: ассоциации: bc ad bc ad K a + − = ; контингенции: ( ) ( ) ( ) ( ) d c c a d b b a bc ad K k + ⋅ + ⋅ + ⋅ + − = Причем, а К > к К всегда. Связь считается подтвержденной, если а К ≥ 0,5 или к К ≥ 0,3. а К = ; 076 , 0 30675 2325 105 135 110 150 105 135 110 150 = = ⋅ + ⋅ ⋅ − ⋅ к К = 038 , 0 1 , 61872 2325 215 255 245 285 105 135 110 150 = = ⋅ ⋅ ⋅ ⋅ − ⋅ Вывод: так как а К < 0,5 и к К < 0,3 , то варианты ответов опрашиваемых не зависят от их возраста. 194 3. Имеются следующие данные о распределении школ города по типам и оценке сложности учебного предмета «Физика», тыс. человек: Тип школы Хорошее освоение курса Среднее освоение курса Проблемы с освоением курса Гимназия Лицей Колледж 84,0 78,3 62,5 12,2 10,7 17,6 3,8 10,4 19,3 Рассчитайте коэффициенты взаимной сопряженности Пирсона и Чупрова. Сформулируйте выводы. 4. В результате проведённого обследования оценки уровня жизни работающих на предприятиях различных форм собственности было опрошено 250 респондентов. Результаты опроса представлены в следующей таблице: Форма собственности предприятия Удовлетворённость уровнем жизни Итого Вполне удовлетворён Не удовлетворён Бюджетная организация Частное предприятие 88 25 125 12 213 37 Итого 113 55 250 Рассчитайте коэффициенты ассоциации и контингенции. 5. Имеются данные о связи между производством труб и выручкой предприятий российского трубного рынка в 2004 г.: № п/п Производство труб, млн. тонн Выручка, млн. долл. 1 0,60 330 2 0,78 602 3 0,53 360 4 0,58 450 5 0,76 623 6 0,68 230 7 0,90 897 // «Эксперт» №3 (450), 2005 Вычислите ранговые коэффициенты Спирмена и Кендалла. 195 6. По 10 однородным предприятиям имеются следующие данные: № предприятия 1 2 3 4 5 6 7 8 9 10 Количество рабочих с профессиональной подготовкой, % 10 12 14 17 24 28 30 35 40 50 Количество бракованной продукции, % 18 17 14 12 10 10 8 9 6 6 По исходным данным постройте однофакторную регрессионную модель зависимости между выпуском бракованной продукции и профессиональной подготовкой рабочих. Вычислите показатели тесноты корреляционной связи. 7. По 8 продовольственным магазинам имеются следующие данные: Товарооборот, тыс. руб. 7 10 15 20 30 45 60 120 Уровень издержек обращения по отношению к товарообороту, % 10 9,0 7,2 6,0 6,3 5,8 5,4 5,0 Найдите уравнение корреляционной связи товарооборота и уровня издержек обращения. Изобразите графически корреляционную связь. Вычислите коэффициенты эластичности, показатели тесноты корреляционной связи. 8. Распределение предприятий по источникам средств для их покупки характеризуется следующими данными: Источник средств Малый бизнес Средний бизнес Итого Банковский кредит Собственные средства 33 40 35 17 68 57 Итого 73 52 125 Вычислите коэффициенты ассоциации и контингенции. Какие выводы можно сделать на основании значений этих коэффициентов? 196 Тест 1. По направлению связи различают: а) линейные; б) прямые; в) умеренные. 2. По аналитическому выражению связи бывают: а) тесные; б) криволинейные; в) обратные; г) сильные. 3. Функциональной является связь: а) между двумя признаками; б) при которой определенному значению факторного признака соответствует несколько значений результативного признака; в) при которой определенному значению факторного признака соответствует одно значение результативного признака; 4. Аналитическое выражение связи определяется с помощью метода анализа: а) корреляционного; б) регрессионного; в) группировок. 5. Коэффициент эластичности показывает: а) на сколько процентов в среднем изменится значение результативного признака при изменении факторного признака на 1%; б) на сколько изменится в среднем значение результативного признака при увеличении факторного на единицу собственного измерения; в) степень тесноты связи между результативным и факторным признаком; г) степень вариации результативного признака. 6. С помощью каких показателей характеризуется теснота связи? а) коэффициент детерминации; б) коэффициент регрессии; в) коэффициент корреляции. 7. Анализ тесноты и направления связей двух признаков осуществляется на основе: а) частного коэффициента корреляции; б) парного коэффициента корреляции; в) множественного коэффициента корреляции; г) частного коэффициента эластичности. 197 8. Отметьте правильное определение частной корреляции: а) связь между двумя признаками; б) зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков; в) зависимость результативного и двух или более факторных признаков, включенных в исследование. 9. По следующим данным рассчитайте линейный коэффициент корреляции: xy =4; x =2; y =1,5; у σ =0,5; х σ =4. а)3; б) 0,4; в) 0,5; г) 0,25. 10. Коэффициент корреляции показывает: а) на сколько процентов в среднем изменится значение результативного признака при изменении факторного признака на 1%; б) на сколько изменится в среднем значение результативного признака при увеличении факторного на единицу собственного измерения; в) степень тесноты связи между результативным и факторным признаком; г) степень вариации результативного признака. |