Статистика лекции. Методические рекомендации по изучению учебной дисциплины курс Статистика состоит их трех разделов Теория статистики
Скачать 2.08 Mb.
|
Тема 6. ВЫБОРОЧНОЕ НАБЛЮДЕНИЕ Пример 1 Определите границы изменения среднего значения признака в генеральной совокупности, если известно следующее ее распределение, основанное на результатах повторного выборочного обследования: Группировка значений Число единиц выборочной признака совокупности, входящих в данный интервал До 4 10 4–8 20 8–12 36 12–16 20 16–20 14 Итого: 100 Уровень доверительной вероятности определите самостоятельно. Решение Среднее значение признака в генеральной совокупности находится в интервале: , x x x − Δ ≤ ≤ + Δ % % где x – среднее значение признака в генеральной совокупности; x% – среднее значение признака в выборочной совокупности; Δ – предельная ошибка выборочной средней. Для повторного отбора: 2 , t n σ Δ = ⋅ где t – коэффициент доверия; 2 σ – дисперсия признака в выборочной совокупности; n – объем выборки. Определяем 2 , , x σ Δ % 1. Среднее значение признака по выборке: 2 10 6 20 10 36 14 20 18 14 100 1032 10,32 10. 100 i i i x f x f ⋅ ⋅ + ⋅ + ⋅ + ⋅ + ⋅ = = = = = ≈ ∑ ∑ % 2. Выборочная дисперсия: 126 3. Вероятность ошибки установлена – 0,954, соответственно уровень коэффициента доверия составит 2. 2 21,76 2 0,94. 100 t n σ Δ = ⋅ = ⋅ = Имеем: ; 10,3 0,94 10,3 0,94; 9,36 11, 24. x x x x x − Δ ≤ ≤ + Δ − ≤ ≤ + ≤ ≤ % % Таким образом, с вероятностью 0,954 можно предположить, что среднее значение признака в генеральной совокупности будет находиться в пределах от 9,36 до 11,24. Пример 2 В результате случайной повторной выборки в городе предполагается определить долю семей с тремя детьми и более. Какова должна быть численность выборки, чтобы с вероятностью 0,954 ошибка выборки не превышала 0,02, если на основе предыдущих обследований известно, что дисперсия равна 0,27. Решение Предельная ошибка доли при повторном отборе определяется: (1 ) , t n ϖ ϖ − ϖ Δ = ⋅ где ϖ – выборочная доля; t – коэффициент доверия; n – объем выборки. Следовательно: Численность выборки должна составить 2700 семей. Тема 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗИ Пример 1 С помощью критерия 2 χ при 5%-ном уровне значимости проверьте гипотезу о том, чтоо «наследственность» является фактором возникновения гипертонической болезни. Оцените тесноту связи между заболеваемостью и наследственностью с помощью: С – коэф- фициента взаимной сопряженности Пирсона; C′ – нормированного коэффициента Пирсона; Т – коэф- фициента взаимной сопряженности Чупрова. 127 Решение Наличие связи может быть подтверждено выполнением следующего условия: 2 2 расч табл , χ > χ где 2 2 расч 1 ; ij i j f n f f ⋅ ⋅ ⎛ ⎞ ⎛ ⎞ ⎜ ⎟ ⎜ ⎟ χ = − ⎜ ⎟ ⎜ ⎟ ⋅ ⎝ ⎠ ⎝ ⎠ ∑ f ij – частота совместного появления признаков; , i j f f ⋅ ⋅ – суммы частот по строкам и столбцам соответственно; n – численность совокупности. 2 2 2 2 2 расч 15 30 2 43 90 1 12, 26; 17 45 73 45 17 45 73 45 ⎛ ⎞ χ = ⋅ + + + − = ⎜ ⎟ ⎜ ⎟ ⋅ ⋅ ⋅ ⋅ ⎝ ⎠ 2 табл 0,05 3,84, ( 1)( 1) 1 1 1 a df k l = ⎛ ⎞ χ = ⎜ ⎟ = − − = ⋅ = ⎝ ⎠ где k, l – соответственно число строк и столбцов таблицы сопряженности. 2 2 расч табл 12,26 3,84, χ = > χ = следовательно, наследственность можно считать фактором возникновения гипертонической болезни. 2. Для оценки тесноты связи между наследственностью и заболеваемостью определим: 2 2 C n χ = χ + – коэффициент взаимной сопряженности Пирсона; max C C C ′ = – нормированный коэффициент Пирсона; { } { } max min 1; 1 min 1; 1 1 k l C k l − − = − − + ; 2 ( 1)( 1) T n k l χ = − − – коэффициент взаимной сопряженности Чупрова. Итак, 12,26 0,346; 12,26 90 C = = + max 1 0,707 2 C = = ; 0,346 0, 489; 0,707 C′ = = Обследовано на заводе «Электросигнал», чел. Родители больны гипертонией Всего Больные гипертонией Здоровые Да 17 15 2 Нет 73 30 43 Итого 90 45 45 128 12, 26 0,369. 90 1 1 T = = ⋅ Таким образом, между признаками «наследственность» и «заболеваемость» существует заметная связь. Пример 2 С помощью коэффициентов взаимной сопряженности определите связь между смертностью населения различных расовых групп и местом их рождения. Умерло человек в год в одной из европейских стран: Место рождения Раса Европа Африка Всего Негроидная 1050 600 1650 Европеоидная 750 1300 2050 Итого 1800 1900 3700 Решение Связь между смертностью населения различных расовых групп и местом их рождения может быть оценена с помощью коэффициентов взаимной сопряженности – коэффициента контингенции и коэффициента ассоциации: конт ; ( )( )( )( ) ad bc K a b c d a c b d − = + + + + асс , ad bc K ad bc − = + где a, b, c, d – частоты (число единиц). Расчетная таблица Место рождения Раса Европа Африка Всего Негроидная 1050 (а ) 600 (b) 1650 (a + b) Европеоидная 750 (с) 1300 (d ) 2050 (c + d) Ито го 1800 (а + с) 1900 (b +d) 3700 Коэффициент контингенции: конт 1050 1300 750 600 915 000 0,269. 3 401 198,3 1650 2050 1800 1900 K ⋅ − ⋅ = = = ⋅ ⋅ ⋅ Коэффициент ассоциации: асс 1050 1300 750 600 915 000 0,504. 1050 1300 750 600 1 815 000 K ⋅ − ⋅ = = = ⋅ + ⋅ Рассчитанные коэффициенты сопряженности свидетельствуют о заметной связи между рассматриваемыми признаками, причем коэффициент контингенции дает более осторожную оценку связи. Пример 3 По ряду районов края определены среднесуточное количество йода в воде и пище и пораженность населения заболеванием щитовидной железы. Номер района Количество йо да в воде и пище, усл. ед. Пораженность населения заболеванием щитовидной железы, % 1 201 0,2 2 178 0,6 3 155 1,1 4 154 0,8 5 126 2,5 6 81 4,4 7 71 16,9 129 Для оценки тесноты связи пораженности заболеванием щитовидной железы с количеством йода в воде и пище определите коэффициенты корреляции рангов Спирмена, Кендэлла и Фехнера. Решение Представим в расчетной таблице все данные, необходимые для расчета ранговых показателей связи: Количество йо да в воде и пище, Х Пораженность заболеванием щитовидной железы, Y Знак отклонения от среднего ранга Усл. ед. Ранг Х % Ранг Y d 2 = (R x – R y ) 2 P(–) Q (+) x x R R − y y R R − 201 1 0,2 7 36 6 0 – + 178 2 0,6 6 16 5 0 – + 155 3 1,1 4 1 3 1 – + 154 4 0,8 5 1 3 0 + + 126 5 2,5 3 4 2 0 + – 81 6 4,4 2 16 1 0 + – 71 7 16,9 1 36 0 0 + – Ито го х Х Х 110 20 1 х х П р и м е ч а н и е: ; при берется знак «+». 1. Коэффициент корреляции рангов Спирмена (см. решение примера 4): 2 6 110 1 0, 964. 7 (7 1) ⋅ ρ = − = − ⋅ − 2. Коэффициент корреляции рангов Кендэлла: 2( 20 1) 0,904. 7(7 1) − + τ = = − − 3. Коэффициент корреляции рангов Фехнера: Ф , С Н K С Н − = + ∑ ∑ ∑ ∑ где , С Н ∑ ∑ – соответственно число совпадений и число несовпадений знаков отклонений рангов от соответствующего среднего ранга. Ф 1 6 0,714. 1 6 K − = = − + Полученные оценки ранговых коэффициентов позволяют сделать вывод о сильной обратной зависимости между заболеванием щитовидной железы и содержанием йода в воде и пище. Пример 4 Имеются данные о динамике безработицы и преступности: Год Лица в трудоспособном возрасте, не занятые в экономике, тыс. чел. Число зарегистрированных преступлений 1999 117,1 54 929 2000 134,7 77 915 2001 191,9 86 615 2002 215,0 72 404 1. По рассматриваемому периоду с помощью линейного коэффициента корреляции определите наличие связи между числом преступлений и численностью лиц, не занятых в экономике. Дайте оценку. 2. Постройте уравнение регрессии. 130 Решение Так как с увеличением числа лиц в трудоспособном возрасте (х), не занятых в экономике, равномерно увеличивается число зарегистрированных преступлений (y), то зависимость оценивается с помощью линейного уравнения регрессии, а теснота связи – с помощью линейного коэффициента корреляции. Линейный коэффициент корреляции рассчитывают по одной из приведенных формул: ( ) ( ) 2 2 2 2 ; y x xy n r x y x y n n − = ⎡ ⎤ ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ − − ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ ⎣ ⎦ ∑ ∑ ∑ ∑ ∑ ∑ ∑ x y xy x y r − ⋅ = σ σ или 2 2 ( )( ) , ( ) ( ) x x y y r x x y y − − = − − ∑ ∑ ∑ где x и x – индивидуальные значения и среднее значение факторного признака; y и y – индивидуальные значения и среднее значение результативного признака; n – число наблюдений; х σ , y σ – среднее квадратическое отклонение x и y соответственно. Уравнение прямой, с помощью которой оценивается форма зависимости изучаемых показа- телей, имеет вид: 0 1 , x y a a x = + где y x – теоретическое число зарегистрированных преступлений; x – численность лиц в трудоспособном возрасте, не занятых в экономике; а 0 и а 1 – параметры уравнения прямой, определяемые системой нормальных уравнений: 0 1 2 0 1 ; na a x y a x a x yx + = ⎧⎪ ⎨ + = ⎪⎩ ∑ ∑ ∑ ∑ ∑ откуда: 1 2 2 0 1 ; ( ) xy x y a x x a y a x − ⋅ = − = − Для определения параметров уравнения регрессии и линейного коэффициента корреляции строим расчетную таблицу и находим параметры уравнения: Годы х y Хy x 2 y x y 2 1999 117,1 54 929 6432185,9 13712,41 65 183 3 017 195 041 2000 134,7 77 915 10495150,5 18144,09 68 062 6 070 747 225 2001 191,9 86 615 16621418,5 36825,61 77 420 7 502 158 225 2002 215,0 72 404 15 566 860 46225,00 81 199 5 242 339 216 Итого 658,7 291 863 49115614,9 114907,11 291 863 2 1832 439 707 Линейный коэффициент корреляции: 658,7 291 863 49115614,9 4 433885,69 85 184 010 769 114907,11 21 832 439 707 4 4 1053075,4 1053075,4 0,567. 1858047,638 6435,6875 536437014,75 r ⋅ − = = ⎛ ⎞⎛ ⎞ − − ⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠ = = = ⋅ Полученное значение r свидетельствует о заметной (умеренной) связи между численностью лиц в трудоспособном возрасте, не занятых в экономике, и числом зарегистрированных преступлений. 131 Найдем по формулам параметры уравнения: Уравнение корреляционной связи примет следующий вид: y x = 46 025 + 163,6х. Подставив в это уравнение значения х, определяем теоретические значения y: y 1 = 46 025 + 163,6 ⋅ 117,1 = 65182,6; y 2 = 46 025 + 163,6 ⋅ 134,7 = 68061,9 и т.д. Теоретические значения приведены в таблице. Тема 8. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ДИНАМИКИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ Пример 1 По данным о числе казненных и помилованных заключенных рассчитайте по каждому ряду в отдельности: 1) абсолютные (цепные и базисные) и средние показатели динамики. Результаты представьте в расчетной таблице; 2) нанесите на график динамику рядов. Год Количество казней Помиловано 1985 404 5 1986 277 12 1987 130 10 1988 88 9 1989 76 4 1990 72 12 1991 15 37 1992 1 55 1993 4 149 1994 19 134 1995 86 5 1996 53 0 Решение Рассчитаем все показатели по ряду динамики, характеризующему число казненных: 1) абсолютный прирост: цеп 1 , i i y y − Δ = − где цеп Δ – цепной абсолютный прирост значений признака (прирост по сравнению с предыдущим моментом (периодом) времени); у i , y i–1 – значение уровня ряда в момент (период) времени i и i–1 соответственно; цеп 86 85 86 цеп 87 86 87 баз 0 = 277 404 127 130 277 147 , i y y y y y y Δ − = − = − Δ = − = − = − Δ = − где баз Δ – базисный абсолютный прирост значений признака (прирост по сравнению с моментом м (периодом) времени, принятым за базу); y 0 – значение уровня ряда в момент (период) времени, принятый за базу сравнения. баз 87 130 404 274 Δ = − = − чел; чел; чел; 132 2) темп роста: цеп р 1 T , i i y y − = где цеп р T – цепной темп роста (темп роста по сравнению с предыдущим моментом времени). (46,9%); где баз p T – базисный темп роста (темп роста по сравнению с моментом времени, принятым за базуу сравнения). баз 87 87 85 130 T 0,322 404 у у = = = (32,2%); 3) темп прироста: цеп цеп пр р Т Т 1; = − цеп цеп пр87 р87 Т Т 1 0, 469 1 0,531 = − = − = − (–53,1%); баз баз пр р Т Т 1; = − баз баз пр87 р87 Т Т 1 0,322 1 0,678 = − = − = − (–67,8%); 4) абсолютное значение 1% прироста: 1 ; 100 i у А − = 85 86 404 4,04; 100 100 y A = = = Абсолютный прирост ( Δ) Темп роста, Т р , % Темп прироста, Т пр , % Год Число казней цеп. баз. цеп. баз. цеп. баз. Абсолютное значение 1% прироста 1985 404 – – 100,0 100,0 0,0 0,0 – 1986 277 –127 –127 68,6 68,6 –31,4 –31,4 4,04 1987 130 –147 –274 46,9 32,2 –53,1 –67,8 2,77 1988 88 –112 –316 67,7 21,8 –32,3 –78,2 1,30 1989 76 –12 –328 86,4 18,8 –13,6 –81,2 0,88 1990 72 –4 –332 94,7 17,8 –5,3 –82,2 0,76 1991 15 –57 –389 20,8 3,7 –79,2 –96,3 0,72 1992 1 –14 –403 6,7 0,2 –93,3 –99,8 0,15 1993 4 3 –400 400,0 1,0 300,0 –99,0 0,01 1994 19 15 –385 475,0 4,7 375,0 –95,3 0,04 1995 86 67 –318 452,6 21,3 352,6 –78,7 0,19 1996 53 –33 –351 61,6 13,1 38,4 –86,9 0,86 В среднем 102 –32 –32 83,3 83,3 –16,7 –16,7 – 5) средние показатели: а) средний уровень: 1225 102; 12 y y n = = = б) средний абсолютный прирост: баз 351 32; 11 m Δ − Δ = = = − 133 в) средний темп роста: баз p p 1 T T , m m i = = ∏ где m – число базисных темпов роста; 6) графическое изображение анализируемого ряда динамики (рис. 2): Рис. 1. Число казней в 1987–1996 гг. Пример 2 Имеются данные об изменении объемов промышленного производства России: Темп роста общего объема промышленного производства, в % к декабрю 1994 г. Месяц 1995 1996 Январь 92,0 86,0 Февраль 90,5 86,2 Март 95,0 91,0 Апрель 88,2 88,2 Май 89,0 84,0 Июнь 90,7 83,8 Июль 89,3 83,9 Август 93,0 84,2 Сентябрь 92,6 85,0 Октябрь 94,9 89,8 Ноябрь 91,8 86,3 Декабрь 92,2 87,1 Проанализируйте сезонные изменения промышленного производства: 1) на основе индекса сезонности; 2) применяя графический метод. Решение 1. Так как тренда нет, то индекс сезонности рассчитываем по формуле: где i сез – индекс сезонности за каждый месяц каждого года; T p – темп роста за каждый месяц; p T – средний темп роста за год; 12 p p T T ; = ∏ 12 p95 T 0,3479 0,915; = = 134 12 p96 T 0,170 0,863; = = сез сез 2 i I = ∑ – средний индекс сезонности по каждому месяцу за весь рассматриваемый отрезок времени. янв сез 1,005 0,997 1,001. 2 I + = = И так далее. Расчетная таблица Темп роста, в % к декабрю 1994 г. Индексы сезонности, i сез Месяц 1995 1996 1995 1996 Индекс сезонности средний, I сез Январь 92,0 86,0 1,005 0,997 1,001 Февраль 90,5 86,2 0,989 0,999 0,994 Март 95,0 91,0 1,038 1,054 1,046 Апрель 88,2 88,2 0,964 1,022 0,993 Май 89,0 84,0 0,973 0,973 0,973 Июнь 90,7 83,8 0,991 0,971 0,981 Июль 89,3 83,9 0,976 0,972 0,974 Август 93,0 84,2 1,016 0,976 0,996 Сентябрь 92,6 85,0 1,012 0,985 0,999 Октябрь 94,9 89,8 1,037 1,041 1,039 Ноябрь 91,8 86,3 1,003 1,000 1,002 Декабрь 92,2 87,1 1,008 1,009 1,009 2. Графически сезонные изменения можно анализировать при помощи спиральной радиальной диаграммы (рис. 3 и 4): Рис. 2. Диаграмма промышленного производства по месяцам 1995 г., в % к декабрю 1994 г. Рис. 3. Диаграмма промышленного производства по месяцам 1996 г., в % к декабрю 1994 г. Вывод: максимальный объем производства – в марте и октябре. Минимальный объем производства – в июле. 135 Пример 3 Имеются данные о днях трудопотерь вследствие заболеваемости с временной утратой трудоспособности (ВУТ) на машиностроительном заводе за 1990–1999 гг. (дни на 100 работающих): Год Болезни нервной системы Хронические заболевания органов дыхания 1987 47,8 24,5 1988 51,9 16,6 1989 40,7 19,7 1990 52,2 29,1 1991 66.1 36,1 1992 75,6 45,4 1993 49,7 45,8 1994 49,1 41,9 1995 67,2 58,1 1996 60,7 69,1 1997 20,6 66,9 1998 13,7 52,2 1999 10,8 42,1 1. По каждой группе болезней для определения тенденций развития проведите: а) укрупнение интервалов; б) расчет скользящей средней (пятилетней); в) аналитическое выравнивание (по прямой). 2. На основании полученных коэффициентов регрессии (п. 1, в) проведите динамическую группи- ровку болезней, выделив при этом три группы: – растущие (а 1 – положителен, причем значимо его отклонение от 0); – благополучные (а 1 – отрицателен, значимо его отклонение от 0); – стабильные (а 1 – статистически не отличается от 0). Сделайте выводы. Решение Расчеты по болезням нервов: 1. а) число уровней ряда равно 13. Укрупненных интервалов минимальное число – 3. Тогда: 1. (1987 1990) 192,6 2. (1991 1994) 240,5 тенденции нет; 3. (1995 1998) 162,4 − − ⎫ ⎪⎪ − − ⎬ ⎪ − − ⎪⎭ б) скользящая средняя определяется: 2 1 1 2 , 5 i i i i i t y y y y y y − − + + + + + + = где t y – средний уровень ряда. Так, 1989 47,8 51,9 40,7 52,2 66,1 51,74. 5 y + + + + = = Годы Скользящая средняя Годы Скользящая средняя – 1994 60,46 – 1995 49,46 1989 51,74 1996 42,26 1990 57,30 1997 34,60 1991 56,86 1998 – 1992 58,54 1999 – 1993 61,54 136 Выводы: 1) нет устойчивой тенденции; 2) происходит снижение с 1994 г.; в) аналитическое выравнивание выполняется по прямой, уравнение которой: а 0 и а 1 определяются по методу наименьших квадратов: при 0 t = ∑ 0 606,3 46,64; 13 y a n = = = ∑ 1 2 492,2 2,7. 182 yt a t − = = = − ∑ ∑ Следовательно, y = 46,64 – 2,7t. 2. Значимость параметра а 1 оценивается с помощью t-критерия Стьюдента: 1 1(бол) расч , a a t m = где 1 ост 2 2 a m t t n σ = ⎛ ⎞ − ⎜ ⎟ ⎝ ⎠ ∑ ∑ – средняя ошибка параметра а 1 ; 2 ост ( ) 2 t y y n − σ = − ∑ – остаточное среднее квадратическое отклонение. Необходимые данные представлены в расчетной таблице: Год Уровень ряда (y) t y t (y – y t ) 2 1987 47,8 –6 62,84 226,20 1988 51,9 –5 60,14 67,90 1989 40,7 –4 57,44 280,22 1990 52,2 –3 54,74 6,45 1991 66,1 –2 52,04 197,68 1992 75,6 –1 49,34 689,59 1993 49,7 0 46,64 9,36 1994 49,1 1 43,94 25,63 1995 67,2 2 41,24 673,92 1996 60,7 3 38,54 491,07 1997 20,6 4 35,84 232,26 1998 13,7 5 33,14 377,91 1999 10,8 6 30,44 385,73 Ито го Х 0 х 3661,50 ост 3661,5 18,24; 13 2 σ = = − 1 18, 24 18, 24 1,35; 13,49 182 a m = = = расч 2,7 2,0; 1,35 t = = табл 0,05 2,201; 2 13 2 11 t l n α = ⎛ ⎞ ⎜ ⎟ = ⎜ ⎟ = − = − = ⎝ ⎠ |