Статистика. Занятие 1 Тема Сводка и группировка статистических данных Методические указания по теме
Скачать 179.36 Kb.
|
Практическое занятие 3,4Тема 4. Средние величины и показатели вариации Методическиеуказанияпо теме Задача 1. Имеются следующие данные о возрастном составе студентов группы заочного отделения ВУЗа (лет): 19; 19; 19; 20; 20; 20; 20; 20; 20; 20; 20; 20; 21; 21; 21; 22; 23; 23; 24; 25; 25; 25; 26; 27; 29. Для анализа распределения студентов по возрасту требуется: 1) построить интервальный ряд распределения и его график; 2) рассчитать модальный, медианный и средний возраст, установить его типичность с помощью коэффициентов вариации. Решение. Для построения интервального ряда из дискретного используется формула Стерджесса, с помощью которой определяется оптимальное количество интервалов (n): n=1+3,322lgN,(12) где N– число величин в дискретном ряде. В нашей задаче n = 1 + 3,322lg25 = 1 + 3,322*1,398 = 5,64. Так как число интервалов не может быть дробным, то округлим его до ближайшего целого числа, т.е. до 6. После определения оптимального количества интервалов определяем размах интервала по формуле: h=H/ n,(13) где H– размах вариации, определяемый по формуле (14). H= Хмах–Хmin,(14) где Xмaxи Xmin— максимальное и минимальное значения в совокупности. В нашей задаче h=(29 – 19)/6 = 1,67. Интервальная группировка данных приведена в первом столбце таблицы 1, которая содержит также алгоритм и промежуточные расчеты. Таблица 1 - Вспомогательные расчеты для решения задачи
Число студентов На основе этой группировки строится график распределения возраста студентов (рис.2). 1,2 1 0,8 0,6 0,4 0,2 0 Рис.2. График распределения возраста студентов. Мода – это наиболее часто повторяющееся значение признака. Для интервального ряда с равными интервалами величина моды определяется по формуле (15): Mo X h fMo fMo1 , (15) 2 f Mo Mo fMo1 fMo1 где ХMo– нижнее значение модального интервала; fMo– число наблюдений или объем взвешивающего признака (вес признака) в модальном интервале; fMo-1– то же для интервала, предшествующего модальному; fMo+1– то же для интервала, следующего за модальным; h– величина интервала изменения признака в группах. В нашей задаче чаще всего повторяется (12 раз) первый интервал возраста (до 20,67), значит, это и есть модальный интервал. Используя формулу (15), определяем точное значение модального возраста: Мо= 19 + 1,667*(12-0)/(2*12-4-0) = 20 (лет). Медиана – это такое значение признака, которое приходится на середину ранжированного ряда. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака больше медианы, другая – меньше медианы. Для интервального ряда с равными интервалами величина медианы определяется так: Me X h0,5 f Mef fM e1 , (16) Me где XMe– нижняя граница медианного интервала; h– его величина (размах); fM e1– сумма наблюдений (или объема взвешивающего признака), накопленная до начала медианного интервала; fMe– число наблюдений или объем взвешивающего признака в медианном интервале. В нашей задаче второй интервал возраста (от 20,67 до 22,33) является медианным, так как на него приходится середина ряда распределения возраста. Используя формулу (16), определяем точное значение медианного возраста: Ме= 20,67 + 1,667*(12,5-12)/4 = 20,878 (года). Средняя величина – это обобщающий показатель совокупности, характеризующий уровень изучаемого явления или процесса. Средние величины могут быть простыми и взвешенными. Простая средняя рассчитывается при наличии двух и более статистических величин, расположенных в произвольном (несгруппированном) порядке, по общей формуле (17). Взвешенная средняя величина рассчитывается по сгруппированным статистическим величинам с использованием общей формулы (18). X=m Xm i N ; (17) X=m Xmf i i fi (18) При этом обозначено: Xi– значения отдельных статистических величин или середин группировочных интервалов; m - показатель степени, от значения которого зависят видысредних величин. Используя формулы и (18) при разных показателях степени m, получаем частные формулы каждого вида (см. таблицу 2). Таблица 2 - Виды степенных средних и их применение
Выбор вида формулы средней величины зависит от содержания осредняемого признака и конкретных данных, по которым ее приходится вычислять. Показатель степени m в общей формуле средней величины оказывает существенное влияние на значение средней величины: по мере увеличения степени возрастает и средняя величина (правило мажорантности средних величин), то есть XГМ <Xгеом< Хар< ХКВ< Хкуб.Так, если m , то X Xmax , а если m , то X Xmin . В нашей задаче, применяя формулу (20) и подставляя вместо Хi середины интервалов возраста ХИ, определяем средний возраст студентов: Хар= 549,163/25 = 21,967 (года). Теперь осталось определить типичность или нетипичность найденной средней величины. Это осуществляется с помощью расчета показателей вариации. Чем ближе они к нулю, тем типичнее найденная средняя величина для изучаемой статистической совокупности. При этом критериальным значением коэффициента вариации служит 1/3. Коэффициенты вариации рассчитываются как отношение среднего отклонения к средней величине. Поскольку среднее отклонение может определяться линейным и квадратическим способами, то соответствующими могут быть и коэффициенты вариации. Среднеелинейноеотклонениеопределяется по формулам (31) и (32): Л – простое; (31) N
Л – взвешенное. (32) fi Среднееквадратическоеотклонениеопределяется как корень квадратный из дисперсии, то есть по формуле (33): . (35): (33) Дисперсияопределяется по формулам (34) или ( Xi X Д 2 – простая; (34) N Д Xi X2 f – взвешенная. (35) i fi В нашей задаче, применяя формулу (32), определим ее числитель и внесем в расчетную таблицу. В итоге получим среднее линейное отклонение: Л = 54,937/25 = 2,198 (года). Разделив это значение на средний возраст, получим линейныйкоэффициентвариации: Л= 2,198/21,967 = 0,100. По значению Х этого коэффициента для рассмотренной группы студентов делаем вывод о типичности среднего возраста, т.к. расчетное значение коэффициента вариации не превышает критериального (0,100 < 0,333). Применяя формулу (35), получим в итоге дисперсию: Д = 164,018/25 = 6,561. Извлечем из этого числа корень и получим в результате среднее квадратическое отклонение: = = 2,561 (года). Разделив это значение на средний возраст, получим квадратическийкоэффициентвариации: Х = 2,561/21,967 = 0,117. По значению этого коэффициента для рассмотренной группы студентов можно сделать вывод о типичности среднего возраста, т.к. расчетное значение коэффициента вариации не превышает критериального (0,117 < 0,333). |