Главная страница

Доклад. ЭОР_Кеткина (без тестовых). Виды средних величин. 3


Скачать 2.29 Mb.
Название Виды средних величин. 3
АнкорДоклад
Дата16.04.2022
Размер2.29 Mb.
Формат файлаpdf
Имя файлаЭОР_Кеткина (без тестовых).pdf
ТипСборник
#477703
страница2 из 4
1   2   3   4
§ 2. Структурные средние и анализ формы распределения
2.1. Структурные средние. Важной характеристикой центра распределения, помимо средней, являются, так называемые структурные средние – мода (Mo) и медиана (Me). В отличие от средней арифметической, на которую влияют все значения изучаемого признака x
i
, структурные средние не зависят от крайних значений признака. Потому они являются лучшей, чем среднее арифметическое, характеристикой центра распределения для рядов с неопределенными границами (например, для рядов с открытыми крайними границами интервалов. По определению мода это значение признака наиболее часто встречающееся в вариационном ряду. А медианой называют значение признака, которое делит упорядоченную последовательность x
i
на две равные по численности части. В итоге у одной половины единиц совокупности значение признака не превышает медианный, ау другого – превышает медианный уровень. Для дискретного ряда мода и медиана находятся непосредственно по определению. Так, поданным табл. 1.3 определим, что типичным исходом футбольного матча вовремя Чемпионата мира 2018 г. был один забитый гол, те. мода равна 1 (наибольшее число матчей – 46, это матчи с одним забитым

21 голом, 1 – значение признака которое встречается чаще всего, это и есть мода. Таблица 1.3 Распределение футбольных матчей по числу забитых за матч мячей обеими командами (Чемпионат мира 2018) Число забитых мячей в матче Число матчей
0 1
2 3
4 21 46 34 14 9 Для списка банков Санкт-Петерурга (табл. 1.4), упорядоченных по размеру собственного капитала, медианным банком будет банк Петровский, а медианой – 268 млн руб, именно это значение признака делит упорядоченную (в данном случае по возрастанию) последовательность значений (169, 237, 268, 290, 1 007) на две равные по численности части
(169, 237) и (290, 1 007). Таблица 1.4 Банки Санкт-Петербруга, ранжированы по размеру собственного капитала Название Собственный капитал, млн. руб.
Балтонэксимбанк Банк Санкт – Петербург Петровский Балтийский
Промстройбанк
169 237 268 290 1 007 При четном числе элементов вариационного ряда за медиану принимают среднюю арифметическую из двух центральных вариант упорядоченного ряда. Так, поданным табл. 1.3 из 124 элементов (21 + 46 +
67 (= 21 + 46)

22 34 + 14 + 9 = 124) центральными являются 62 и 63. Оба они равны 1 и потому медиана равна (1+1) / 2 = 1. На практике встречаются многовершинные распределения, те. распределения в которых несколько максимумов частот, несколько мод. Наличие нескольких вершин (нескольких мод) является признаком того, что изучаемая совокупность состоит из неоднородных, сточки зрения изучаемого признака, единиц. Например, изучая спрос на мероприятия, проводимые на детских праздниках, было получено многовершинное распределение, распределение с двумя модами (см. табл. 1.5). Так, наиболее востребованными оказались фокусы и участие в дне рождения слона (у этих опций развлечений максимальная частота – 57). Что наталкивает на мысль о том, что изучаемая совокупность семей неоднородна (в выборке присутствуют более обеспеченные семьи и семьи со средним достатком. Как результат, напрашивается вывод, что такую совокупность имеет смысл разделить на две и рассматривать каждую из них отдельно. Таблица 1.5 Изучение спроса на мероприятия, проводимые на детских праздниках Наиболее предпочитаемая опция Количество респондентов, чел. Фокусы Клоуны Театр кукол Костюмированный балл
Квест по мотивам мультфильма / фильма Конкурсы и музыкальная программа Мастер классы (рисование, кулинария) Участие в дне рождения слона
57 26 19 22 21 14 34 57 Если данные признака представлены в виде интервального ряда, то расчет моды и медианы ведется по формулам. При этом, для расчета моды используют две формулы – первая для случая интервального ряда с равными

23 интервалами, вторая для случая интервального ряда с неравными интервалами. Для случая равных интервалов моду определяют по формуле
,
(1.1) где x
Mo
– нижняя граница модального интервала
h
Mo
– ширина модального интервала
f
Mo
– частота в модальном интервале
f
Mo-1
– частота интервала, предшествующего модальному
f
Mo+1
– частота интервала, следующего за модальным. Данная интерполяционная формула была предложена Р.М. Орженцким. Для выведения формулы принято допущение, что в модальном и двух соседних с ним интервалах кривая распределения признака x
i
представляет собой параболу го порядка, и мода находится как абсцисса точки максимума кривой распределения
6
Для случая неравных интервалов моду вычисляют по формуле
,
(1.2) где x
Mo
– нижняя граница модального интервала
h
Mo
– ширина модального интервала
f '
Mo
– плотность в модальном интервале
f '
Mo-1
– плотность интервала, предшествующего модальному
f '
Mo+1
– плотность интервала, следующего за модальным а плотность это отношение частоты к ширине соответствующего интервала Для расчета медианы неважно являются интервалы равными или нет, при расчете используется одна универсальная формула
6
См Громыко ГЛ, Воробьев АН, Карасева Л.А. и др. Теория статистики : Учебник. – М. : ИНФРА-М, 2005. С. 100.

24
,
(1.3) где x
Me
– нижняя граница медианного интервала
h
Me
– ширина медианного интервала
Σf
i
– число единиц изучаемого множества
S
Me-1
– накопленная чистота в интервале, предшествующем медианному
f
Me
– частота в медианном интервале. При расчете медианы важно не забывать соблюдать условие ранжированности (упорядоченности по возрастанию или убыванию) элементов ряда.
1.23. Дано распределение фермерских хозяйств Рязанской области по урожайности зерновых культур. Найти моду и медиану данного распределения. Урожайность, ц/га Число фермерских хозяйств
5 – 15 15 – 25 25 – 35 35 – 45 45 – 55 55 – 65 8
29 39 59 9
5 Решение. В данном случае у нас интервальный ряд с равными интервалами (10 = 15 – 5 = 25 – 15 = 35 – 25 = 45 – 35 = 55 – 45 = 65 – 55). А потому, для вычисления моды воспользуемся формулой (Сначала необходимо определить модальный интервал, те. тот интервал, в котором содержится мода. Как мы рассуждаем В равных интервалахсодержится 8, 29, 39, 59, 9 и
5 значений признака x
i
(x
i
– урожайность ц/га). Сами значения признака мы не знаем, знаем только их количество. В каком из равных интервалов содержится Мода

25 Вероятность встретить повторяющиеся значения признака наибольшая в том интервале, где содержится большее количество значений признака. Те. для интервального ряда с равными интервалами модальным является интервал, которому соответствует максимальная частота или частость
7
. В данном случае наибольшая частота по числу фермерских хозяйств – f
max
= 59. Таким образом, модальным является интервал 35–45. Его нижняя граница равна x
Mo
= 35, ширина h
Mo
= 45 – 35 = 10, частота в модальном интервале равна f
Mo
= 59 = f
max
, частота в интервале, предшествующем модальному равна f
Mo-1
= 39, частота интервала, следующего за модальным f
Mo+1
= 9. Таким образом, в Рязанской области чаще всего встречаются хозяйства с урожайностью 41,9 ц/га
8
Следующим шагом определим медиану. Сначала убедимся, что наш интервальный ряд упорядочен. Действительно, наш ряд упорядочен по возрастанию относительно изучаемого признака x
i
(урожайность, все интервалы ряда идут по нарастающей с 5 до 65 ц/га. Для вычисления медианы воспользуемся формулой (1.3). Но прежде, определим медианный интервал. Для этой цели воспользуемся накопленными частотами (или частостями). Вычисления приведены в табл.
1.6.
7
Частость (w
i
) – относительное выражение частоты (частости – частоты, выраженные в долях,
).
8
После вычислений полезно проверить попадает ли значение моды в модальный интервал. Если нет, значит при расчетах допущена ошибка. В нашем случае Мо = 41,9 ц/га это значение принадлежит модальному интервалу (35 – 45), значит мы верно вычислили показатель Мо.

26 Таблица 1.6 Урожайность, ц/га
(x
i
) Число фермерских хозяйств
(f
i
)
Частости
(w
i
) Накопленные частоты
(S
i
) Накопленные частости
(W
i
)
5 – 15 15 – 25 25 – 35 35 – 45 45 – 55 55 – 65 8
29 39 59 9
5
= 8 / 149 = 0,05
= 29 /149 = 0,19
= 39 / 149 = 0,26
= 59 / 149 = 0,40
= 9 /149 = 0,06
= 5 /149 = 0,03 8
8 + 29 = 37 8 + 29 + 39 = 76
8 + 29 + 39 + 59 = 135 8 + 29 + 39 +59 +12 =144 8 + 29 + 39 + 59 + 9 + 5 = 149 0,05 0,25
0,51
0,91 0,97 1,00 Итого
149 1,00

– Для наших 149 фермерских хозяйств медианным, стоящим в середине, является (149 + 1) / 2 = е фермерское хозяйство. Накапливаем частоты до тех пор, пока не будет превзойден номер медианы. Так, 8 фермерских хозяйств имеют урожайность 5–15 ц/га, 8 + 29 = 37 фермерских хозяйств имеют урожайность 15–25 ц га, а 37 + 39 = 76 фермерских хозяйств имеют урожайность 25–35 ц/га, те. е фермерское хозяйство имеет урожайность
25–35 ц/га. Таким образом, медианным является интервал (25–35). Это видно и из ряда накопленных частот (S
i
), где значение 75 попадает в третий интервал (25−35). Если исходить из частостей, то медианным является интервал в который попадает значение 0,5 (половина всей изучаемой совокупности, это также третий интервал (25–35). Нижняя граница медианного интервала x
Me
= 25, ширина медианного интервала h
Me
= 10, число единиц изучаемого множества Σf
i
= 149, накопленная чистота в интервале, предшествующем медианному S
Me-1
= 37, частота в медианном интервале f
Me
= 39. Подставляем значения в формулу
(1.3), получаем

27 9
, С использованием частостей, получаем аналогичный результат Таким образом, у половины хозяйств урожайность превышает 34,6 ц/га, ау другой половины урожайность меньше 34,6 ц/га.
1.24. Рассмотрим распределение малых городов и поселков городского типа (ПГТ) по числу жителей в некоторой стране А Число жителей, тыс. чел. Число городов и ПГТ, шт.
0 – 5 5 – 10 10 – 20 20 – 50 50 – 100 26 84 269 371 176 Необходимо определить какова численность, наиболее часто встречающихся в данной стране А, городов и поселков городского типа. Решение. По смыслу, в задаче требуется определить моду данного распределения. Начнем с вычисления ширины интервалов данного распределения. Вычисления представлены в табл. 1.7. Таблица 1.7 Число жителей, тыс. чел.
(x
i
) Число городов и ПГТ, шт.
(f
i
) Ширина интервала, тыс. чел.
(h
i
) Плотность распределения,
(f '
i
)
0 – 5 5 – 10 10 – 20 20 – 50 23 45 90 375 5
5 10 30 23 / 5 = 4,6 45 / 5 = 9 90 / 10 = 9 375 / 30 = 12,5 9
После вычислений, как ив случае моды, полезно проверить попадает ли значение медианы в медианный интервал. Если нет, значит в вычислениях допущена ошибка. В нашем случае Ме = 34,6 ц/га это значение принадлежит медианному интервалу (25–35), значит мы верно вычислили показатель МВ данном случае интервалы разной величины. И выбрать интервал с наибольшей частотой в качестве модального мы не можем. Так как важна частота на единицу длины интервала. Например, второй интервал ширины h = 5 содержит 45 значений признака, а третий, в два раза большей ширины h = 10, содержит в два раза больше единиц признака – 90. То. частота на единицу длины интервала у них одинаковая (45 / 5 = 90 / 10 = 9) несмотря на то, что количество значений признака во втором интервале меньше, чем в третьем. Потому нельзя сказать, что вероятность встретить повторяющиеся значения признака в третьем интервале больше, чем во втором. В данном случае, когда расчет модального значения выполняется по рядам распределения с неравными интервалами, необходимо вычислить плотности и уже по ним, найдя максимальное значение плотности, определить модальный интервал. А затем, используя формулу (1.2), определить моду. В нашем случае наибольшая плотность f '
i
_max = 12,5. Соответственно, модальным является интервал (20–50). Подставив соответствующие значения в форуму (1.2) получаем Таким образом, в стране А чаще всего встречаются города и поселки городского типа с численностью населения 28,4 тыс. чел.
10
Проверка. Мо = 28,4 тыс. чел. принадлежит модальному интервалу (20–50), значит мы верно вычислили показатель Мо.

29 1.25. Определить моду и медиану для следующего распределения ежедневное число поездок на общественном транспорте Число поездок вдень Количество граждан, совершающих вдень данное количество поездок
0 1
2 3
4 5
221 146 434 405 302 112
2.2 Анализ формы распределения. Степень асимметричности распределения характеризуется коэффициентом асимметрии (As): или а также коэффициентом асимметрии Пирсона (П где σ – среднее квадратическое отклонение
µ
3
– третий центральный момент
x
i
– значение признака (для интервального ряда x
i
заменяют x
i
– центральным значением интервала
– среднее значение признака
n – количество наблюдений в распределении

30
f
i
– частоты распределения
Mo – мода. Знак коэффициента асимметрии и коэффициента асимметрии Пирсона совпадает. Для симметричных распределений (вкл. нормальное распределение) варианты (x
i
), равноудаленные от , имеют одинаковую частоту, потому µ
3
и соответственно As = 0. Если As > 0, тов вариационном ряду преобладают варианты, которые больше средней ( ) и распределение имеет более длинную ветвь справа скошено вправо. Такое распределение называют правосторонне ассиметричным, в этом случае Рис. 1. Правосторонняя асимметрия > 0) Примером такого распределения может служить средний уровень заработной платы (з/п) в стране. Когда большинство людей получают зарплату меньше среднего значения (Mo < , но незначительная группа людей получает з/п много выше среднего уровня (скошено вправо, что и выводит среднюю заработную плату на уровень выше Mo. Если As < 0, тов вариационном ряду преобладают варианты, которые меньше средней ( ) и распределение имеет более длинную ветвь слева скошено влево. Такое распределение называют левосторонне ассиметричным, в этом случае
Mo
f
i
x
i
0

31 Рис. 2. Левосторонняя асимметрия < 0) Примером такого распределения может служить средний по стране уровень оплаты за коммунальные услуги. Когда большинство людей платят больше среднего значения (Mo > , но за счет того, что незначительная группа людей платит значительно меньше среднего уровня (скошено влево, средний уровень расходов на ЖКХ смещается в меньшую сторону, становиться меньше Mo. Для распределений по форме близких к нормальному закону, медиана находится между модой и средней величиной. Для таких распределений при правосторонней асимметрии при левосторонней асимметрии Для оценки крутизны (заостренности) распределения вычисляют эксцесс (Ex): или где σ – среднее квадратическое отклонение
µ
4
– четвертый центральный момент
x
i
– значение признака (для интервального ряда x
i
заменяют x
i
– центральным значением интервала
f
i
0
Mo x
i

32
– среднее значение признака
n – количество наблюдений в распределении
f
i
– частоты распределения. Для нормального распределения
Ex = 0), оно и служит эталоном для оценки крутизны распределений. Если Ex > 0 распределение называют островершинным, если Ex < 0 – плосковершинным.
1.26. Поданным табл. 1.8 найти показатели асимметрии и крутизны распределения. Таблица 1.8 Заработная плата, тыс. руб. Количество рабочих, чел.
20,260 – 21,510 21,510 – 22,760 22,760 – 24,010 24,010 – 25,260 25,260 – 26,510 26,510 – 27,760 27,760 – 29,010 6
12 29 24 6
5 4 Решение. Так как распределение задано интервальным рядом (равные интервалы с шагом h = 1 250 руб) показатели асимметрии и крутизны определим по формулам Для нахождения As и Ex сначала найдем среднее и среднее квадратическое отклонение распределения. Необходимые для расчета величины вычислены в таблице

33 Заработная плата, тыс. руб.
x
i
– Количество рабочих, чел. Центр интервала
x’
i
x’
i
f
i
20,260–21,510 21,510–22,760 22,760–24,010 24,010–25,260 25,260–26,510 26,510–27,760 27,760–29,010 6
12 29 24 6
5 4
20,885 22,135 23,385 24,635 25,885 27,135 28,385 125,310 265,620 678,165 591,240 155,310 135,675 113,540 58,594 42,188 11,328 9,375 21,094 48,828 76,563
–183,105
–79,102
–7,080 5,859 39,551 152,588 334,961 572,205 148,315 4,425 3,662 74,158 476,837 1 465,454 Итого
86

2 064,860 267,969 263,672 2 745,056 Среднее значение найдем по формуле средней арифметической взвешенной, в качестве x
i
возьмем центральные значения интервалов x’
i
: те. средний уровень заработной платы 86 сотрудников предприятия составил 24 010 руб. В формуле для вычисления среднего квадратического отклонения в качестве x
i
также возьмем центральные значения интервалов x’
i
: Коэффициент асимметрии Асимметрия заметная. Т.к. As > 0, распределение скошено вправо правосторонняя асимметрия. Эксцесс распределения

34 Коэффициент крутизны (эксцесс) Ex > 0, те. распределение островершинное.
1.27. Поданным табл. 1.9 найти показатели асимметрии и крутизны распределения. Таблица 1.9 Заработная плата, руб. в час Количество рабочих, чел.
300 – 400 400 – 500 500 – 600 600 – 700 700 – 800 800 – 900 900 – 1 000 3
5 6
9 18 19 2
1.28. Найдите значение Mo и для следующего дискретного ряда Признак (xi) Частота признака (fi)
1 22 2
28 3
36 4
14 Что можно сказать о коэффициенте асимметрии (As) данного ряда Изобразите схематично данное распределение. Решение. В данном распределении наиболее часто встречается значение признака x
i
= 3 (его частота f
i
= 36 = f
max
– максимальная в данном распределении. Таким образом, Мода = 3. Среднее значение найдем по формуле средней взвешенной Тогда мы получаем
те Тов данном случае мы имеем левостороннюю асимметрию, те. показатель As < 0. См. рис. 2.

35 1.29. Вычислите значение Mo и для следующего ряда Признак Частота признака
1 9
2 15 3
14 4
10 Что можно сказать о коэффициенте асимметрии (As) данного ряда Изобразите схематично данное распределение. Решение. В данном распределении наиболее часто встречается значение признака x
i
= 2 (его частота f
i
= 15 = f
max
– максимальная в данном распределении. Таким образом, Мода = 2. Получаем те В данном случае мы имеем правостороннюю асимметрию, те. As > 0 (см. рис. 1).
1.30. Вычислите значение Mo и для следующего ряда Признак Частота признака
1 7
2 21 3
14 4
14 Что можно сказать о коэффициенте асимметрии (As) данного ряда Изобразите схематично данное распределение.
1.31. Вычислите значение Mo и для следующего ряда Признак Частота признака
1 5
2 7
3 10 4
2

36 Что можно сказать о коэффициенте асимметрии (As) данного ряда Изобразите схематично данное распределение.
1.32. Вычислите значение Mo и для следующего ряда Признак Частота признака
1 2
2 14 3
10 4
6 Что можно сказать о коэффициенте асимметрии (As) данного ряда Изобразите схематично данное распределение.
2.3 Другие структурные характеристики вариационного ряда. Медиану используют если необходимо разделить совокупность на две равные по численности части. Но если необходимо разделить совокупность на две неравные по численности части или на большее количество частей, тогда рассчитывают соответствующее квартильное, квантильное, децильное, или перцентильное значения признака. Квартиль – значение признака, делящее совокупность на четыре равные части, квантиль – на пять равных частей, дециль – на десять равных частей, и перцентиль – на сто равных частей. Логика расчета и формулы для вычисления данных показателей аналогичны таковым для медианы. Рассмотрим их на примере квартилей. Для этого упорядочим совокупность (например, по возрастанию) и обозначим значения x
i
, делящие совокупность на четыре равные части – Q
1
,
Q
2
и Q
3
. Первый квартиль (Q
1
) делит элементы совокупности на две части –
1/4 значений x
i
лежит ниже Q
1
, 3/4 значений x
i
лежат выше Q
1
. Второй квартиль (Q
2
) делит совокупность x
i
на две равные части (те. Q
2 совпадает с медианой. Выше третьего квартиля (Q
3
) располагаются 3/4 всех значений x
i
, а ниже оставшаяся 1/4 часть совокупности x
i
(см. рис. 3).

37 Рис. 3. Квартили. Например, чтобы определить какой уровень признака является границей, отделяющей первые 75 % наблюдений с самыми меньшими значениями признака от остальных 25 % наблюдений с большими значениями, для анализируемой совокупности следует рассчитать 75-% квартиль (или й квартиль, Q
3
).
В случае дискретного ряда Q
3
(75-% квартильное значение признака x
i
) определяется на основании накопленных частот. В задаче 1.25. из всей совокупности 1 620 граждан, упорядоченных по количеству совершаемых ими поездок, 75 % будет соответствовать 1 215 гражданин (1 620 ∙ 0,75 =
1 215). По накопленным частотам найдем, что этот гражданин совершает 4 поездки вденьте квартильное значение признака x
i
= 4 (Q
3
= 4). В случае интервального ряда Q
3
(или й квартиль) определяется по формуле
,
(1.4) где
– нижняя граница интервала, в котором находится й квартиль
– ширина го квартильного интервала

38
Σf
i
– число единиц изучаемой совокупности
– накопленная частота в интервале, предшествующем 3-му квартильному;
– частота в м квартильном интервале. При вычислении квартильных, квантильных, децильных, или перцентильных значений признака в интервальном ряду также как и при нахождении медианы неважно имеем ли мы дело с равноинтервальным или неравноинтервальным рядом, формула расчета не меняется. Принцип нахождения го квартильного интервала аналогичен поиску медианного интервала. По накопленным частотам определяют в какой из интервалов попадает 75 % изучаемой совокупности, этот интервал и будет 75-% квартильный интервал. По своей сути формула определения го квартиля отличается от формулы расчета медианы только коэффициентом при Σf
i
. При расчете медианы берут половину совокупности – 0,5 ∙ Σf
i
, при определении го квартиля 0,75 ∙ Σf
i
. При вычислении го децильного значения в формулу подставим 0,10 ∙ Σf
i
, а для расчета го перцентиля – 0,29 ∙ Σf
i
, и т.д. При вычислении квартильного, квантильного, децильного, или перцентильного значения признака важно не забывать соблюдать условие ранжированности (упорядоченности по возрастанию или убыванию) элементов изучаемой совокупности. Рассмотрим задачу на нахождение Q
3
(75-% квартильного значения признака x
i
) для интервального ряда. Пусть у насесть холдинг, включающий
100 предприятий, производящих один и тот же вид продукции. При этом себестоимость производства продукции на предприятиях различна Номер группы предприятий Себестоимость производства одного изделия, руб. Число предприятий Накопленные частоты
S
i
1 79 – 90 12 12

39 2
3 4
90 – 110 110 – 130 130 и выше
15 49 24 27 76 100


100
– Необходимо определить уровень себестоимости производства продукции, который отделяет 75 % предприятий с относительно невысокой себестоимостью от 25 % предприятий с более высокой себестоимостью. Впоследствии на 25 % предприятий с более высокой себестоимостью будут проведены оптимизационные мероприятия с целью снижения себестоимости производства продукции. В задаче требуется найти 75-% квартильное значение признака x
i
себестоимости производства продукции. Так как признак x
i
задан интервальным рядом, определять Q
3
будем по формуле (1.4). Первоначально определим интервал в который попадает Q
3
. У насесть значений признака для каждого из предприятий указана себестоимость производства продукции, x
i
упорядочены по возрастанию. Судя по столбцу накопленных частот признак, соответствующий 75 % всей совокупности признак под номером 75), попадает в интервал 110 – 130, этот интервал и будет м квартильным интервалом. По формуле (1.4) Следовательно, у 75 % предприятий себестоимость не превышает
129,59 руб. за единицу продукции. Оставшиеся 25 % предприятий производят продукцию поболее высокой себестоимости, на этих предприятиях проведем оптимизационные мероприятия с целью снижения себестоимости производства единицы продукции. Задачи для самостоятельного решения поданной теме смотрите во втором параграфе третьей главы (задачи 3.7. – 3.12.).

40 Глава 2. АНАЛИТИЧЕСКАЯ СТАТИСТИКА

1   2   3   4


написать администратору сайта