Главная страница

Лекция 5. Обобщающие характеристики статистических совокупностей. Содержание лекции


Скачать 1.11 Mb.
НазваниеСодержание лекции
Дата27.05.2022
Размер1.11 Mb.
Формат файлаpdf
Имя файлаЛекция 5. Обобщающие характеристики статистических совокупностей.pdf
ТипЛекции
#553074
страница2 из 3
1   2   3
ЧАСТЬ 3. МНОГОМЕРНАЯ СРЕДНЯЯ ВЕЛИЧИНА
30.03.2022 29

МНОГОМЕРНАЯ СРЕДНЯЯ
30.03.2022 30
Многомерная средняя величина
– это обобщенная характеристика некоторого явления, построенная на основе сведения в единый показатель частных его характеристик.
Используется для ранжирования объектов по возрастанию или убыванию какого-либо сложного явления (свойства).
Многомерная средняя подразумевает усредненную оценку единицы статистической совокупности по нескольким существенным признакам.
Пример сводки данных для расчета многомерной средней величины
№ единицы совокупности
Признак х1
Признак х2

Признак хj
1
Х 11
Х 12

Х 1j
2
Х 21
Х 22

Х 2j





i
Х i1
Х i2

Х ij

МНОГОМЕРНАЯ СРЕДНЯЯ
30.03.2022 31
Предприятие
Выработка на одного работающего, ден.ед.
Фондовооруженность, ден.ед./чел.
Средняя заработная плата, ден.ед./чел.
Энергострой
20000 30000 15 000
Строймаш
20000 40000 15 000
Металлопласт
30000 20000 20 000
Металлобаза №2 30000 50000 11 000
Металлобаза № 3 25000 40000 13 000
Показатели деятельности предприятий отрасли за 2020 год
***все показатели относительные!!!
Какое предприятие работает лучше?

МНОГОМЕРНАЯ СРЕДНЯЯ
30.03.2022 32
Показатели деятельности филиалов предприятия (2020 год)
Наименование филиала
Среднемесячная зарплата персонала, ден .ед.
Доход с 1 кв.м.,
ден.ед.
Среднегодовая стоимость
ОПФ, ден.ед.
Количество посетителей в день, чел.
«Еда 1»
12 300 500 120 000 410
«Еда 2»
15 000 500 110 000 400
«Еда 3»
10 000 440 130 000 350
«Еда 4»
11 200 380 100 000 360
??? Какой филиал работает лучше ???

МНОГОМЕРНАЯ СРЕДНЯЯ
30.03.2022 33
Многомерная средняя
простая
Многомерная средняя
взвешенная
𝑃
𝑖
=
σ
𝑗
𝑥
𝑖𝑗
𝑥
𝑗
𝑘
𝑃
𝑖
=
σ
𝑗
𝑥
𝑖𝑗
𝑥
𝑗
× 𝑓
𝑗
σ 𝑓
𝑗
𝑃
𝑖
- многомерная средняя для i-той единицы совокупности;
- значение j-того признака для i-той единицы совокупности;
- среднее значение j-того признака;
- число признаков;
- вес j-того признака.
𝑥
𝑖𝑗
𝑥
𝑗
𝑘
𝑓
𝑗
Веса вводятся в том случае, если необходимо учесть различную значимость составляющих обобщенную оценку факторов.
Как правило, веса устанавливают в долях единицы, чтобы сумма весов была равна 1.

МНОГОМЕРНАЯ СРЕДНЯЯ (ПРОСТАЯ)
30.03.2022 34
Ф.И.О.
Количество полученных грамот
Средний балл по зачетке
Участие в общественных мероприятиях, раз
Участие в научных конференциях раз
Многомерная средняя
Данилова
3 4,9
-
2 1,15
Иванов
2 5,0 3
1

Семенов
-
4,8 4
2

Панкратова
1 5,0 3
-

Ключевые характеристики эффективности студентов, претендующих на ПГАС (2022 год)
𝑃
𝑖
=
σ
𝑗
𝑥
𝑖𝑗
𝑥
𝑗
𝑘
𝑃
1
=
3 1,5 +
4,9 4,9 +
0 2,5 +
2 1,25 4
=
2 + 1 + 0 + 1,6 4
= 1,15

МНОГОМЕРНАЯ СРЕДНЯЯ (ВЗВЕШЕННАЯ)
30.03.2022 35
Ф.И.О.
Количество полученных грамот
Средний балл по зачетке
Участие в общественных мероприятиях, раз
Участие в научных конференциях,
раз
Многомерная средняя
Данилова
3 4,9
-
2 1,38
Иванов
2 5,0 3
1

Семенов
-
4,8 4
2

Панкратова
1 5,0 3
-

Вес признака
0,2
0,5
0,2
0,3
Ключевые характеристики эффективности студентов, претендующих на ПГАС (2022 год)
𝑃
𝑖
=
σ
𝑗
𝑥
𝑖𝑗
𝑥
𝑗
× 𝑓
𝑗
σ 𝑓
𝑗
𝑃
1
=
3 1,5 × 0,2 +
4,9 4,9 × 0,5 +
0 2,5 × 0,2 +
2 1,25 × 0,3 1
=
0,4 + 0,5 + 0 + 0,48 1
= 1,38

ЧАСТЬ 4. ПОНЯТИЕ ВАРИАЦИИ. ВАРИАЦИОННЫЙ РЯД.
ГРАФИЧЕСКОЕ ОТОБРАЖЕНИЕ ВАРИАЦИИ
30.03.2022 36

ПОНЯТИЕ ВАРИАЦИИ
30.03.2022 37
Вариация значений признака
(«variatio» - изменение, колеблемость, различие) – это расхождение его значений по единицам статистической совокупности в один и тот же период или момент времени. Это различие индивидуальных значений признака внутри изучаемой совокупности.
Вариация
характерна для всех природных и социально-экономических явлений, кроме законодательно закреплённых (например, количество директоров предприятия).
Причина вариации
– разные условия существования единиц совокупности.
Варианта
– значение признака для той или иной единицы совокупности.
Варьирующими признаками
называются такие, которые принимают разное значение (качественное или количественное) у отдельных единиц совокупности.
Вариацию признака в рамках статистической совокупности, обусловленную влиянием случайных факторов называют
случайной вариацией
, а сформированную систематическими факторами –
систематической

ВАРИАЦИОННЫЙ РЯД: ПОНЯТИЕ, ВИДЫ
30.03.2022 38
Результатом сводки и группировки данных является
вариационный ряд
Вариационный ряд (ВР)
– это упорядоченная по возрастанию или убыванию значений признака последовательность единиц статистической совокупности.
Вариационные ряды = Ряды распределения
Элементы ВР
:
Варианты
– это отдельные значения признака, которые он принимает в вариационном ряду («что изучаем?»).
Частоты
– это численности отдельных вариант (отражают, как часто встречаются те или иные варианты в ВР,
«сколько?»).
Сумма частот = численности (объему) совокупности.
Частости
– это частоты, выраженные в долях единицы или в % к итогу.

ВАРИАЦИОННЫЙ РЯД: ПОНЯТИЕ, ВИДЫ
30.03.2022 39
В общем виде вариационный ряд выглядит следующим образом:
Виды вариационных рядов
:
-
ранжированный ряд
– перечень единиц статистической совокупности и соответствующих им значений признака в порядке его убывания или возрастания;
-
дискретный ряд
(прерывный, значения отличаются друг от друга на конкретную величину) – статистическая таблица, состоящая из двух строк или граф, в одной из которых представлены значения признака (x j
), а в другой – количество единиц совокупности с данным значением признака или частота появления признака, (f j
);
-
интервальный ряд
(непрерывный, значения имеют любые, в т.ч. и дробные количественные выражения) – статистическая таблица, состоящая из двух строк или граф, в одной из которых представлены интервалы значений признака (x j
), а в другой – частота появления признака, (f j
).
Значение признака (x i
)
Частота (f i
)
x
1
f
1
x
2
f
2


x n
f n
Итого:
Сумма частот

РАНЖИРОВАННЫЙ ВАРИАЦИОННЫЙ РЯД
30.03.2022 40
Ранжированный ВР
– расположение единиц совокупности в порядке возрастания или убывания выбранного признака.
Ранжированный ряд строится, прежде всего, по
количественному
признаку и позволяет:

легко разделить количественные данные по группам;

сразу обнаружить наименьшее и наибольшее значения признака;

выделить значения, которые чаще всего повторяются.
Пример табличного и графического отображения ранжированного ВР
Компания
Рыночная капитализация компании
(16.02.2022), млн. долл.
Ранг
Apple
2 764 085.31 1
Microsoft
2 210 500.74 2
Amazon
1 559 880.21 3
Tesla
905 732.37 4
Alphabet
844 882.44 5
NVIDEA
649 679.67 6

ДИСКРЕТНЫЙ ВАРИАЦИОННЫЙ РЯД
30.03.2022 41
Дискретный вариационный ряд
(прерывный) – ряд, в котором значения признака отличаются друг от друга на конкретную величину.
Выглядит, как статистическая таблица, состоящая из двух строк или граф, в одной из которых представлены значения признака (x j
), а в другой – количество единиц совокупности с данным значением признака или частота появления признака (f j
).
Пример табличного и графического отображения дискретного ВР
Оценка кибер-риска по 5-балльной шкале (варианта (x i
))
Количество предприятий
(частота варианты (f j
))
1 2
2 12 3
27 4
7 5
2 0
5 10 15 20 25 30 1
2 3
4 5
К
о л
ич ество п
ред п
риятий с д
анн ы
м ур о
вн ем рис ка,
ед.
Уровень риска, балл

ДИСКРЕТНЫЙ ВАРИАЦИОННЫЙ РЯД
30.03.2022 42
Интервальный ВР
(непрерывный) – характеризует распределение единиц совокупности при (1) непрерывной вариации признака и (2) если дискретная вариация проявляется в широких пределах
(количество значений признака велико).
Выглядит, как статистическая таблица, состоящая из двух строк или граф, в одной из которых представлены интервалы значения признака (x j
), а в другой – частота появления признака, (f j
).
Пример табличного и графического отображения интервального ВР
Оценка кредитного риска по
100-балльной шкале
Количество предприятий
(частота варианты (f j
))
0 – 20 14 20 – 40 23 40 – 60 42 60 – 80 11 80 – 100 10 0
5 10 15 20 25 30 35 40 45 0 – 20 20 – 40 40 – 60 60 – 80 80 – 100
К
о л
и чес тво пр ед пр и
яти й
с д
анн ым значе нием риск а,
ед.
Оценка уровня кредитного риска, балл

ВАРИАЦИОННЫЙ АНАЛИЗ: ЭТАП 1 – ПОСТРОЕНИЕ ВР
30.03.2022 43
На этом этапе важно правильно определить, ряд какого вида целесообразно построить – дискретный или интервальный.
Для этого необходимо выяснить, к какому виду относится изучаемый признак – дискретному или непрерывному.
Как выбрать соответствующий тип вариационного ряда?
!
Неверный выбор вида ряда не позволит правильно выявить закономерность в вариации значений признака, правильно рассчитать показатели вариации и исказит итоги вариационного анализа в целом.
!
Для построения интервального ВР определяется количество интервалов в ряду и длина интервала. Если выбрать слишком большое число интервалов, то многочисленные колебания частоты появления признака не позволят выявить закономерность в вариации его значений, если же число интервалов будет излишне малым, то колебания частоты признака могут вовсе не проявиться, и распределение будет выглядеть равномерным.
Условия
Дискретный признак (принимает отдельные значения, диапазон значений относительно невелик)
Непрерывный признак (принимает любые значения, либо количество значений дискретного признака велико)
Соответствующий тип ВР
Дискретный ряд
Интервальный ряд

ПРАВИЛА ПОСТРОЕНИЯ ДИСКРЕТНОГО РЯДА
30.03.2022 44
Для дискретного вариационного ряда важно правильно определить,
где признак, а где частота!
или
Количество мячей
3 4
5 6
7
Количество матчей
6 7
8 9
10
Количество студентов
15 18 20 25 27
Количество групп
10 11 15 9
3
Задаем вопрос: «Кто (что) где встречается?»
(студенты в группах или группы в студентах?)

ПРАВИЛА ПОСТРОЕНИЯ ИНТЕРВАЛЬНОГО РЯДА
30.03.2022 45
Для построения интервального вариационного ряда необходимо правильно выбрать количество (k) и длину (l) интервалов! Если не удалось определить экспертным путем, то можно воспользоваться
формулой Стерджесса:
k = 1+3,32 lg n
где
k
– количество групп,
n
– количество единиц совокупности
В качестве
длины интервала
выбирается целочисленное и удобное для восприятия значение в интервале от
l
1
до
l
2
1
min max
1
k
x
x
l

=
2
min max
2
k
x
x
l

=
где
x
max
максимальное значение признака,
x
min
– минимальное значение признака в ряду,
k
1
целая часть числа k,
k
2
целая часть числа (k+1)

ПРАВИЛА ПОСТРОЕНИЯ ИНТЕРВАЛЬНОГО РЯДА
30.03.2022 46
Лучше использовать округленные значения длины интервала и его границ
(
l
= 1240 руб.)
Заработная плата, руб.
Количество человек
9867 – 11107 10 11107 – 12347 15 12347 – 13587 38 13587 – 14827 32
! Нечитаемая
и невоспринимаемая информация!

ПРАВИЛА ПОСТРОЕНИЯ ИНТЕРВАЛЬНОГО РЯДА
30.03.2022 47
Не все процентные значения являются частостями
!
!
Частости !
Число комнат
(варианты)
Число семей всего, тыс. ед.
(частоты)
в % к итогу
(частости)
1 4 000 16,0 2
12 400 50,0 3
7 600 30,6 4 и более
800 3,4
Итого
24 800 100,0

ПРАВИЛА ПОСТРОЕНИЯ ИНТЕРВАЛЬНОГО РЯДА
30.03.2022 48
Не все процентные значения являются частостями
!
! Не частости, они
не отражают доли,
не дают в сумме
100% !
Предприятия
Человеко-дней потерь рабочего времени за год
Среди них процент прогулов
Человеко-дней потерь рабочего времени в среднем на 1 рабочего
Количество часов, отработанных сверхурочно в среднем 1 рабочим, привлекавшимся к этим работам
Удельный вес рабочих, привлекавшихся к сверхурочным работам, %
А
1 2
3 4
5
Альфа
1328 20 2,1 1040 6,6
Гамма
366 28 0,4 685 1,7
Сигма
96 43 0,3 800 2,2

ГРАФИКИ ЧАСТОТНЫХ РАСПРЕДЕЛЕНИЙ: ПОЛИГОН
30.03.2022 49 1.
Полигон (от «многоугольник»)
– это ломаная линия, соединяющая точки с координатами (x i
;f i
), где x i
– значения признака в ряду, f i
– частота появления признака.
Распределение покупателей по числу детей в семье
Число детей
Не имеет детей
1 2
3 4
5 и более
Число покупателей
24 30 35 7
3 1
0 10 20 30 40 0
1 2
3 4
5
Число детей в семье
Чи
сл
о
по
ку
па
те
ле
й
Полигон распределения покупателей
по числу детей в семье

ГРАФИКИ ЧАСТОТНЫХ РАСПРЕДЕЛЕНИЙ: ГИСТОГРАММА
30.03.2022 50 2.
Гистограмма (от «гистос» – строение)
– строится, если ряд интервальный, представляет собой столбиковую диаграмму, в которой основание столбца равно длине интервала ВР, а высота –
частоте появления признака.
Распределение регионов по доле населения в трудоспособном возрасте
Гистограмма распределения регионов
по доле населения
в трудоспособном возрасте
Доля населения в трудоспособном возрасте, %
56-58 58-60 60-62 62-64 64-66 66-68 68-70 70-72
Количество регионов
4 20 27 20 9
2 2
5 0
5 10 15 20 25 30 56-58 58-60 60-62 62-64 64-66 66-68 68-70 70-72
Ко л
и че ст во ре ги он ов
Доля населения в трудоспособном возрасте, %

ГРАФИКИ НАКОПЛЕННЫХ ЧАСТОТ: КУМУЛЯТА И ОГИВА
30.03.2022 51 3.
Кумулята
– это ломаная линия, соединяющая точки с координатами (
x
i
;f
i
), где
x
i
– значения признака, а
f
i
– число единиц совокупности, имеющих значение признака меньше
x
i
Накопленные частоты
определяются путем последовательного суммирования частот по группам и показывают, сколько единиц совокупности имеют значение признака меньше, чем рассматриваемое значение.
4.
Огива
– это ломаная линия, соединяющая точки с координатами (
x
i
;f
i
), где
x
i
– значения признака, а
f
i
– число единиц совокупности, имеющих значение признака, большее или равное
x
i

ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВАРИАЦИОННОГО РЯДА
30.03.2022 52
Число детей
Число покупателей
Накопленные частоты (кумулята)
Накопленные частоты (огива)
Нет
24 24 100 1
30 54 76 2
35 89 46 3
7 96 11 4
3 99 4
5 и более
1 100 1
Итого
100
x x
более
менее
0 20 40 60 80 100
Нет
1 2
3 4
5 и более
Ч
ис ло поку па те ле й
Число детей
Накопленные частоты (кумулята)
Накопленные частоты (огива)

ЧАСТЬ 5. ПОКАЗАТЕЛИ ВАРИАЦИИ
30.03.2022 53

ПОКАЗАТЕЛИ СТРУКТУРЫ ВАРИАЦИИ
30.03.2022 54
Мода (Мо)
– это наиболее часто встречающееся значение признака в вариационном ряду.
Мода отражает типичный (наиболее распространенный) вариант значения признака.
Медиана (Ме)
– это значение признака, которое делит ряд на две равные части: со значениями признака меньше и больше медианы.
Медиана выполняет функции средней величины для неоднородной совокупности.
Мода и медиана имеют ту же единицу измерения, что и сам признак.
!!! Определение Мо и Ме различно для дискретного и интервального ВР

МОДА ДЛЯ НЕСГРУППИРОВАННЫХ ДАННЫХ
30.03.2022 55 1)
несгруппированные данные
Пример.
Рабочие бригады, состоящей из 9 человек, имеют тарифные разряды:
4,
3
, 4, 5,
3
,
3
, 6, 2, 6
Мо = ?
Пример.
Рабочие бригады, состоящей из 10 человек, имеют тарифные разряды:
4
,
3
,
4
, 5,
3
,
3
, 6, 2, 6,
4
Мо = ?
Интерпретация:
наибольшее число рабочих имеют тарифный разряд …
*
бимодальный, мультимодальный ВР

МОДА ДЛЯ ДИСКРЕТНОГО РЯДА
30.03.2022 56 2)
сгруппированные данные:
дискретный вариационный ряд
Мо=?
Мо=?
Мо=?
*В каком из ВР мода равна 4?
Стаж, лет
3 4
5 6
Количество человек
5 4
6 12
Стаж, лет
3 4
5 6
Количество человек
4 7
6 6
Стаж, лет
3 4
5 6
Количество человек
3 4
8 5

МОДА ДЛЯ ДИСКРЕТНОГО РЯДА
30.03.2022 57
Тарифный разряд
Количество человек
2 12 3
48 4
56 5
60 6
14
Итого
190
Чему равна мода?

МОДА ДЛЯ ИНТЕРВАЛЬНОГО РЯДА
30.03.2022 58 3)
сгруппированные данные:
интервальный вариационный ряд
!
Определяют
модальный интервал
Модальный интервал
– это интервал, имеющий наибольшую частоту встречаемости признака
Определяют значение Мо по формуле:
Стаж, лет
Менее 5 5 - 7 7 - 9
Более 9
Количество человек
30 20 15 10 1
1 1
(
) (
)
Mo
Mo
o
o
Mo
Mo
Mo
Mo
f
f
M
x
l
f
f
f
f


+

= + 

+

𝒙
𝟎
– начальное значение модального интервала;
𝒇
𝑴𝒐
, 𝒇
𝑴𝒐−𝟏
, 𝒇
𝑴𝒐+𝟏
– частота появления признака соответственно в интервале модальном, предшествующем модальному и следующем за модальным;
𝒍 – длина интервала.

МОДА ДЛЯ ИНТЕРВАЛЬНОГО РЯДА
30.03.2022 59
интервальный вариационный ряд
Стаж, лет
Менее 5 5 - 10 10 - 15
Более 15
Количество человек
3 4
8
20
1 1
1
(
) (
)
Mo
Mo
o
o
Mo
Mo
Mo
Mo
f
f
M
x
l
f
f
f
f


+

= + 

+

20 8 15 5 16,9(
)
(20 8)
(20 0)
o
M
лет

=
+ 
=
− +

Стаж, лет
Менее 5
5 - 10 10 - 15
Более 15
Количество человек
20
3 4
8 20 0
0 5
2,7(
)
(20 0)
(20 3)
o
M
лет

= + 
=

+


МОДА ДЛЯ ИНТЕРВАЛЬНОГО РЯДА
30.03.2022 60
интервальный вариационный ряд
Стаж, лет
Менее 5 5 - 10 10 - 15
Более 15
Количество человек
3 4
8
20
1 1
1
(
) (
)
Mo
Mo
o
o
Mo
Mo
Mo
Mo
f
f
M
x
l
f
f
f
f


+

= + 

+

20 8 15 5 16,9(
)
(20 8)
(20 0)
o
M
лет

=
+ 
=
− +

Интерпретация:
«наибольшее число рабочих на предприятии имеют стаж около 16,9 лет
»
«Значение признака попадает чаще всего в интервал ….» , а не «чаще всего встречается интервал …»

ПОКАЗАТЕЛИ СТРУКТУРЫ ВАРИАЦИИ: МЕДИАНА
30.03.2022 61 1)
несгруппированные данные
Пример.
Рабочие бригады, состоящей из 9 человек, имеют тарифные разряды:
4, 3, 4, 5, 3, 3, 6, 2, 6
Ме = ?
!!! Для определения Ме надо провести ранжирование!
Ранжируем
:
2, 3, 3, 3,
4
, 4, 5, 6, 6
Ме = 4
Интерпретация:
в бригаде из 9 человек половина рабочих имеют тарифный разряд менее 4, и половина рабочих имеют тарифный разряд более 4.
Если ранжированный ряд включает четное число единиц
, то Ме определяется как средняя из двух центральных значений.

ПОКАЗАТЕЛИ СТРУКТУРЫ ВАРИАЦИИ: МЕДИАНА
30.03.2022 62
№ п.п.
1 2
3 4

98 99 100
Доход, долл.
302 305 310 313

397 400 90 000
Распределение сотрудников предприятия по доходу
*Необходимо дать характеристику среднего дохода сотрудника предприятия.
Как это сделать?
*Можно ли применить среднюю арифметическую величину?

МЕДИАНА ДЛЯ СГРУППИРОВАННЫХ ДАННЫХ
30.03.2022 63 2)
сгруппированные данные:
дискретный вариационный ряд
Ме=?
Ме=?
Ме=?
*В каком из ВР медиана равна 4?
Стаж, лет
3 4
5 6
Количество человек
5 4
6 12
Стаж, лет
3 4
5 6
Количество человек
4 7
6 6
Стаж, лет
3 4
5 6
Количество человек
3 4
8 5

МЕДИАНА ДЛЯ ДИСКРЕТНОГО РЯДА
30.03.2022 64
дискретный вариационный ряд
Медиана для дискретного ряда
определяется как значение признака центральной единицы ряда (если в ряду нечетное число единиц) или как полусумма значений двух центральных единиц (если в ряду четное число единиц).
*
номер медианной единицы можно найти по формулам:
Тарифный разряд
2 3
4 5
6
Итого
Количество человек
12 48 56 60 14 190
или
Тарифный разряд
2 3
4 5
6
Итого
Количество человек
12 48 56 60 14 190
Накопленные частоты
12
60
116
176
190
-
Номер медианной единицы = 190/2=95
Рассчитываем накопленные частоты
Находим номер «95»
Чему равна Ме?

МЕДИАНА ДЛЯ ИНТЕРВАЛЬНОГО РЯДА
30.03.2022 65
3) интервальный вариационный ряд
*сначала определяют медианный интервал
Медианный интервал
– это первый интервал, накопленная частота которого превышает половину общей суммы частот (половину объема совокупности)
*потом определяют значение
Ме по формуле:
Стаж, лет
Менее 5 5 – 7 7 – 9
Более 9
Количество человек
10 20 16 10
𝑴𝒆 = 𝟓 + 𝟐 ×
𝟓𝟔
𝟐 − 𝟏𝟎
𝟐𝟎
= 𝟔, 𝟖 лет
𝑀
𝑒
= 𝑥
0
+ 𝑙 ×
σ 𝑓
𝑗
2 − 𝑓
𝑀
𝑒
−1

𝑓
𝑀
𝑒
𝑥
0
– начальное значение медианного интервала;
𝑙 – длина интервала;
σ 𝑓
𝑗
общая сумма частот;
𝑓
𝑀
𝑒
−1

– накопленная частота в интервале, предшествующем медианному;
𝑓
𝑀
𝑒
– частота появления признака в медианном интервале.

МЕДИАНА ДЛЯ ИНТЕРВАЛЬНОГО РЯДА
30.03.2022 66
3) интервальный вариационный ряд
Стаж, лет
Менее 5 5 – 10 10 – 15
15 – 20
Итого
Количество человек
3 4
8
20
35
Накопленные частоты
3 7
15
35
-
𝑴𝒆 = 𝟏𝟓 + 𝟓 ×
𝟑𝟓
𝟐 − 𝟏𝟓
𝟐𝟎
= 𝟏𝟓, 𝟔 (лет)
𝑀
𝑒
= 𝑥
0
+ 𝑙 ×
σ 𝑓
𝑗
2 − 𝑓
𝑀
𝑒
−1

𝑓
𝑀
𝑒
Стаж, лет
Менее 5
5 – 10 10 – 15 15 – 20
Итого
Количество человек
20
3 4
8 35
Накопленные частоты
20
23 27 35
-
𝑴𝒆 = 𝟎 + 𝟓 ×
𝟑𝟓
𝟐 − 𝟎
𝟐𝟎
= 𝟒, 𝟑 (лет)

МЕДИАНА ДЛЯ ИНТЕРВАЛЬНОГО РЯДА
30.03.2022 67
3) интервальный вариационный ряд
𝑀
𝑒
= 𝑥
0
+ 𝑙 ×
σ 𝑓
𝑗
2 − 𝑓
𝑀
𝑒
−1

𝑓
𝑀
𝑒
𝑴𝒆 = 𝟏𝟕𝟎 + 𝟒 ×
𝟏𝟎𝟎
𝟐 − 𝟓𝟎
𝟐𝟖
= 𝟏𝟕𝟎 (см)
Рост, см.
Количество студентов
Накопленная частота
158 – 162 10 10 162 – 166 14 24 166 – 170 26 50
170 – 174
28

174 – 178 12 178 - 182 8
182 - 186 2
Итого
100
Интерпретация:
В совокупности из 100 студентов половина имеют рост 170 см и
менее, и половина студентов имеют рост 170 см и более

ГРАФИЧЕСКОЕ ОПРЕДЕЛЕНИЕ МОДЫ И МЕДИАНЫ
30.03.2022 68
*В интервальном вариационном ряду Мо и Ме можно определить графически:
Моду можно определить по гистограмме
(самый высокий прямоугольник …..)
0 5
10 15 20 25 30 56-58 58-60 60-62 62-64 64-66 66-68 68-70 70-72
Ко л
и че ст во ре ги он ов
Доля населения в трудоспособном возрасте, %
0 10 20 30 40 50 60 70 80 90 56-58 58-60 60-62 62-64 64-66 66-68 68-70 70-72
Ко л
и че ст во ре ги он ов
Доля населения в трудоспособном возрасте, %
Накопленные частоты
(кумулята)
Накопленные частоты
(огива)
Медиану можно определить
по кумуляте

КВАРТИЛИ И ДЕЦИЛИ ВАРИАЦИОННОГО РЯДА
30.03.2022 69
*Иногда рассчитывают:
Квартили распределения
– это значения признака, которые делят совокупность на 4 равные части
(по числу единиц)
Децили распределения
– значения признака, которые делят совокупность на 10 равных частей (по числу единиц)

ПОКАЗАТЕЛИ СИЛЫ И ИНТЕНСИВНОСТИ ВАРИАЦИИ
30.03.2022 70
Насколько велик абсолютный и относительный разброс значений признака оценивают показателями силы и интенсивности вариации
Размах вариации
– это разность между максимальным и минимальным значением признака в изучаемой совокупности.
*
показывает, насколько велик абсолютный разброс значений признака в совокупности
𝑅 = 𝑥
𝑚𝑎𝑥
− 𝑥
𝑚𝑖𝑛
где 𝑥
𝑚𝑎𝑥
− максимальное значение признака в ряду;
𝑥
𝑚𝑖𝑛
− минимальное значение признака в ряду.
В чем недостатки показателя?

ОПРЕДЕЛЯЕМ РАЗМАХ ВАРИАЦИИ
30.03.2022 71
R=?
R=?
R=?
4, 3, 5, 3, 3, 3, 6, 2, 6, 5, 10, 15, 6, 5, 4, 3, 2, 1, 13
. R=?
Стаж, лет
3 4
5 6
Количество человек
5 4
6 12
Стаж, лет
1 – 5 5 – 10 10 – 15
Свыше 15
Количество человек
3 4
8 5
№ п.п.
1 2
3 4

98 99 100
Доход, долл.
302 305 310 313

397 400 90 000

СРЕДНЕЕ ЛИНЕЙНОЕ ОТКЛОНЕНИЕ
30.03.2022 72
Среднее линейное отклонение (СЛО)
– это средняя арифметическая величина из абсолютных отклонений отдельных значений признака от их средней.
Для
несгруппированных данных
рассчитывается простой показатель:
𝑑 =
σ 𝑥
𝑖
− 𝑥
𝑛
Для
дискретного ряда
рассчитывается взвешенный показатель отклонения (фактического значения от средней):
𝑑 =
σ 𝑥
𝑗
− 𝑥 × 𝑓
𝑗
σ 𝑓
𝑗
Для
интервального ряда
рассчитывается взвешенный показатель отклонения (середины интервала от средней):
𝑑 =
σ 𝑥
𝑗

− 𝑥 × 𝑓
𝑗
σ 𝑓
𝑗
*Все обозначения представлены в теме «Средние величины»

СРЕДНЕЕ ЛИНЕЙНОЕ ОТКЛОНЕНИЕ
30.03.2022 73
Важно!!!
При обработке данных статистического наблюдения возможен расчет показателей вариации как по первичным (несгруппированным данным), так и по предварительно построенным рядам распределения. Но в рамках расчета одного показателя все входящие в него параметры должны быть определены одним способом.
Например
, если среднее линейное отклонение рассчитывается по интервальному вариационному ряду, то и используемая в расчете средняя арифметическая величина должна быть рассчитана по тому же интервальному ряду. Если же среднее линейное отклонение рассчитывается по несгруппированным, исходным данным (простая сводка), то и используемая в расчете средняя арифметическая величина должна быть рассчитана по тем же данным. В противном случае рассчитанные показатели теряют свой смысл

СРЕДНЕЕ КВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ
30.03.2022 74
Среднее квадратическое отклонение (СКО)
– показатель рассеивания значений случайной величины относительно ее математического ожидания.
Для
несгруппированных данных
рассчитывается простой показатель:
σ =
σ(𝑥
𝑖
− 𝑥)
2
𝑛
Для
дискретного ряда
рассчитывается взвешенный показатель отклонения (значений признака от средней):
σ =
σ(𝑥
𝑗
− 𝑥)
2
× 𝑓
𝑗
σ 𝑓
𝑗
Для
интервального ряда
рассчитывается взвешенный показатель отклонения (середины интервала от средней):
σ =
σ(𝑥
𝑗

− 𝑥)
2
× 𝑓
𝑗
σ 𝑓
𝑗

СООТНОШЕНИЕ СКО И СЛО
30.03.2022 75
*
Соотношение СКО и СЛО зависит от наличия в совокупности резких отклонений и может служить индикатором «засоренности» совокупности неоднородными элементами
*
Для нормального закона распределения СКО/СЛО = 1,2
*
В условиях нормального распределения существует зависимость между величиной СКО и количеством наблюдений
(«правило трех сигм»)

ДИСПЕРСИЯ
30.03.2022 76
Дисперсия
– это средняя арифметическая квадратов отклонений каждого значения признака от общей средней. Обычно называется средним квадратом отклонений и обозначается
𝝈
𝟐
Для
несгруппированных данных
рассчитывается простой показатель:
σ
2
=
σ(𝑥
𝑖
− 𝑥)
2
𝑛
Для
дискретного ряда
рассчитывается взвешенный показатель отклонения (значений признака от средней):
σ
2
=
σ(𝑥
𝑗
− 𝑥)
2
× 𝑓
𝑗
σ 𝑓
𝑗
Для
интервального ряда
рассчитывается взвешенный показатель отклонения (середины интервала от средней):
σ
2
=
σ(𝑥
𝑗

− 𝑥)
2
× 𝑓
𝑗
σ 𝑓
𝑗

ПОКАЗАТЕЛИ ИНТЕНСИВНОСТИ ВАРИАЦИИ (ОТНОСИТЕЛЬНЫЕ)
30.03.2022 77
Относительные показатели вариации
используются для сравнения вариации одного и того же показателя в разных совокупностях (например, заработной платы на двух предприятиях) или вариации разных показателей в одной совокупности
(например, заработной платы и возраста на одном предприятии), определяются как отношение абсолютных показателей вариации к средней арифметической, умноженной на 100%.
Относительных размах вариации (коэффициент осциляции):
𝜌 =
𝑅
𝑥
× 100%
Относительное линейное отклонение:
𝑚 =
𝑑
𝑥
× 100%
Коэффициент вариации:
𝑣 =
σ
𝑥
× 100%

ПОКАЗАТЕЛИ ХАРАКТЕРА ВАРИАЦИИ: АСИММЕТРИЯ
30.03.2022 78
При анализе данных важно представлять не только размер вариации, но и то, как именно распределены единицы совокупности по всему диапазону значений признака – симметрично или с заметным смещением в область более высоких или более низких значений, концентрируются в области среднего значения или распределены почти равномерно по всему диапазону. На эти вопросы отвечают
показатели характера вариации
:
Коэффициент асимметрии:
𝐴
𝑠
=
μ
𝐼𝐼𝐼
σ
3
где
𝝁
𝑰𝑰𝑰
– центральный момент третьего порядка
(средний куб отклонений), рассчитываемый, как:
μ
𝐼𝐼𝐼
=
σ(𝑥
𝑗
− 𝑥)
3
× 𝑓
𝑗
σ 𝑓
𝑗

ПОКАЗАТЕЛИ ХАРАКТЕРА ВАРИАЦИИ: ЭКСЦЕСС
30.03.2022 79
Показатель эксцесса:
𝐸
𝑥
=
μ
𝐼𝑉
σ
4
− 3
где
𝝁
𝑰𝑽
– центральный момент четвертого порядка
, рассчитываемый, как:
μ
𝐼𝑉
=
σ(𝑥
𝑗
− 𝑥)
4
× 𝑓
𝑗
σ 𝑓
𝑗

ИНТЕРПРЕТАЦИЯ ПОКАЗАТЕЛЕЙ ИНТЕНСИВНОСТИ ВАРИАЦИИ
30.03.2022 80

Если коэффициент асимметрии принимает положительные значения, то в распределении признака имеет место правосторонняя асимметрия, т.е. основная масса значений признака смещена в область малых значений.

Если коэффициент асимметрии принимает отрицательные значения, то в распределении признака имеет место левосторонняя асимметрия, т.е. основная масса значений признака смещена в область больших значений признака.

Если показатель эксцесса принимает положительные значения, то распределение признака является островершинным, т.е. основная масса значений сконцентрирована на небольшом диапазоне изменения признака.

Если показатель эксцесса принимает отрицательные значения, то распределение признака является плосковершинным, т.е. основная масса значений распределена по всему диапазону изменения признака сравнительно равномерно.

Нулевые значения коэффициента асимметрии и показателя эксцесса соответствуют варианту нормального распределения значений признака.

1   2   3


написать администратору сайта