Лекция 5. Обобщающие характеристики статистических совокупностей. Содержание лекции
Скачать 1.11 Mb.
|
ЧАСТЬ 3. МНОГОМЕРНАЯ СРЕДНЯЯ ВЕЛИЧИНА 30.03.2022 29 МНОГОМЕРНАЯ СРЕДНЯЯ 30.03.2022 30 Многомерная средняя величина – это обобщенная характеристика некоторого явления, построенная на основе сведения в единый показатель частных его характеристик. Используется для ранжирования объектов по возрастанию или убыванию какого-либо сложного явления (свойства). Многомерная средняя подразумевает усредненную оценку единицы статистической совокупности по нескольким существенным признакам. Пример сводки данных для расчета многомерной средней величины № единицы совокупности Признак х1 Признак х2 … Признак хj 1 Х 11 Х 12 … Х 1j 2 Х 21 Х 22 … Х 2j … … … … … i Х i1 Х i2 … Х ij МНОГОМЕРНАЯ СРЕДНЯЯ 30.03.2022 31 Предприятие Выработка на одного работающего, ден.ед. Фондовооруженность, ден.ед./чел. Средняя заработная плата, ден.ед./чел. Энергострой 20000 30000 15 000 Строймаш 20000 40000 15 000 Металлопласт 30000 20000 20 000 Металлобаза №2 30000 50000 11 000 Металлобаза № 3 25000 40000 13 000 Показатели деятельности предприятий отрасли за 2020 год ***все показатели относительные!!! Какое предприятие работает лучше? МНОГОМЕРНАЯ СРЕДНЯЯ 30.03.2022 32 Показатели деятельности филиалов предприятия (2020 год) Наименование филиала Среднемесячная зарплата персонала, ден .ед. Доход с 1 кв.м., ден.ед. Среднегодовая стоимость ОПФ, ден.ед. Количество посетителей в день, чел. «Еда 1» 12 300 500 120 000 410 «Еда 2» 15 000 500 110 000 400 «Еда 3» 10 000 440 130 000 350 «Еда 4» 11 200 380 100 000 360 ??? Какой филиал работает лучше ??? МНОГОМЕРНАЯ СРЕДНЯЯ 30.03.2022 33 Многомерная средняя простая Многомерная средняя взвешенная 𝑃 𝑖 = σ 𝑗 𝑥 𝑖𝑗 𝑥 𝑗 𝑘 𝑃 𝑖 = σ 𝑗 𝑥 𝑖𝑗 𝑥 𝑗 × 𝑓 𝑗 σ 𝑓 𝑗 𝑃 𝑖 - многомерная средняя для i-той единицы совокупности; - значение j-того признака для i-той единицы совокупности; - среднее значение j-того признака; - число признаков; - вес j-того признака. 𝑥 𝑖𝑗 𝑥 𝑗 𝑘 𝑓 𝑗 Веса вводятся в том случае, если необходимо учесть различную значимость составляющих обобщенную оценку факторов. Как правило, веса устанавливают в долях единицы, чтобы сумма весов была равна 1. МНОГОМЕРНАЯ СРЕДНЯЯ (ПРОСТАЯ) 30.03.2022 34 Ф.И.О. Количество полученных грамот Средний балл по зачетке Участие в общественных мероприятиях, раз Участие в научных конференциях раз Многомерная средняя Данилова 3 4,9 - 2 1,15 Иванов 2 5,0 3 1 … Семенов - 4,8 4 2 … Панкратова 1 5,0 3 - … Ключевые характеристики эффективности студентов, претендующих на ПГАС (2022 год) 𝑃 𝑖 = σ 𝑗 𝑥 𝑖𝑗 𝑥 𝑗 𝑘 𝑃 1 = 3 1,5 + 4,9 4,9 + 0 2,5 + 2 1,25 4 = 2 + 1 + 0 + 1,6 4 = 1,15 МНОГОМЕРНАЯ СРЕДНЯЯ (ВЗВЕШЕННАЯ) 30.03.2022 35 Ф.И.О. Количество полученных грамот Средний балл по зачетке Участие в общественных мероприятиях, раз Участие в научных конференциях, раз Многомерная средняя Данилова 3 4,9 - 2 1,38 Иванов 2 5,0 3 1 … Семенов - 4,8 4 2 … Панкратова 1 5,0 3 - … Вес признака 0,2 0,5 0,2 0,3 Ключевые характеристики эффективности студентов, претендующих на ПГАС (2022 год) 𝑃 𝑖 = σ 𝑗 𝑥 𝑖𝑗 𝑥 𝑗 × 𝑓 𝑗 σ 𝑓 𝑗 𝑃 1 = 3 1,5 × 0,2 + 4,9 4,9 × 0,5 + 0 2,5 × 0,2 + 2 1,25 × 0,3 1 = 0,4 + 0,5 + 0 + 0,48 1 = 1,38 ЧАСТЬ 4. ПОНЯТИЕ ВАРИАЦИИ. ВАРИАЦИОННЫЙ РЯД. ГРАФИЧЕСКОЕ ОТОБРАЖЕНИЕ ВАРИАЦИИ 30.03.2022 36 ПОНЯТИЕ ВАРИАЦИИ 30.03.2022 37 Вариация значений признака («variatio» - изменение, колеблемость, различие) – это расхождение его значений по единицам статистической совокупности в один и тот же период или момент времени. Это различие индивидуальных значений признака внутри изучаемой совокупности. Вариация характерна для всех природных и социально-экономических явлений, кроме законодательно закреплённых (например, количество директоров предприятия). Причина вариации – разные условия существования единиц совокупности. Варианта – значение признака для той или иной единицы совокупности. Варьирующими признаками называются такие, которые принимают разное значение (качественное или количественное) у отдельных единиц совокупности. Вариацию признака в рамках статистической совокупности, обусловленную влиянием случайных факторов называют случайной вариацией , а сформированную систематическими факторами – систематической ВАРИАЦИОННЫЙ РЯД: ПОНЯТИЕ, ВИДЫ 30.03.2022 38 Результатом сводки и группировки данных является вариационный ряд Вариационный ряд (ВР) – это упорядоченная по возрастанию или убыванию значений признака последовательность единиц статистической совокупности. Вариационные ряды = Ряды распределения Элементы ВР : • Варианты – это отдельные значения признака, которые он принимает в вариационном ряду («что изучаем?»). • Частоты – это численности отдельных вариант (отражают, как часто встречаются те или иные варианты в ВР, «сколько?»). Сумма частот = численности (объему) совокупности. Частости – это частоты, выраженные в долях единицы или в % к итогу. ВАРИАЦИОННЫЙ РЯД: ПОНЯТИЕ, ВИДЫ 30.03.2022 39 В общем виде вариационный ряд выглядит следующим образом: Виды вариационных рядов : - ранжированный ряд – перечень единиц статистической совокупности и соответствующих им значений признака в порядке его убывания или возрастания; - дискретный ряд (прерывный, значения отличаются друг от друга на конкретную величину) – статистическая таблица, состоящая из двух строк или граф, в одной из которых представлены значения признака (x j ), а в другой – количество единиц совокупности с данным значением признака или частота появления признака, (f j ); - интервальный ряд (непрерывный, значения имеют любые, в т.ч. и дробные количественные выражения) – статистическая таблица, состоящая из двух строк или граф, в одной из которых представлены интервалы значений признака (x j ), а в другой – частота появления признака, (f j ). Значение признака (x i ) Частота (f i ) x 1 f 1 x 2 f 2 … … x n f n Итого: Сумма частот РАНЖИРОВАННЫЙ ВАРИАЦИОННЫЙ РЯД 30.03.2022 40 Ранжированный ВР – расположение единиц совокупности в порядке возрастания или убывания выбранного признака. Ранжированный ряд строится, прежде всего, по количественному признаку и позволяет: ▪ легко разделить количественные данные по группам; ▪ сразу обнаружить наименьшее и наибольшее значения признака; ▪ выделить значения, которые чаще всего повторяются. Пример табличного и графического отображения ранжированного ВР Компания Рыночная капитализация компании (16.02.2022), млн. долл. Ранг Apple 2 764 085.31 1 Microsoft 2 210 500.74 2 Amazon 1 559 880.21 3 Tesla 905 732.37 4 Alphabet 844 882.44 5 NVIDEA 649 679.67 6 ДИСКРЕТНЫЙ ВАРИАЦИОННЫЙ РЯД 30.03.2022 41 Дискретный вариационный ряд (прерывный) – ряд, в котором значения признака отличаются друг от друга на конкретную величину. Выглядит, как статистическая таблица, состоящая из двух строк или граф, в одной из которых представлены значения признака (x j ), а в другой – количество единиц совокупности с данным значением признака или частота появления признака (f j ). Пример табличного и графического отображения дискретного ВР Оценка кибер-риска по 5-балльной шкале (варианта (x i )) Количество предприятий (частота варианты (f j )) 1 2 2 12 3 27 4 7 5 2 0 5 10 15 20 25 30 1 2 3 4 5 К о л ич ество п ред п риятий с д анн ы м ур о вн ем рис ка, ед. Уровень риска, балл ДИСКРЕТНЫЙ ВАРИАЦИОННЫЙ РЯД 30.03.2022 42 Интервальный ВР (непрерывный) – характеризует распределение единиц совокупности при (1) непрерывной вариации признака и (2) если дискретная вариация проявляется в широких пределах (количество значений признака велико). Выглядит, как статистическая таблица, состоящая из двух строк или граф, в одной из которых представлены интервалы значения признака (x j ), а в другой – частота появления признака, (f j ). Пример табличного и графического отображения интервального ВР Оценка кредитного риска по 100-балльной шкале Количество предприятий (частота варианты (f j )) 0 – 20 14 20 – 40 23 40 – 60 42 60 – 80 11 80 – 100 10 0 5 10 15 20 25 30 35 40 45 0 – 20 20 – 40 40 – 60 60 – 80 80 – 100 К о л и чес тво пр ед пр и яти й с д анн ым значе нием риск а, ед. Оценка уровня кредитного риска, балл ВАРИАЦИОННЫЙ АНАЛИЗ: ЭТАП 1 – ПОСТРОЕНИЕ ВР 30.03.2022 43 На этом этапе важно правильно определить, ряд какого вида целесообразно построить – дискретный или интервальный. Для этого необходимо выяснить, к какому виду относится изучаемый признак – дискретному или непрерывному. Как выбрать соответствующий тип вариационного ряда? ! Неверный выбор вида ряда не позволит правильно выявить закономерность в вариации значений признака, правильно рассчитать показатели вариации и исказит итоги вариационного анализа в целом. ! Для построения интервального ВР определяется количество интервалов в ряду и длина интервала. Если выбрать слишком большое число интервалов, то многочисленные колебания частоты появления признака не позволят выявить закономерность в вариации его значений, если же число интервалов будет излишне малым, то колебания частоты признака могут вовсе не проявиться, и распределение будет выглядеть равномерным. Условия Дискретный признак (принимает отдельные значения, диапазон значений относительно невелик) Непрерывный признак (принимает любые значения, либо количество значений дискретного признака велико) Соответствующий тип ВР Дискретный ряд Интервальный ряд ПРАВИЛА ПОСТРОЕНИЯ ДИСКРЕТНОГО РЯДА 30.03.2022 44 Для дискретного вариационного ряда важно правильно определить, где признак, а где частота! или Количество мячей 3 4 5 6 7 Количество матчей 6 7 8 9 10 Количество студентов 15 18 20 25 27 Количество групп 10 11 15 9 3 Задаем вопрос: «Кто (что) где встречается?» (студенты в группах или группы в студентах?) ПРАВИЛА ПОСТРОЕНИЯ ИНТЕРВАЛЬНОГО РЯДА 30.03.2022 45 Для построения интервального вариационного ряда необходимо правильно выбрать количество (k) и длину (l) интервалов! Если не удалось определить экспертным путем, то можно воспользоваться формулой Стерджесса: k = 1+3,32 lg n где k – количество групп, n – количество единиц совокупности В качестве длины интервала выбирается целочисленное и удобное для восприятия значение в интервале от l 1 до l 2 1 min max 1 k x x l − = 2 min max 2 k x x l − = где x max – максимальное значение признака, x min – минимальное значение признака в ряду, k 1 – целая часть числа k, k 2 – целая часть числа (k+1) ПРАВИЛА ПОСТРОЕНИЯ ИНТЕРВАЛЬНОГО РЯДА 30.03.2022 46 Лучше использовать округленные значения длины интервала и его границ ( l = 1240 руб.) Заработная плата, руб. Количество человек 9867 – 11107 10 11107 – 12347 15 12347 – 13587 38 13587 – 14827 32 ! Нечитаемая и невоспринимаемая информация! ПРАВИЛА ПОСТРОЕНИЯ ИНТЕРВАЛЬНОГО РЯДА 30.03.2022 47 Не все процентные значения являются частостями ! ! Частости ! Число комнат (варианты) Число семей всего, тыс. ед. (частоты) в % к итогу (частости) 1 4 000 16,0 2 12 400 50,0 3 7 600 30,6 4 и более 800 3,4 Итого 24 800 100,0 ПРАВИЛА ПОСТРОЕНИЯ ИНТЕРВАЛЬНОГО РЯДА 30.03.2022 48 Не все процентные значения являются частостями ! ! Не частости, они не отражают доли, не дают в сумме 100% ! Предприятия Человеко-дней потерь рабочего времени за год Среди них процент прогулов Человеко-дней потерь рабочего времени в среднем на 1 рабочего Количество часов, отработанных сверхурочно в среднем 1 рабочим, привлекавшимся к этим работам Удельный вес рабочих, привлекавшихся к сверхурочным работам, % А 1 2 3 4 5 Альфа 1328 20 2,1 1040 6,6 Гамма 366 28 0,4 685 1,7 Сигма 96 43 0,3 800 2,2 ГРАФИКИ ЧАСТОТНЫХ РАСПРЕДЕЛЕНИЙ: ПОЛИГОН 30.03.2022 49 1. Полигон (от «многоугольник») – это ломаная линия, соединяющая точки с координатами (x i ;f i ), где x i – значения признака в ряду, f i – частота появления признака. Распределение покупателей по числу детей в семье Число детей Не имеет детей 1 2 3 4 5 и более Число покупателей 24 30 35 7 3 1 0 10 20 30 40 0 1 2 3 4 5 Число детей в семье Чи сл о по ку па те ле й Полигон распределения покупателей по числу детей в семье ГРАФИКИ ЧАСТОТНЫХ РАСПРЕДЕЛЕНИЙ: ГИСТОГРАММА 30.03.2022 50 2. Гистограмма (от «гистос» – строение) – строится, если ряд интервальный, представляет собой столбиковую диаграмму, в которой основание столбца равно длине интервала ВР, а высота – частоте появления признака. Распределение регионов по доле населения в трудоспособном возрасте Гистограмма распределения регионов по доле населения в трудоспособном возрасте Доля населения в трудоспособном возрасте, % 56-58 58-60 60-62 62-64 64-66 66-68 68-70 70-72 Количество регионов 4 20 27 20 9 2 2 5 0 5 10 15 20 25 30 56-58 58-60 60-62 62-64 64-66 66-68 68-70 70-72 Ко л и че ст во ре ги он ов Доля населения в трудоспособном возрасте, % ГРАФИКИ НАКОПЛЕННЫХ ЧАСТОТ: КУМУЛЯТА И ОГИВА 30.03.2022 51 3. Кумулята – это ломаная линия, соединяющая точки с координатами ( x i ;f i ), где x i – значения признака, а f i – число единиц совокупности, имеющих значение признака меньше x i Накопленные частоты определяются путем последовательного суммирования частот по группам и показывают, сколько единиц совокупности имеют значение признака меньше, чем рассматриваемое значение. 4. Огива – это ломаная линия, соединяющая точки с координатами ( x i ;f i ), где x i – значения признака, а f i – число единиц совокупности, имеющих значение признака, большее или равное x i ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВАРИАЦИОННОГО РЯДА 30.03.2022 52 Число детей Число покупателей Накопленные частоты (кумулята) Накопленные частоты (огива) Нет 24 24 100 1 30 54 76 2 35 89 46 3 7 96 11 4 3 99 4 5 и более 1 100 1 Итого 100 x x более менее 0 20 40 60 80 100 Нет 1 2 3 4 5 и более Ч ис ло поку па те ле й Число детей Накопленные частоты (кумулята) Накопленные частоты (огива) ЧАСТЬ 5. ПОКАЗАТЕЛИ ВАРИАЦИИ 30.03.2022 53 ПОКАЗАТЕЛИ СТРУКТУРЫ ВАРИАЦИИ 30.03.2022 54 Мода (Мо) – это наиболее часто встречающееся значение признака в вариационном ряду. Мода отражает типичный (наиболее распространенный) вариант значения признака. Медиана (Ме) – это значение признака, которое делит ряд на две равные части: со значениями признака меньше и больше медианы. Медиана выполняет функции средней величины для неоднородной совокупности. Мода и медиана имеют ту же единицу измерения, что и сам признак. !!! Определение Мо и Ме различно для дискретного и интервального ВР МОДА ДЛЯ НЕСГРУППИРОВАННЫХ ДАННЫХ 30.03.2022 55 1) несгруппированные данные Пример. Рабочие бригады, состоящей из 9 человек, имеют тарифные разряды: 4, 3 , 4, 5, 3 , 3 , 6, 2, 6 Мо = ? Пример. Рабочие бригады, состоящей из 10 человек, имеют тарифные разряды: 4 , 3 , 4 , 5, 3 , 3 , 6, 2, 6, 4 Мо = ? Интерпретация: наибольшее число рабочих имеют тарифный разряд … * бимодальный, мультимодальный ВР МОДА ДЛЯ ДИСКРЕТНОГО РЯДА 30.03.2022 56 2) сгруппированные данные: дискретный вариационный ряд Мо=? Мо=? Мо=? *В каком из ВР мода равна 4? Стаж, лет 3 4 5 6 Количество человек 5 4 6 12 Стаж, лет 3 4 5 6 Количество человек 4 7 6 6 Стаж, лет 3 4 5 6 Количество человек 3 4 8 5 МОДА ДЛЯ ДИСКРЕТНОГО РЯДА 30.03.2022 57 Тарифный разряд Количество человек 2 12 3 48 4 56 5 60 6 14 Итого 190 Чему равна мода? МОДА ДЛЯ ИНТЕРВАЛЬНОГО РЯДА 30.03.2022 58 3) сгруппированные данные: интервальный вариационный ряд ! Определяют модальный интервал Модальный интервал – это интервал, имеющий наибольшую частоту встречаемости признака Определяют значение Мо по формуле: Стаж, лет Менее 5 5 - 7 7 - 9 Более 9 Количество человек 30 20 15 10 1 1 1 ( ) ( ) Mo Mo o o Mo Mo Mo Mo f f M x l f f f f − − + − = + − + − 𝒙 𝟎 – начальное значение модального интервала; 𝒇 𝑴𝒐 , 𝒇 𝑴𝒐−𝟏 , 𝒇 𝑴𝒐+𝟏 – частота появления признака соответственно в интервале модальном, предшествующем модальному и следующем за модальным; 𝒍 – длина интервала. МОДА ДЛЯ ИНТЕРВАЛЬНОГО РЯДА 30.03.2022 59 интервальный вариационный ряд Стаж, лет Менее 5 5 - 10 10 - 15 Более 15 Количество человек 3 4 8 20 1 1 1 ( ) ( ) Mo Mo o o Mo Mo Mo Mo f f M x l f f f f − − + − = + − + − 20 8 15 5 16,9( ) (20 8) (20 0) o M лет − = + = − + − Стаж, лет Менее 5 5 - 10 10 - 15 Более 15 Количество человек 20 3 4 8 20 0 0 5 2,7( ) (20 0) (20 3) o M лет − = + = − + − МОДА ДЛЯ ИНТЕРВАЛЬНОГО РЯДА 30.03.2022 60 интервальный вариационный ряд Стаж, лет Менее 5 5 - 10 10 - 15 Более 15 Количество человек 3 4 8 20 1 1 1 ( ) ( ) Mo Mo o o Mo Mo Mo Mo f f M x l f f f f − − + − = + − + − 20 8 15 5 16,9( ) (20 8) (20 0) o M лет − = + = − + − Интерпретация: «наибольшее число рабочих на предприятии имеют стаж около 16,9 лет » «Значение признака попадает чаще всего в интервал ….» , а не «чаще всего встречается интервал …» ПОКАЗАТЕЛИ СТРУКТУРЫ ВАРИАЦИИ: МЕДИАНА 30.03.2022 61 1) несгруппированные данные Пример. Рабочие бригады, состоящей из 9 человек, имеют тарифные разряды: 4, 3, 4, 5, 3, 3, 6, 2, 6 Ме = ? !!! Для определения Ме надо провести ранжирование! Ранжируем : 2, 3, 3, 3, 4 , 4, 5, 6, 6 Ме = 4 Интерпретация: в бригаде из 9 человек половина рабочих имеют тарифный разряд менее 4, и половина рабочих имеют тарифный разряд более 4. Если ранжированный ряд включает четное число единиц , то Ме определяется как средняя из двух центральных значений. ПОКАЗАТЕЛИ СТРУКТУРЫ ВАРИАЦИИ: МЕДИАНА 30.03.2022 62 № п.п. 1 2 3 4 … 98 99 100 Доход, долл. 302 305 310 313 … 397 400 90 000 Распределение сотрудников предприятия по доходу *Необходимо дать характеристику среднего дохода сотрудника предприятия. Как это сделать? *Можно ли применить среднюю арифметическую величину? МЕДИАНА ДЛЯ СГРУППИРОВАННЫХ ДАННЫХ 30.03.2022 63 2) сгруппированные данные: дискретный вариационный ряд Ме=? Ме=? Ме=? *В каком из ВР медиана равна 4? Стаж, лет 3 4 5 6 Количество человек 5 4 6 12 Стаж, лет 3 4 5 6 Количество человек 4 7 6 6 Стаж, лет 3 4 5 6 Количество человек 3 4 8 5 МЕДИАНА ДЛЯ ДИСКРЕТНОГО РЯДА 30.03.2022 64 дискретный вариационный ряд Медиана для дискретного ряда определяется как значение признака центральной единицы ряда (если в ряду нечетное число единиц) или как полусумма значений двух центральных единиц (если в ряду четное число единиц). * номер медианной единицы можно найти по формулам: Тарифный разряд 2 3 4 5 6 Итого Количество человек 12 48 56 60 14 190 или Тарифный разряд 2 3 4 5 6 Итого Количество человек 12 48 56 60 14 190 Накопленные частоты 12 60 116 176 190 - Номер медианной единицы = 190/2=95 Рассчитываем накопленные частоты Находим номер «95» Чему равна Ме? МЕДИАНА ДЛЯ ИНТЕРВАЛЬНОГО РЯДА 30.03.2022 65 3) интервальный вариационный ряд *сначала определяют медианный интервал Медианный интервал – это первый интервал, накопленная частота которого превышает половину общей суммы частот (половину объема совокупности) *потом определяют значение Ме по формуле: Стаж, лет Менее 5 5 – 7 7 – 9 Более 9 Количество человек 10 20 16 10 𝑴𝒆 = 𝟓 + 𝟐 × 𝟓𝟔 𝟐 − 𝟏𝟎 𝟐𝟎 = 𝟔, 𝟖 лет 𝑀 𝑒 = 𝑥 0 + 𝑙 × σ 𝑓 𝑗 2 − 𝑓 𝑀 𝑒 −1 ′ 𝑓 𝑀 𝑒 𝑥 0 – начальное значение медианного интервала; 𝑙 – длина интервала; σ 𝑓 𝑗 – общая сумма частот; 𝑓 𝑀 𝑒 −1 ′ – накопленная частота в интервале, предшествующем медианному; 𝑓 𝑀 𝑒 – частота появления признака в медианном интервале. МЕДИАНА ДЛЯ ИНТЕРВАЛЬНОГО РЯДА 30.03.2022 66 3) интервальный вариационный ряд Стаж, лет Менее 5 5 – 10 10 – 15 15 – 20 Итого Количество человек 3 4 8 20 35 Накопленные частоты 3 7 15 35 - 𝑴𝒆 = 𝟏𝟓 + 𝟓 × 𝟑𝟓 𝟐 − 𝟏𝟓 𝟐𝟎 = 𝟏𝟓, 𝟔 (лет) 𝑀 𝑒 = 𝑥 0 + 𝑙 × σ 𝑓 𝑗 2 − 𝑓 𝑀 𝑒 −1 ′ 𝑓 𝑀 𝑒 Стаж, лет Менее 5 5 – 10 10 – 15 15 – 20 Итого Количество человек 20 3 4 8 35 Накопленные частоты 20 23 27 35 - 𝑴𝒆 = 𝟎 + 𝟓 × 𝟑𝟓 𝟐 − 𝟎 𝟐𝟎 = 𝟒, 𝟑 (лет) МЕДИАНА ДЛЯ ИНТЕРВАЛЬНОГО РЯДА 30.03.2022 67 3) интервальный вариационный ряд 𝑀 𝑒 = 𝑥 0 + 𝑙 × σ 𝑓 𝑗 2 − 𝑓 𝑀 𝑒 −1 ′ 𝑓 𝑀 𝑒 𝑴𝒆 = 𝟏𝟕𝟎 + 𝟒 × 𝟏𝟎𝟎 𝟐 − 𝟓𝟎 𝟐𝟖 = 𝟏𝟕𝟎 (см) Рост, см. Количество студентов Накопленная частота 158 – 162 10 10 162 – 166 14 24 166 – 170 26 50 170 – 174 28 … 174 – 178 12 178 - 182 8 182 - 186 2 Итого 100 Интерпретация: В совокупности из 100 студентов половина имеют рост 170 см и менее, и половина студентов имеют рост 170 см и более ГРАФИЧЕСКОЕ ОПРЕДЕЛЕНИЕ МОДЫ И МЕДИАНЫ 30.03.2022 68 *В интервальном вариационном ряду Мо и Ме можно определить графически: Моду можно определить по гистограмме (самый высокий прямоугольник …..) 0 5 10 15 20 25 30 56-58 58-60 60-62 62-64 64-66 66-68 68-70 70-72 Ко л и че ст во ре ги он ов Доля населения в трудоспособном возрасте, % 0 10 20 30 40 50 60 70 80 90 56-58 58-60 60-62 62-64 64-66 66-68 68-70 70-72 Ко л и че ст во ре ги он ов Доля населения в трудоспособном возрасте, % Накопленные частоты (кумулята) Накопленные частоты (огива) Медиану можно определить по кумуляте КВАРТИЛИ И ДЕЦИЛИ ВАРИАЦИОННОГО РЯДА 30.03.2022 69 *Иногда рассчитывают: Квартили распределения – это значения признака, которые делят совокупность на 4 равные части (по числу единиц) Децили распределения – значения признака, которые делят совокупность на 10 равных частей (по числу единиц) ПОКАЗАТЕЛИ СИЛЫ И ИНТЕНСИВНОСТИ ВАРИАЦИИ 30.03.2022 70 Насколько велик абсолютный и относительный разброс значений признака оценивают показателями силы и интенсивности вариации Размах вариации – это разность между максимальным и минимальным значением признака в изучаемой совокупности. * показывает, насколько велик абсолютный разброс значений признака в совокупности 𝑅 = 𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛 где 𝑥 𝑚𝑎𝑥 − максимальное значение признака в ряду; 𝑥 𝑚𝑖𝑛 − минимальное значение признака в ряду. В чем недостатки показателя? ОПРЕДЕЛЯЕМ РАЗМАХ ВАРИАЦИИ 30.03.2022 71 R=? R=? R=? 4, 3, 5, 3, 3, 3, 6, 2, 6, 5, 10, 15, 6, 5, 4, 3, 2, 1, 13 . R=? Стаж, лет 3 4 5 6 Количество человек 5 4 6 12 Стаж, лет 1 – 5 5 – 10 10 – 15 Свыше 15 Количество человек 3 4 8 5 № п.п. 1 2 3 4 … 98 99 100 Доход, долл. 302 305 310 313 … 397 400 90 000 СРЕДНЕЕ ЛИНЕЙНОЕ ОТКЛОНЕНИЕ 30.03.2022 72 Среднее линейное отклонение (СЛО) – это средняя арифметическая величина из абсолютных отклонений отдельных значений признака от их средней. Для несгруппированных данных рассчитывается простой показатель: 𝑑 = σ 𝑥 𝑖 − 𝑥 𝑛 Для дискретного ряда рассчитывается взвешенный показатель отклонения (фактического значения от средней): 𝑑 = σ 𝑥 𝑗 − 𝑥 × 𝑓 𝑗 σ 𝑓 𝑗 Для интервального ряда рассчитывается взвешенный показатель отклонения (середины интервала от средней): 𝑑 = σ 𝑥 𝑗 ′ − 𝑥 × 𝑓 𝑗 σ 𝑓 𝑗 *Все обозначения представлены в теме «Средние величины» СРЕДНЕЕ ЛИНЕЙНОЕ ОТКЛОНЕНИЕ 30.03.2022 73 Важно!!! При обработке данных статистического наблюдения возможен расчет показателей вариации как по первичным (несгруппированным данным), так и по предварительно построенным рядам распределения. Но в рамках расчета одного показателя все входящие в него параметры должны быть определены одним способом. Например , если среднее линейное отклонение рассчитывается по интервальному вариационному ряду, то и используемая в расчете средняя арифметическая величина должна быть рассчитана по тому же интервальному ряду. Если же среднее линейное отклонение рассчитывается по несгруппированным, исходным данным (простая сводка), то и используемая в расчете средняя арифметическая величина должна быть рассчитана по тем же данным. В противном случае рассчитанные показатели теряют свой смысл СРЕДНЕЕ КВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ 30.03.2022 74 Среднее квадратическое отклонение (СКО) – показатель рассеивания значений случайной величины относительно ее математического ожидания. Для несгруппированных данных рассчитывается простой показатель: σ = σ(𝑥 𝑖 − 𝑥) 2 𝑛 Для дискретного ряда рассчитывается взвешенный показатель отклонения (значений признака от средней): σ = σ(𝑥 𝑗 − 𝑥) 2 × 𝑓 𝑗 σ 𝑓 𝑗 Для интервального ряда рассчитывается взвешенный показатель отклонения (середины интервала от средней): σ = σ(𝑥 𝑗 ′ − 𝑥) 2 × 𝑓 𝑗 σ 𝑓 𝑗 СООТНОШЕНИЕ СКО И СЛО 30.03.2022 75 * Соотношение СКО и СЛО зависит от наличия в совокупности резких отклонений и может служить индикатором «засоренности» совокупности неоднородными элементами * Для нормального закона распределения СКО/СЛО = 1,2 * В условиях нормального распределения существует зависимость между величиной СКО и количеством наблюдений («правило трех сигм») ДИСПЕРСИЯ 30.03.2022 76 Дисперсия – это средняя арифметическая квадратов отклонений каждого значения признака от общей средней. Обычно называется средним квадратом отклонений и обозначается 𝝈 𝟐 Для несгруппированных данных рассчитывается простой показатель: σ 2 = σ(𝑥 𝑖 − 𝑥) 2 𝑛 Для дискретного ряда рассчитывается взвешенный показатель отклонения (значений признака от средней): σ 2 = σ(𝑥 𝑗 − 𝑥) 2 × 𝑓 𝑗 σ 𝑓 𝑗 Для интервального ряда рассчитывается взвешенный показатель отклонения (середины интервала от средней): σ 2 = σ(𝑥 𝑗 ′ − 𝑥) 2 × 𝑓 𝑗 σ 𝑓 𝑗 ПОКАЗАТЕЛИ ИНТЕНСИВНОСТИ ВАРИАЦИИ (ОТНОСИТЕЛЬНЫЕ) 30.03.2022 77 Относительные показатели вариации используются для сравнения вариации одного и того же показателя в разных совокупностях (например, заработной платы на двух предприятиях) или вариации разных показателей в одной совокупности (например, заработной платы и возраста на одном предприятии), определяются как отношение абсолютных показателей вариации к средней арифметической, умноженной на 100%. Относительных размах вариации (коэффициент осциляции): 𝜌 = 𝑅 𝑥 × 100% Относительное линейное отклонение: 𝑚 = 𝑑 𝑥 × 100% Коэффициент вариации: 𝑣 = σ 𝑥 × 100% ПОКАЗАТЕЛИ ХАРАКТЕРА ВАРИАЦИИ: АСИММЕТРИЯ 30.03.2022 78 При анализе данных важно представлять не только размер вариации, но и то, как именно распределены единицы совокупности по всему диапазону значений признака – симметрично или с заметным смещением в область более высоких или более низких значений, концентрируются в области среднего значения или распределены почти равномерно по всему диапазону. На эти вопросы отвечают показатели характера вариации : Коэффициент асимметрии: 𝐴 𝑠 = μ 𝐼𝐼𝐼 σ 3 где 𝝁 𝑰𝑰𝑰 – центральный момент третьего порядка (средний куб отклонений), рассчитываемый, как: μ 𝐼𝐼𝐼 = σ(𝑥 𝑗 − 𝑥) 3 × 𝑓 𝑗 σ 𝑓 𝑗 ПОКАЗАТЕЛИ ХАРАКТЕРА ВАРИАЦИИ: ЭКСЦЕСС 30.03.2022 79 Показатель эксцесса: 𝐸 𝑥 = μ 𝐼𝑉 σ 4 − 3 где 𝝁 𝑰𝑽 – центральный момент четвертого порядка , рассчитываемый, как: μ 𝐼𝑉 = σ(𝑥 𝑗 − 𝑥) 4 × 𝑓 𝑗 σ 𝑓 𝑗 ИНТЕРПРЕТАЦИЯ ПОКАЗАТЕЛЕЙ ИНТЕНСИВНОСТИ ВАРИАЦИИ 30.03.2022 80 ▪ Если коэффициент асимметрии принимает положительные значения, то в распределении признака имеет место правосторонняя асимметрия, т.е. основная масса значений признака смещена в область малых значений. ▪ Если коэффициент асимметрии принимает отрицательные значения, то в распределении признака имеет место левосторонняя асимметрия, т.е. основная масса значений признака смещена в область больших значений признака. ▪ Если показатель эксцесса принимает положительные значения, то распределение признака является островершинным, т.е. основная масса значений сконцентрирована на небольшом диапазоне изменения признака. ▪ Если показатель эксцесса принимает отрицательные значения, то распределение признака является плосковершинным, т.е. основная масса значений распределена по всему диапазону изменения признака сравнительно равномерно. ▪ Нулевые значения коэффициента асимметрии и показателя эксцесса соответствуют варианту нормального распределения значений признака. |