Главная страница
Навигация по странице:

  • Структурные характеристики ряда распределения.

  • Показатели меры вариации.

  • Абсолютные показатели вариации

  • Относительные показатели вариации

  • Средняя и дисперсия альтернативного признака.

  • Показатели формы распределения.

  • Решение типовых задач Пример 1.

  • Задачи для самостоятельного решения Каждый должен решить ОДНУ любую

  • Тема 6. Анализ рядов распред. 8 задач. Тема анализ рядов распределения. Методические указания Анализ рядов распределения


    Скачать 362.78 Kb.
    НазваниеТема анализ рядов распределения. Методические указания Анализ рядов распределения
    Дата09.03.2023
    Размер362.78 Kb.
    Формат файлаdocx
    Имя файлаТема 6. Анализ рядов распред. 8 задач.docx
    ТипМетодические указания
    #976656


    Тема 5. АНАЛИЗ РЯДОВ РАСПРЕДЕЛЕНИЯ.
    Методические указания
    1. Анализ рядов распределения. Упорядоченное распределение единиц совокупности по определенному варьирующему признаку представляет собой ряд распределения.

    Первым этапом статистического изучения вариации количественного признака является построение вариационного ряда, который в зависимости от характера представления варьирующего признака может быть: а) интервальным; б) дискретным. Если же признак атрибутивный или альтернативный, то, соответственно, строятся атрибутивный или альтернативный ряды распределения.

    Для анализа вариационных рядов используется три группы показателей:

    • структурные характеристики ряда распределения;

    • показатели меры вариации;

    • показатели формы распределения.

    Структурные характеристики ряда распределения. К ним относятся медиана ( ),мода ( ), квартили ( ), децили ( ) и перцентили ( ) распределения.

    Медиана – это величина варьирующего признака, которая делит ряд распределения на две равные части, т.е. медиана соответствует варианте, стоящей в середине ряда.

    Медиана определяется в зависимости от вида ряда распределения:

    • в ранжированном ряду с нечетным числом уровней медиана соответствует признаку с порядковым номером: ,

    где n - объем совокупности.

    • в ранжированном ряду с четным числом значений варьирующего признака ( ; ) за медиану условно принимают значение:

    • в дискретном ряду распределения медиана соответствует варианте, для которой первая накопленная частота больше половины общего числа наблюдений;

    • в интервальном ряду распределения медианным интервалом будет интервал, для которого первая накопленная частота больше половины объема совокупности, а сама медиана определяется по формуле: ,

    где - нижняя граница медианного интервала; - величина медианного интервала; - частота медианного интервала; - накопленная частота до медианного интервала.

    Графически медиана определяется по кумуляте распределения (рис. 5.2, пример 1).

    Мода - наиболее часто встречающийся признак в совокупности. Определяется:

    • в дискретном ряду – по максимальной частоте;

    ,

    где - нижняя граница модального интервала; - величина модального интервала; - частота модального интервала; - час-тота интервала, предшествующего модальному; - частота интервала, следующего за модальным.

    Графически мода определяется на основе полигона распределения (для дискретного вариационного ряда) или гистограммы распределения (для интервального вариационного ряда) (рис.5.1, пример 1).

    Значения признака, делящие совокупность на четыре равные части, называются квартелями и обозначаются буквой Qс подписным значком номера квартиля, - ясно, что Q2 совпадает с медианой, т.е. Q2 = = Ме. Первый (Q1) и третий (Q3) квартили определяются по следующим формулам:

    ; ,

    гдехQ1,хQ3- нижняя граница, соответственно, первого и третьего квартильных интервалов;hQ1, hQ3- величина соответствующего первого и третьего квартильных интервалов;fQ1, fQ3- частота соотвествующих квартильных интервалов; - накопленная частота до первого квартильного интервала; - накопленная частота до третьего квартильного интервала.

    Децили – варианты, делящие ряд распределения на десять равных частей. Вычисляются они по той же схеме, что и медиана, и квартили: ; и т.д

    Значения признака, делящее ряд на сто частей, называются перцентилями, и их расчет выполняется аналогично исчислению децилей и квартилей. Анализ вариационного ряда дополняется определением показателей дифференциации и концентрации. Например, коэффициент децильной дифференциации: , гдеd9 – девятая дециль, или девятый дециль;d1 – первая дециль, или первый дециль.

    Он показывает, во сколько раз наименьший уровень признака из 10% признаков, имеющих наибольший уровень, больше наибольшего уровня признака из 10% единиц совокупности, имеющих наименьший уровень признака.

    Коэффициент фондов (Кф)– это соотношение между средними значениями изучаемого признака (или суммарными их значениями) в десятой и первой децильных группах, - рассчитывается по формуле:

    Показатели меры вариации. Количественная оценка степени ко-леблемости признака в совокупности измеряется с помощью показателей вариации. Различают абсолютные и относительные показатели вариации.

    Абсолютные показатели вариации:

    1. Размах вариации: ,

    где , - соответственно, наибольшее и наименьшее значение варьирующего признака.

    2. Среднее линейное отклонение:

    - простое; - взвешенное.

    3. Дисперсия:

    - простая; - взвешенная.

    4. Среднее квадратическое отклонение:

    - простое; - взвешенное.

    Среднее квадратическое отклонение и среднее линейное отклонение – это обобщающие характеристики размеров вариации признака в совокупности, они выражаются в тех же единицах измерения, что и сам признак.

    При сравнительно простых значениях признака используется упрощенный способ расчета дисперсии и среднего квадратического отклонения – метод разности средних: ; .

    • по несгруппированным данным: ; ,

    • по сгруппированным данным:

    Относительные показатели вариации:

    • Относительный размах вариации или коэффициент осцилляции (КR): ;

    • Относительное линейное отклонение или линейный коэффициент вариации (К ): ;

    • Коэффициент вариации (V): .

    Средняя и дисперсия альтернативного признака. Введем условные обозначения для альтернативного признака и построим альтернативный ряд распределения.

    Альтернативный признак принимает значение 1, что означает наличие признака; 0 – его отсутствие; р – доля единиц, обладающих данным признаком, qсоответственно, необладающих данным признаком. Тогда среднее значение альтернативного признака будет равно: при этом p + q = 1, т.е. q =1 – p.

    Дисперсия и среднее квадратическое отклонение рассчитываются по соотношению: /. .

    Показатели формы распределения. Для получения приблизительного представления о форме распределения строят графики распределения (полигон и гистограмму), рассчитываются структурные или ранговые характеристики распределения (квартили, децили), показатели дифференциации, концентрации, асимметрии, эксцесса, а также строятся кривые распределения.

    Для сравнительного анализа степени асимметрии нескольких распределений рассчитывается показатель асимметрии (АS):

    или

    Наиболее широко (как показатель асимметрии) применяется отношение центрального момента третьего порядка (m3) к среднему квадратическому отклонению в кубе, т.е. , .

    Если > 0,то это указывает на наличие правосторонней асимметрии, а при , - левосторонней. Чем больше абсолютная величина коэффициента, тем больше степень скошенности распределения.

    Оценка существенности AS проводится на основе средней квад-ратической ошибки коэффициента ( ): .

    Если , асимметрия распределения существенна и распределение признака в генеральной совокупности несимметрично. В противном случае асимметрия несущественна, и ее наличие может быть вызвано случайными факторами.

    Для симметричных распределений рассчитывается показатель эксцесса (островершинности): ,

    где m4 – центральный момент четвертого порядка; m4 = .

    Эксцесс у высоковершинных распределений положительный, а у низковершинных – отрицательный. Появление значительного отрицательного эксцесса может указывать на качественную неоднородность исследуемой совокупности.

    Для оценки существенности коэффициента эксцесса используется его средняя квадратическая ошибка ( ): .

    Если , то значение коэффициента эксцесса существенно или статистически значимо.

    Решение типовых задач

    Пример 1. Имеются следующие данные об успеваемости студентов факультета по статистике: 4, 2, 5, 5, 3, 4, 3, 2, 5, 5, 4, 4, 3, 3, 4, 2, 1, 1, 1, 3, 4, 4, 4, 5, 5, 4, 2, 2, 3, 3.

    Для анализа распределения студентов по успеваемости: 1) постройте дискретный ряд распределения; 2) дайте графическое изображение ряда; 3) исчислите структурные средние ряда (двумя способами) и показатели формы распределения; 4) проверьте гипотезу о соответствии эмпирического распределения нормальному закону распределения.

    Решение

    1. Для построения дискретного вариационного ряда необходимо подсчитать количество появления каждой оценки, т.е. частоту появления признака. Дискретный ряд представлен в таблице 5.1.

    Таблица 5.1

    Распределение студентов по успеваемости

    Успеваемость (балл), х

    Число сту-

    дентов, f

    Накопленные

    частоты, S нак

    xf

    x2 f



    1

    3

    3

    3

    3

    88,875

    2

    5

    8

    10

    20

    15,787

    3

    7

    15

    21

    63

    0,086

    4

    9

    24

    36

    144

    1,8136

    5

    6

    30

    30

    150

    46,3333

    Итого

    30

    -

    100

    380

    152,8949




    1. Графически дискретный вариационный ряд может быть представлен в виде полигона (рис.5.1), кумуляты (рис.5.2) распределения. Полигон строится в прямоугольной системе координат.


    f

    9

    6

    5

    7

    3

    полигон

    х

    1,72

    4

    3

    1

    3,93



    число студентов, чел



    Мо= 4(балла)



    успеваемость, балл

    5

    2


    полигон распределения

    теоретическая кривая нормального распределения

    Рис. 5.1. Распределение студентов по успеваемости.


    По оси абсцисс откладываются значения дискретного признака, а по оси ординат – частоты распределения. Полигон часто замыкается, - для этого крайние вершины соединяются с точками на оси абсцисс, отстоящими на одно деление в принятом масштабе (в данном примере х = 0 и х = 6).

    Кумулята – это линейный график накопленных частот. Для построения кумуляты дополнительно рассчитываются накопленные частоты (SНАК), - они представлены в таблице 5.1, и в прямоугольной системе координат строится их график (рис.5.2).





    1

    2

    3

    4

    5

    успеваемость,балл


    Рис. 5.2. Кумулята распределения студентов по успеваемости
    3. Cтруктурными средними выступают мода и медиана.

    Модальное значение признака, т.е. Мо = 4 (балла). Графически – это вершина полигона распределения (рис.5.1).

    Медиана равна 3 балла, так как SНАК = =15 для признака, равному 3. Графически медиана определяется с помощью кумуляты распределения. Для ее определения сумму ординат (сумму частот) делят пополам, т.е. . Через полученную точку проводится прямая параллельно оси абсцисс до пересечения ее с кумулятой. Абсцисса точки пересечения является медианной величиной распределения (рис. 5.2).

    1. Для оценки формы распределения исчислим коэффициент асимметрии и эксцесса: ; (балла); М0== 4(балла); ; .

    , это свидетельствует о наличии левосторонней асимметрии распределения студентов по успеваемости (рис. 5.1).

    Для проверки статистической гипотезы о существенности асимметрии рассчитываем соотношение , исчислив предварительно: = ; .

    В нашем примере наличие асимметрии несущественно и объясняется влиянием случайных факторов.

    Исчислим коэффициент эксцесса: ; =

    ; .

    Так как , то распределение студентов по успеваемости – низковершинное или плосковершинное по сравнению с нормальным распределением.

    Пример 2. Известно распределение коммерческих банков области по размеру прибыли.

    Размер прибыли,

    млн.грн

    До

    10,0

    10,0 –

    20,0

    20,0 -

    30,0

    30,0 -

    40,0

    40,0 -

    50,0

    Свыше

    50,0

    Ито-

    го

    Количество банков

    20

    40

    25

    45

    50

    20

    200

    Оцените уровень вариации банков по размеру прибыли, рассчитав абсолютные и относительные показатели вариации. Сделайте выводы.

    Решение

    1. Для определения абсолютных показателей вариации необходимо закрыть открытые интервалы и перейти от интервального ряда к дискретному (табл.5.2. гр. 3)

    Таблица 5.2

    Вспомогательные расчеты для определения показателей вариации


    Размер прибыли,млн.грн

    Количество банков, f

    Середина интервала,х

    xf





    x2

    x2f

    1

    2

    3

    4

    5

    6

    7

    8

    до 10,0

    20

    5

    100

    52,5

    1378,125

    25

    500

    10,0-20,0

    40

    15

    600

    650

    10562,5

    225

    9000

    20,0-30,0

    25

    25

    625

    156,25

    976,5625

    625

    15625

    30,0-40,0

    45

    35

    1575

    168,75

    632,8125

    1225

    55125

    40,0-50,0

    50

    45

    2250

    687,5

    9453,125

    2025

    101250

    Свыше50,0

    20

    55

    1100

    475,0

    11281,25

    3025

    60500

    Итого

    200,0




    6250

    2190

    46687,5




    242000


    Рассчитываем следующие абсолютные показатели вариации: размах вариации (R); среднее линейное отклонение ( ), дисперсию ( ) и среднее квадратическое отклонение( ). 60 – 0= = 60 (млн. грн.) Размер отклонений величины максимальной прибыли от минимальной по всей совокупности банков составляет 60 млн.грн.

    Для расчета и определим средний размер прибыли по всей совокупности банков.

    млн.грн; млн.грн.

    Индивидуальные размеры прибыли в среднем по всей совокупности банков отклонялись в ту и другую сторону от своего среднего значения на 10,95 млн. грн.

    Дисперсию определим двумя способами:

    • по формуле среднего квадрата отклонений = = 233,44

    • по формуле “разности средних”:

    - (31,25) 2 = 1210 – 976,56 = 233,44.

    Среднее квадратическое отклонение: млн.грн.

    Размеры прибыли каждого из 200 банков отклонялись в ту и другую сторону от среднего значения на 15,28 млн. грн.

    Определим теперь относительные показатели вариации:

    • коэффициент осцилляции: ;

    • относительное линейное отклонение: %;

    • коэффициент вариации:

    Анализируемый вариационный ряд распределения банков по размеру прибыли является статистически неоднородным, так как коэффициент вариации больше 33%. Об этом свидетельствует другие показатели вариации, например, коэффициент осциляции показывает, что разность между крайними значениями признака почти в 2 раза больше ( или 192 %) их среднего значения.

    Среднее значение показателя прибыли по данной совокупности банков ( тыс.грн) не является надежной или типической ее характеристикой.
    Пример 3. Распределение семей по среднедушевым доходам следующее (таблица 5.3). Определите: 1. а) структурные характеристики распределения семей по размеру среднедушевого дохода; б) показатели формы и дифференциации распределения. 2. Постройте график эмпирического и теоретического распределения семей по размеру среднедушевого дохода.
    Решение

    1а. Определяем структурные характеристики ряда распределения, т.е. моду медиану, квартили, децили по рассмотренным выше формулам этих характеристик для интервальных вариационных рядов.

    Для выбора соответствующего интервала предварительно опре-делим накопленные частоты , (табл. 5.4, гр. 4).

    Модальный интервал – это интервал с наибольшей частотой , тогда грн.

    Большинство семей имеют среднедушевые доходы в размере 196,67 грн. Медианным является интервал , т.к. для него первая накопленная частота больше половины объема совокупности, т.е. 120100. Тогда медиана будет равна: грн.

    Половина семей имеют среднедушевые доходы, не превышаю-щие доходы 202 грн., а у другой половины семей среднедушевые доходы, соответственно, выше 202 грн.

    Интервал, в котором будет находиться первый квартиль( ) рас-пределения, , т.к. ему соответствует первая накопленная час-тота , большая ; а интервал, в котором находится третий квартиль( ), будет , т.к. ему соответствует > .

    Тогда соответствующие квартили будут равны:

    грн; грн.

    Среднедушевые доходы, не превышающие 180 грн., получают не менее четверти (25%) из всей совокупности семей, а в размере, не превышающем 230грн., не менее 75% всех семей.

    Более детальная характеристика распределения может быть получена на основе децилей распределения. Интервалы соответствующих децилей определяются аналогично по соответствующим накопленным частотам. Например, находим первую , - это будет ; тогда соответствующий ей интервал будет тем интервалом, в котором находится первый дециль (d1) – и т.д.

    Рассчитаем соответствующие децили:

    грн; грн;

    грн; грн;

    грн; грн;

    грн; грн;

    грн. Первый дециль показывает, что у 10% семей с самым низким среднедушевым доходом самый высокий размер среднедушевого дохода составляет 160 грн., а девятый дециль, - что среди 10% семей с самым высоким уровнем дохода – нижняя его граница составляет 254 грн.
    Таблица 5.3

    Распределение семей по среднедушевому доходу


    Среднеду-шевые доходы,

    грн

    Число

    се-

    мей

    Закрытые ин-тервалы сред-недушевых доходов, грн



    х

    xf

    x2f













    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    До 150,0

    10

    130 - 150

    10

    140

    1400

    196000

    - 64,5

    - 2683361,25

    173076800,625

    41602,5

    150,0 -170,0

    20

    150 - 170

    30

    160

    3200

    512000

    - 44,5

    -1762422,5

    78427801,25

    39605

    170,0 -190,0

    40

    170 - 190

    70

    180

    7200

    1296000

    - 24,5

    - 588245

    14412002,5

    24010

    190,0 -210,0

    50

    190 - 210

    120

    200

    10000

    2000000

    - 4,5

    - 4556,25

    20503,125

    1012,5

    210,0 -230,0

    30

    210 - 230

    150

    220

    6600

    1452000

    15,5

    111716,25

    1731601,875

    7207,5

    230,0 -250,0

    25

    230 - 250

    175

    240

    6000

    1440000

    35,5

    1118471,875

    33705751,625

    31506,25

    Свыше 250,0

    25

    250 - 270

    200

    260

    6500

    1690000

    55,5

    4273846,975

    237198501,5625

    77006,25

    Итого

    200










    40900

    8586000




    465450,0

    544572962,5

    221950

    Пример 4. Налоговой инспекцией одного из районов города проверено 172 коммерческих киоска и в 146 из них выявлены финансовые нарушения. Определите среднее значение, дисперсию и среднее квадратическое отклонение альтернативного признака, т.е. доли киосков, у которых выявлены финансовые нарушения.

    Решение

    Определяем долю коммерческих киосков, у которых выявлены финансовые нарушения: . Тогда доля киосков, у которых отсутствуют финансовые нарушения, будет: .

    Среднее значение альтернативного признака: . Дисперсия альтернативного признака составит: = 0,85 · 0,15 = 0,128, а среднее квадратическое отклонение: .


    Задачи для самостоятельного решения

    Каждый должен решить ОДНУ любую задачу из восьми предложенных

    5.1. По имеющимся данным о производстве изделий двумя бригадами рабочих определите для каждой бригады: размах вариации, среднее линейное отклонение, дисперсию, коэффициент вариации.

    Произведено изделий за смену, шт.

    1 бригада

    2 бригада

    2

    8

    3

    9

    12

    10

    15

    11

    18

    12

    5.2. На основе данных об урожайности ржи и размерах посевных площадей определите дисперсию и среднее квадратическое отклонение (двумя способами) и коэффициент вариации; моду и медиану.

    Урожайность ржи, ц/га

    Посевная площадь, га

    14 - 16

    100

    16 - 18

    300

    18 - 20

    400

    20 - 22

    200

    Итого

    1000


    5.3. Из 150 выпускников средней школы 20 человек получили золотые и серебряные медали. Определите: дисперсию, среднее квадратическое отклонение и коэффициент вариации доли медалистов.

    5.4. Имеются следующие данные о размере семей в районе (по числу человек в семье): 3, 4, 5, 7, 2, 1, 4, 6, 6, 5, 5, 7, 7, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, 4, 5, 6, 6, 1, 3, 3, 5, 5, 6, 2, 2, 3, 3, 4, 4, 2. Составьте дискретный вариационный ряд. Определите структурные средние распределения. Дайте графическое изображение ряда.
    5.5. По данным об успеваемости по статистике студентов двух групп определите, в какой группе более ровная успеваемость студентов.

    Оценка на экзамене, балл

    Численность студентов в группе, чел.

    1 группа

    2 группа

    5

    7

    2

    4

    9

    16

    3

    6

    7

    2

    3

    0

    Итого

    25

    25



    5.6. Распределение студентов одного из факультетов по возрасту характеризуется данными:

    Возраст студентов, лет

    17

    18

    19

    20

    21

    22

    23

    24

    Итого

    Число студентов, чел.

    20

    80

    90

    110

    130

    170

    90

    60

    750

    Определите: 1) средний возраст студентов факультета; 2) показатели вариации (размах вариации, среднее линейное отклонение, дисперсию, среднее квадратическое отклонение, коэффициент вариации); 3) коэффициент асимметрии.

      1. Крестьянские хозяйства района подразделяются по размерам земельных наделов следующим образом:

    Размер земельных наделов, га

    Кол-во хозяйств

    До 4,0

    20

    4,0-6,0

    50

    6,0-8,0

    60

    8,0-10,0

    40

    Свыше 10,0

    30

    Всего

    200

    Исчислите: 1) абсолютные и относительные показатели вариации; 2) структурные характеристики распределения хозяйств по размерам земельных наделов.

    5.8. В трех партиях продукции, представленных на контроль качества, было обнаружено: а) первая партия – 1000 изделий, из них 800 годных; б) вторая партия – 800 изделий, из них 720 годных; в) третья партия – 900 изделий, из них 850 годных

    Определите в целом по трем партиям дисперсию, среднее квадратическое отклонение и коэффициент вариации годной продукции.




    написать администратору сайта