Главная страница
Навигация по странице:

  • Задача 1. Статистический анализ одномерной последовательности случайных величин Цель работы

  • Графическое представление статистических характеристик ряда

  • Стандартные статистики Статистические характеристики определяются для группированного и интервального рядов отдельно!!

  • Группированный ряд Относительная частота.

  • Среднее квадратическое отклонение

  • Характеристики описательной статистики

  • Интервальный ряд Относительная частота.

  • работа стат. Задача Статистический анализ одномерной последовательности случайных величин


    Скачать 0.67 Mb.
    НазваниеЗадача Статистический анализ одномерной последовательности случайных величин
    Дата26.04.2018
    Размер0.67 Mb.
    Формат файлаdocx
    Имя файларабота стат.docx
    ТипЗадача
    #42216
    страница1 из 3
      1   2   3

    Часть 1 СТАТИСТИЧЕСКИЙ АНАЛИЗ СЛУЧАЙНЫХ ВЕЛИЧИН
    Задача 1. Статистический анализ одномерной последовательности случайных величин
    Цель работы: приобрести компетенции статистического анализа одномерной последовательности случайных величин.
    Задание:

    1. Подготовить исходные данные.

    2. Построить вариационный, статистический, группированный ряды.

    3. Построить гистограмму, полигон, кумуляту, огиву.

    4. Определить относительные частоты последовательности.

    5. Определить: среднее арифметическое (по вариационному ряду), средневзвешенное (по группированному ряду), моду, медиану, дисперсию (по группированному ряду); среднее квадратическое отклонение , коэффициент вариации.

    6. Рассчитать в программе Excel характеристики описательной статистики для заданной последовательности случайных величин.




    1. Исходные данные


    В качестве исходных данных принята [числовые характеристики из нефтегазовой сферы] (табл. 1).
    Таблицы 1- Наименование случайной величины, е.и.

    40,9

    8,60

    44,9

    56

    1,26

    66,7

    10,2

    100

    93,6

    24,2

    56

    1,26

    66,7

    10,2

    100

    93,6

    24,2

    92,6

    53,3

    3

    10,2

    100

    93,6

    24,2

    92,6

    53,3

    3

    42,1

    40,9

    8,60

    24,2

    92,6

    53,3

    3

    42,1

    40,9

    8,60

    44,9

    56

    1,26

    3

    42,1

    40,9

    8,60

    44,9

    56

    1,26

    66,7

    10,2

    100




    1. Вариационный ряд


    Вариационный ряд – упорядоченная по величине последовательность выборочных значений наблюдаемой случайной величины.

    Для заданной последовательности случайных величин вариационный ряд показан в (таблица 2).
    Таблица 2- Вариационный ряд для _____________________________

    1,26

    3

    8,60

    10,2

    40,9

    42,1

    53,3

    56

    92,6

    93,6

    1,26

    3

    8,60

    24,2

    40,9

    42,1

    53,3

    56

    92,6

    100

    1,26

    3

    10,2

    24,2

    40,9

    44,9

    53,3

    66,7

    92,6

    100

    1,26

    8,60

    10,2

    24,2

    40,9

    44,9

    56

    66,7

    93,6

    100

    3

    8,60

    10,2

    24,2

    42,1

    44,9

    56

    66,7

    93,6

    100


    Характеристиками вариационного ряда:

    • максимальное значение ряда Хmax = 100;

    • минимальное значение ряда Xmin = 1,26;

    • размах ряда R = Xmax – Xmin = 100-1,26= 98,74.




    1. Статистические ряды


    Статистический ряд – это упорядоченный ряд распределения единиц совокупности на группы по определенному варьирующему признаку. Он характеризует состав изучаемого явления, позволяет судить об однородности совокупности, границах ее изменения, закономерностях развития наблюдаемого объекта.

    Для заданной последовательности случайных величин вариационный ряд показан в таблице 3.


      1. Группированный статистический ряд


    Группированный статистический ряд - совокупность промежутков и соответствующих им частот (абсолютных и относительных) называют группированным статистическим рядом.

    Таблица 3- Статистический ряд случайных величин, k

    Коэффициент готовности, Хi

    Число повторений, ni

    Число повторений, ni

    1,26

    4

    4

    3

    4

    8

    8,6

    4

    12

    10,2

    4

    16

    24,2

    4

    20

    40,9

    4

    24

    42,1

    3

    27

    44,9

    3

    30

    55,3

    3

    33

    56

    4

    37

    66,7

    3

    40

    92,6

    3

    43

    93,6

    3

    46

    100

    4

    50


    4.Интервальный ряд
    Группированный ряд – это упорядоченная совокупность интервалов варьирования значений случайной величины с соответствующими частотами или относительными частотами попаданий в каждый из них значений величины.

    Для построения группированного ряда примем t = 10 интервалов.

    Ширина интервалов оправляются по формуле:
    rt = R/t + Δt,
    где - R – размах вариационного ряда;

    t – количество интервалов;

    Δ – малая величина, позволяющая исключить повтор границ интервалов (рекомендуется назначить равной 0,1% от размаха интервала).

    rt = 9,874.
    Таблица 4 – Значения границ интервалов

    Номер интервала, t

    Значение левой границе интервала

    Значение правой границе интервала

    Среднее значение xi

    1

    1,26

    11,134

    6,197




    2

    11,134

    21,008

    16,071

    3

    21,008

    30,882

    25,945

    4

    30,882

    40,756

    35,819

    5

    40,756

    50,63

    45,693

    6

    50,63

    60,504

    55,567

    7

    60,504

    70,378

    65,441

    8

    70,378

    80,252

    75,315

    9

    80,252

    90,126

    85,189

    10

    90,126

    100

    95,063


    Интервальный ряд представлен в таблице 5.
    Таблица 5 - Интервальный ряд

    Номер интервала

    Среднее значение xi

    Частоты попадания в интервал

    Накопленная частота

    1

    6,197




    16

    16

    2

    16,071

    0

    16

    3

    25,945

    4

    20

    4

    35,819

    0

    20

    5

    45,693

    10

    30

    6

    55,567

    7

    37

    7

    65,441

    3

    40

    8

    75,315

    0

    40

    9

    85,189

    0

    40

    10

    95,063

    10

    50




    1. Графическое представление статистических характеристик ряда




      1. Гистограмма


    Гистограмма - способ графического представления табличных данных. Количественные соотношения некоторого показателя представлены в виде прямоугольников, площади которых пропорциональны. Чаще всего для удобства восприятия ширину прямоугольников берут одинаковую, при этом их высота определяет соотношения отображаемого параметра.

    .

    Гистограмма по значениям группированного ряда показана на рис. 1.
    Рисунок 1 - Гистограмма для группированного ряда
    Гистограмма по средним значениям интервального ряда показана на рис. 2.

    Рисунок 2 - Гистограмма для интервального ряда


      1. Полигон


    Полигон – один из способов графического представления плотности вероятности случайной величины. Представляет собой ломаную, соединяющую точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов.

    Полигон для группированного ряда показан на рисунке 3.

    Рисунок 3 – Полигон
    Полигон для интервального ряда показан на рис. 4

    Рисунок 4 – Полигон для интервального ряда


      1. Кумулята


    Кумулята –это изображение распределения в виде кривой, ординаты которой пропорциональны накопленным частотам вариационного ряда.
    Кумулята для группированного показан на рисунке 5.

    Рисунок 5 – Кумулята для группированного ряда
    Кумулята для интервального ряда показан на рисунке 6.

    Рисунок 6 – Кумулята для интервального ряда


      1. Огива


    Огива строится аналогично кумуляте, с той лишь разницей, что на ось абцисс наносят накопления частоты, а на ось ординат – значение признака.
    Огива для группированного ряда показана на рисунке 7.

    Рисунок 7 – Огива для группированного ряда
    Огива для интервального ряда показана на рисунке 8.

    Рисунок 8 – Огива для интервального ряда


    1. Объем выборки


    Объём выборки определяется по формуле (3):
    N= 4+4+4+4+4+4+3+3+3+4+3+3+3+4.= 50,
    Где:

    n- объем выборки

    ni- частота повторений .
    При заданных значениях группированного ряда получим:
    N=50,


    1. Стандартные статистики


    Статистические характеристики определяются для группированного и интервального рядов отдельно!!


      1. Группированный ряд


    Относительная частота.

    Относительна частота определяется по формуле:
    W = ni/n = 4/50= 0,08,
    где n- объем выборки; ni – частота повторений.
    Для одного из значений группированного ряда получим:
    W = 0,08 ,
    Значения относительных частот приведены в таблице 6.
    Таблица 6- Относительные частоты для группированного ряда

    Частота повторений

    Сумма n

    Относительная частота W

    Сумма относительной частоты

    4

    50

    0,08

    1

    4

    0,08

    4

    0,08

    4

    0,08

    4

    0,08

    4

    0,08

    3

    0,06

    3

    0,06

    0,06

    3

    0,08

    4

    0,06

    3

    0,06

    3

    3

    0,06

    4

    0,08


    Среднее арифметическое
    Среднее арифметическое ряда определяется по формуле:
    X=

    Для заданных исходных данных получим:
    X=1/50*(1,26*4+3*4+8,6*4+10,2*4+24,2*4+40,9*4+42,1*3+44,9*3+55,3*3+56*4+66,7*3+92,6*3+93,6*3+100*4) =43,2448,
    Средневзвешенное
    Средневзвешенное значение статистического ряда определяется по формуле:
    X= ,
    где
    Для заданных исходных данных получим:
    X=1,26*4+3*4+8,6*4+10,2*4+24,2*4+40,9*4+42,1*3+44,9*3+55,3*3+56*4+66,7*3+92,6*3+93,6*3+100*4/50=43,2448.
    Мода
    Мода – значение во множестве наблюдений, которое встречается наиболее часто.

    Мода для группированного ряда и для заданного ряда случайных величин имеет значение:
    M = 1,26; 3; 8,6; 10,2; 24,2; 40,9; 56; 100.
    Медиана
    Медианой называется – элемент выборки, которая делит пополам вариационный ряд на две части с одинаковым числом вариант в каждой.

    Медиана для группированного ряда имеет значение:
    Me =42,1+44,9/2 = 43,5.
    Дисперсия ряда
    Дисперсия – это среднее арифметическое значение квадратов отклонений отдельных вариант от их средней арифметической.
    Дисперсия может быть рассчитана по формуле:
    D =
    где  – это значение корня квадратного из дисперсии..

    Расчетные значения дисперсии для группированного ряда приведены в таблице 7
    Таблица 7 – Расчет дисперсии ряда

    Номер интервала

    Частоты ni

    Среднее арифметическое

    (xi-xср)2*nt

    1/(n-1)

    1

    16

    5

    31588,64

    0,02

    2

    0

    0

    3

    4

    2692,56

    4

    0

    0

    5

    10

    20878,5

    6

    7

    21613,83

    7

    3

    12847,56

    8

    0

    0

    9

    0

    0

    10

    10

    90369,73


    D = 0,2*(31588,64+0+2692,56+0+20878,5+21613,83+12847,56+0+0+90369,73)= 0,02*179990,82 = 3599,81.
    Среднее квадратическое отклонение
    Среднее квадратическое отклонение – это значение корня квадратного из дисперсии.

    Среднее квадратическое отклонение рассчитывается по формуле:
    σ = ,
    где D- дисперсия ряда, - среднее квадратическое отклонение.
    Для заданных исходных данных получим:
    σ = = 59,99.
    Коэффициент вариации
    Коэффициент вариации определяется по формуле:
    δ =
    где Xср- среднее значение.
    Для заданных исходных данных получим:
    δ = 59,99/50,63*100%= 118%.

    Характеристики описательной статистики
    Средствами программы Excel рассчитаны характеристики описательной статистики группированного ряда, числовые значения которых приведены на рисунке 5.


    Среднее




    Стандартная ошибка




    Медиана




    Мода




    Стандартное отклонение




    Дисперсия выборки




    Эксцесс




    Асимметричность




    Интервал




    Минимум




    Максимум




    Сумма




    Счет





    Рисунок 5 – Характеристики описательной статистики
    Вывод.

    Описательные статистики дают нам возможность оценить характер распределения данных в изучаемой выборке. На основании этой оценки мы можем принять решение о том, какие критерии надлежит использовать в дальнейшей работе – например, при сравнении выборок. Описательные статистики являются основой построения статистических графиков и диаграмм – например, диаграмм размаха, т.е. являются предварительным этапом в проведении визуального анализа данных. Таким образом, можно отнести их к категории разведочных методов анализа данных.



      1. Интервальный ряд


    Относительная частота.
    Для одного из значений интервального ряда получим:
    W = 16/50 = 0,32 ,
    Значения относительных частот приведены в таблице 6.
    Таблица 6- Относительные частоты для интервального ряда

    Частота

    Сумма n

    Относительная частота W

    Сумма относительной частоты

    16


    50

    0,32


    1

    0

    0

    4

    0,08

    0

    0

    10

    0,2

    7

    0,14

    3

    0,06

    0

    0

    0

    0

    10

    0,2


    Среднее арифметическое
    Для заданных исходных данных получим:
    X=(6,197+16,071+25,945+35,819+45,693+55,567+65,441+75,315+85,189+95,063)/10= 50,63 ,
    Средневзвешенное
    Средневзвешенное значение статистического ряда определяется по формуле:
    Для заданных исходных данных получим:
    X= (6,197*16)+(16,071*0)+(25,945*4)+(35,819*0)+(45,693*10)+(55,567*7)+(65,441*3)+(75,315*0)+(85,189*0)+(95,063*10)/50= 43,91 ,
    Мода
    Мода – значение во множестве наблюдений, которое встречается наиболее часто.
    Мода для интервального ряда и для заданного ряда случайных величин имеет значение:
    M = 6,197.
    Медиана
    Медианой называется – элемент выборки, которая делит пополам вариационный ряд на две части с одинаковым числом вариант в каждой.
    Медиана для интервального ряда имеет значение:
    Me = ______ = ______.
    Дисперсия ряда
    Дисперсия – (определение).

    Дисперсия может быть рассчитана по формуле:
    D =


    Расчетные значения дисперсии для группированного ряда приведены в таблице 7
    Таблица 7 – Расчет дисперсии ряда

    Номер интервала

    Частоты ni

    Среднее значение xt

    Среднее арифметическое

    (xi-xср)2*nt

    1/(n-1)

    1

    16

    6,197




    50,63

    31558,66

    0,02

    2

    0

    16,071

    0




    3

    4

    25,945

    2437,39




    4

    0

    35,819

    0




    5

    10

    45,693

    243,74




    6

    7

    55,567

    170,61




    7

    3

    65,441

    658,097




    8

    0

    75,315

    0




    9

    0

    85,189

    0




    10

    10

    95,063

    19742,91





    D = (31558,66+0+2437,39+0+243,74+170,61+658,097+0+0+19742,91)*0,02= 1096,22.
    Среднее квадратическое отклонение
    Среднее квадратическое отклонение – является мерой случайных отклонений значений данных от среднего..

    Среднее квадратическое отклонение рассчитывается по формуле:
    Для заданных исходных данных получим:
    σ = = 33,109.
    Коэффициент вариации
    Коэффициент вариации определяется по формуле:
    Для заданных исходных данных получим:
    δ = 33,109/50,63*100%= 65,39%.
    Характеристики описательной статистики
    Средствами программы Excel рассчитаны характеристики описательной статистики заданного ряда, числовые значения которых приведены на рисунке 5.


    Среднее

    50,63

    Стандартная ошибка




    Медиана




    Мода

    6,197

    Стандартное отклонение

    33,109

    Дисперсия выборки

    1096,22

    Эксцесс




    Асимметричность




    Интервал

    43,65

    Минимум

    6,197

    Максимум

    95,063

    Сумма




    Счет

    10


    Рисунок 5 – Характеристики описательной статистики

    Вывод.

    Описательные статистики дают нам возможность оценить характер распределения данных в изучаемой выборке. На основании этой оценки мы можем принять решение о том, какие критерии надлежит использовать в дальнейшей работе – например, при сравнении выборок. Описательные статистики являются основой построения статистических графиков и диаграмм – например, диаграмм размаха, т.е. являются предварительным этапом в проведении визуального анализа данных. Таким образом, можно отнести их к категории разведочных методов анализа данных.


      1   2   3


    написать администратору сайта