Главная страница
Навигация по странице:

  • 3. ОПИСАТЕЛЬНАЯ СТАТИСТИКА 3.1. Генеральная совокупность и выборка

  • 3.2. Способы представления статистических данных

  • 3.3. Числовые характеристики выборки

  • теория вероятностей. Управления и радиоэлектроники (тусур) Кафедра автоматизации обработки информации (аои) З. А. Смыслова М


    Скачать 3.11 Mb.
    НазваниеУправления и радиоэлектроники (тусур) Кафедра автоматизации обработки информации (аои) З. А. Смыслова М
    Анкортеория вероятностей.pdf
    Дата13.12.2017
    Размер3.11 Mb.
    Формат файлаpdf
    Имя файлатеория вероятностей.pdf
    ТипУчебное пособие
    #11331
    страница5 из 13
    1   2   3   4   5   6   7   8   9   ...   13
    нормальное распределение с параметрами
    σ
    и
    a
    , если ее плотность распределения задается формулой:
    ,
    2 1
    )
    (
    2 2
    2
    )
    (
    +∞
    <
    <


    σ
    π
    =
    σ


    x
    x
    f
    a
    x
    λ
    Параметр
    a
    характеризует положение графика функции на числовой оси, параметр
    )
    0
    (
    >
    σ
    σ
    — степень сжатия или растяжения графика плотности
    (рис. 2.8).
    Математическое ожидание нормально распределенной случайной вели- чины равно
    a
    X
    M
    =
    )
    (
    , дисперсия
    2
    )
    (
    σ
    =
    X
    D
    Нормальное распределение относится к числу наиболее распространен- ных и важных, оно применяется для приближенного описания многих случай- ных явлений. Например, с помощью нормального распределения описывают рассеяние снарядов при стрельбе по цели; отклонение фактического размера изделия от заданного; оно применяется и во многих других ситуациях, когда на интересующий нас признак действует большое количество независимых случайных факторов. С причиной этого мы познакомимся в разделе 4.2.
    x
    )
    (x
    f
    0
    Рис. 2.8. Плотность нормального распределения
    a
    σ
    σ

    36
    3. ОПИСАТЕЛЬНАЯ СТАТИСТИКА
    3.1. Генеральная совокупность и выборка
    В научном познании тесно связаны модель и эксперимент. Теория веро- ятностей занимается изучением моделей массовых случайных явлений. Осно- вой математической статистики является эксперимент: эта наука позволяет обрабатывать результаты наблюдений и, применяя модели теории вероятно- стей, описывать закономерности, которые проявляются при многократном наблюдении изучаемого явления.
    Проводя эксперимент, мы имеем дело с обширной совокупностью объек- тов, которая в статистике называется генеральной совокупностью. В резуль- тате эксперимента мы наблюдаем лишь часть случайно отобранных объектов этой совокупности — выборку. Основная идея выборочного метода состоит в том, чтобы по выборке сделать заключения о свойствах всей генеральной со- вокупности. Для достоверности таких заключений необходимо правильно строить выборку, т.е. строить ее так, чтобы выборка хорошо отражала свойст- ва генеральной совокупности.
    Генеральная совокупность обычно содержит конечное число объектов
    (оно называется объемом генеральной совокупности), которое будем обозна- чать
    N
    . Однако, если объем генеральной совокупности велик, то в целях уп- рощения теоретических выводов его часто предполагают бесконечным. Объем выборки — количество ее элементов — будем обозначать
    n
    . Например, если из 10000 выпущенных на конвейере электрических лампочек отобрано 300 штук для проверки качества всей партии, то
    ,
    10000
    =
    N
    а
    300
    =
    n
    Выборка может быть составлена двумя способами. Первый способ назы- вается случайным повторным отбором. При этом отобранный элемент выбор- ки перед выбором следующего возвращается в генеральную совокупность.
    Второй способ — случайный бесповторный отбор. При этом отобранный объект не возвращается в генеральную совокупность. Если объем генеральной совокупности велик, и выборка составляет лишь незначительную часть всей совокупности, то различие между двумя способами отбора невелико. Если рассматривается бесконечная генеральная совокупность, а выборка имеет ко- нечный объем, то способы отбора не различаются. Но при любом способе от- бор должен быть случайным — каждый элемент генеральной совокупности должен иметь одинаковую вероятность попасть в выборку.
    Моделью изучаемой генеральной совокупности служит случайная вели- чина. В теории вероятностей мы обозначали случайные величины заглавными буквами, а их значения — строчными. Поэтому будем говорить о генеральной совокупности
    Х
    и выборке из нее
    ...,
    ,
    ,
    2 1
    n
    x
    x
    x
    Значение
    1
    x
    получено при первом наблюдении случайной величины
    Х
    ,
    2
    x
    — при втором наблюдении той же случайной величины и т.д. Иногда при этом говорят, что рассматрива- ется серия независимых наблюдений случайных величин
    n
    X
    X
    X
    ...,
    ,
    ,
    2 1
    — статистических копий величины
    Х
    . Выборочные значения
    n
    x
    x
    x
    ...,
    ,
    ,
    2 1
    явля-

    37
    ются значениями статистических копий
    n
    X
    X
    X
    ...,
    ,
    ,
    2 1
    — независимых оди- наково распределенных случайных величин.
    Для изучения свойств генеральной совокупности рассматривают различ- ные функции от выборочных значений — они называются статистиками.
    Например, можно рассматривать статистику

    =
    =
    n
    i
    i
    X
    n
    X
    1 1
    — среднее значение выборочных данных. Для каждой конкретной выборки мы получим число

    =
    =
    n
    i
    i
    x
    n
    x
    1
    ,
    1
    но величина
    X
    является случайной функцией со своим законом распределения. Изучая различные статистики, мы получаем информацию о генеральной совокупности.
    3.2. Способы представления статистических данных
    Пусть
    Х
    — некоторый признак изучаемого объекта или явления (срок службы электролампы, вес поросенка, диаметр шарика для подшипника и т.п.).
    Генеральной совокупностью является множество всех возможных значений этого признака, а результаты
    n
    наблюдений над признаком
    Х
    дадут нам вы- борку объема
    n
    Итак, первоначальные статистические данные — это значения
    n
    x
    x
    x
    ...,
    ,
    ,
    2 1
    (простая выборка, несгруппированные данные).
    Выборку преобразуют в вариационный ряд, располагая результаты на- блюдений в порядке возрастания:
    )
    (
    )
    2
    (
    )
    1
    (
    n
    x
    x
    x



    Каждый член
    )
    (i
    x
    ва- риационного ряда называется вариантой.
    Пример 1. С производственной линии случайным образом 24 раза отби- рали по десять выпускаемых деталей. Каждый раз отмечалось число дефект- ных деталей. Получили выборку: 0, 0, 1, 0, 2, 0, 1, 2, 1, 0, 0, 0, 0, 3, 1, 0, 0, 0, 1,
    0, 2, 1, 0, 1. Здесь объем выборки
    ,
    24
    =
    n
    а исследуемый признак
    Х
    — число дефектных деталей из 10 отобранных — может принимать целые значения от 0 до 10. Составим вариационный ряд: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1,
    1, 1, 2, 2, 2, 3.
    Представим теперь данные в виде статистического ряда: укажем час- тоту
    i
    n
    варианты, т.е. сколько раз встречаются в нашей выборке различные значения вариант. Для примера 1 получим следующий статистический ряд
    (табл. 3.1).
    Таблица 3.1
    Статистический ряд для примера 1
    Значения признака
    )
    (
    i
    x
    0 1 2 3
    Частота
    )
    (
    i
    n
    13 7 3 1

    38
    Отметим, что сумма частот статистического ряда равна объему выборки.
    Часто статистический ряд составляют, используя относительные частоты ва- риант:
    k
    i
    n
    n
    i
    i
    ...,
    ,
    2
    ,
    1
    ,
    ν
    =
    =
    (k — количество различных вариант). Сумма относительных частот равна единице. такая таблица используется для графи- ческого представления дискретного признака Х в виде полигона относитель- ных частот. Полигон — это ломаная линия с вершинами в точках
    k
    i
    x
    i
    i
    ...,
    ,
    2
    ,
    1
    ),
    ν
    ;
    (
    =
    (рис. 3.1).
    Полигон частот обеспечивает наглядность представления данных и по- зволяет делать предположения о близости распределения исследуемого при- знака к тому или иному закону распределения.
    Если значения изучаемого признака могут отличаться друг от друга на сколь угодно малую величину (непрерывная генеральная совокупность) или объем выборки велик, то данные представляют в виде сгруппированного ста-
    тистического ряда. Для этого весь диапазон значений вариант разбивают на
    5–12 интервалов необязательно одинаковой длины и подсчитывают число ва- риант, попавших в каждый интервал (частоту
    i
    -го интервала). Полученные данные заносятся в таблицу, которая называется интервальной таблицей час- тот или сгруппированным статистическим рядом (табл. 3.2).
    Как определить количество интервалов этой таблицы?
    Рис. 3.1. Полигон относительных частот для примера 1 0
    0,2 0,4 0,6 0,8 1
    0 1
    2 3
    4
    x
    n
    n
    i
    i
    =
    ν

    39
    Таблица 3.2
    Сгруппированный статистический ряд
    Интервалы
    )
    ;
    [
    2 1
    a
    a
    )
    ;
    [
    3 2
    a
    a

    ]
    ;
    [
    1
    +
    k
    k
    a
    a
    Частоты
    1
    n
    2
    n

    k
    n
    Рекомендуемое количество интервалов рассчитывают по эмпирической формуле Старджеса
    ,
    lg
    3 3
    1
    n
    k
    +
    =
    где
    n
    — объем выборки. Длину
    i
    -го интервала принимают равной
    ,
    )
    1
    (
    )
    (
    k
    x
    x
    d
    n

    =
    где
    )
    (n
    x
    —наибольшее, а
    )
    1
    (
    x
    — наименьшее значение в вариационном ряду.
    Для определенности будем считать левый конец каждого интервала за- крытым, а правый — открытым, так что интервалы будут иметь вид
    ).
    ;
    [
    1
    +
    i
    i
    a
    a
    Пример 2. При измерении веса 30 новорожденных (с точностью до 10 г) получили выборку
    :
    кг)
    ,
    (
    i
    x
    3.7, 3.85, 3.7, 3.78, 3.6, 4.45, 4.2, 3.87, 3.33, 3.76,
    3.75, 4.03, 3.8, 4.75, 3.25, 4.1, 3.55, 3.35, 3.38, 3.05, 3.56, 4.05, 3.24, 4.08, 3.58,
    3.98, 3.4, 3.8, 3.06, 4.38. Построить статистический ряд.
    Сгруппируем эту выборку. Наименьший вес равен 3.05 кг, наибольший
    — 4.75 кг. «Упакуем» выборку в интервал [3; 4.8], который разобьем на 6 частей длиной
    ,
    3 0
    =
    d
    т.к. по формуле Старджеса
    875 5
    =
    k
    (округление в большую сторону). Подсчитаем частоту
    i
    n
    (относительную частоту
    n
    n
    i
    i
    =
    ν
    ) для каждого интервала и получим сгруппированный статистический ряд
    (табл. 3.3).
    Таблица 3.3
    Сгруппированный статистический ряд для примера 2
    Интер- валы
    [3; 3.3)
    [3.3; 3.6) [3.6; 3.9) [3.9; 4.2) [4.2; 4.5) [4.5; 4.8)
    Частоты
    i
    n
    4 7
    10 5
    3 1
    Относи- тельные частоты
    i
    ν
    0.133 0.233 0.3 0.167 0.1 0.033

    40
    Наглядно сгруппированный статистический ряд представляют в виде гистограммы. Гистограмма — это фигура, составленная из прямоугольников, основаниями которых служат интервалы группировки. Высота
    i
    h
    i
    -го прямо- угольника определяется по формуле
    ,
    ...,
    ,
    2
    ,
    1
    ,
    k
    i
    nd
    n
    h
    i
    i
    =
    =
    где
    d
    — длина
    i
    -го интервала. Таким образом, высота каждого прямоугольника пропорциональна частоте попадания в данный интервал, а сумма высот равна


    =
    =
    =

    =
    k
    i
    k
    i
    i
    i
    d
    n
    nd
    nd
    n
    1 1
    1 1
    Гистограмма позволяет оценить вид графика плотности распределения непрерывной случайной величины (рис. 3.2).
    Почему гистограмму называют статистическим аналогом плотности рас- пределения вероятностей? Это утверждение основано на теореме Бернулли
    (подраздел 4.1), согласно которой при неограниченном увеличении количества
    n
    независимых опытов относительная частота появления события
    A
    стремится к вероятности этого события. В нашем случае событием
    A
    является попадание в
    i
    -й интервал. Плотность распределения характеризует вероятность попада- ния случайной величины в интервал, а гистограмма — относительную частоту, чем больше объем выборки
    n
    , тем меньше разница между относительными частотами и вероятностями попадания в малые интервалы.
    На этом же факте основано использование эмпирической (кумулятивной) функции распределения. В теории вероятностей функция распределения — основная форма описания закона распределения случайной величины — пока- зывает вероятность попадания данной случайной величины
    X
    левее фиксиро- ванного значения
    x
    :
    ).
    (
    )
    (
    x
    X
    P
    x
    F
    <
    =
    0
    2
    4
    6
    8
    10
    12
    0
    '3
    '3.3 '3.6 '3.9 '4.2 '4.5 '4.8
    Рис. 3.2. Гистограмма для примера 2
    х
    i
    h
    1.11
    0 3 3.3 3.6 3.9 4.2 4.5 4.8

    41
    Статистическим аналогом графика функции распределения является кри- вая накопленных частот. Накопленной частотой
    x
    m
    называется число вари- ант выборки, меньших данного числа
    х
    . Для сгруппированного статистическо- го ряда определяется
    i
    m
    — число вариант, меньших правой границы
    i
    -го ин- тервала. Относительная накопленная частота — это отношение накопленной частоты
    i
    m
    к объему выборки
    n
    (табл. 3.4). Графическое изображение относи- тельных накопленных частот в виде ступенчатой (ломаной) линии называется эмпирической (кумулятивной) функцией распределения (рис. 3.3). Отметим, что эмпирическая функция распределения определена для любых действи- тельных значений
    х
    Таблица 3.4
    Таблица накопленных частот примера 2
    Интер- валы
    [0;3)
    [3; 3.3)
    [3.3; 3.6)
    [3.6; 3.9)
    [3.9; 4.2)
    [4.2; 4.5)
    [4.5; 4.8)
    Нако- плен- ные часто- ты
    0 4
    11 21 26 29 30
    Отно- ситель ные накоп- лен- ные часто- ты
    0 0.133 0.367 0.7 0.867 0.967 1
    х
    0 3
    3.3 3.6 3.9 4.2 4.5 4.8
    n
    m
    i
    1
    Рис. 3.3. Эмпирическая функция распределения для примера 2

    42
    3.3. Числовые характеристики выборки
    Гистограмма и эмпирическая функция распределения дают представле- ние об общем виде распределения, но иногда нам требуется указать «типично- го» представителя выборки, т.е. указать, где находится «центр» выборочных данных. В качестве такого «центра» могут использоваться среднее арифмети- ческое, полусумма крайних значений, медиана, мода, геометрическое среднее, гармоническое среднее (табл. 3.5).
    Таблица 3.5
    Средние значения для примера 2
    Название
    Значение
    Полусумма крайних
    3.9
    Среднее арифметическое 3.746
    Среднее геометрическое 3.725
    Среднее гармоническое 3.704
    Полусумма крайних значений вычисляется по формуле
    2
    )
    (
    )
    1
    (
    n
    x
    x
    +
    , где
    )
    1
    (
    x
    — наименьшее, а
    )
    (n
    x
    — наибольшее значение выборки. Среднее ариф- метическое обозначается
    x
    и вычисляется по формуле


    =
    =
    =
    =
    n
    i
    k
    j
    j
    j
    i
    x
    n
    n
    x
    n
    x
    1 1
    ,
    1 1
    где
    n
    — объем выборки, а
    j
    n
    — частота варианты
    j
    x
    . Если выборка сгруп- пирована, то неизвестно, какие именно варианты попали в
    j
    -й интервал
    ).
    ;
    [
    1
    +
    j
    j
    a
    a
    Тогда частоту интервала
    j
    n
    умножают на середину интервала
    2 1
    j
    j
    a
    a
    +
    +
    Конечно, при этом получается ошибка, но при больших значениях
    n
    она невелика: ведь в среднем половина вариант, попавших в интервал
    )
    ;
    [
    1
    +
    j
    j
    a
    a
    будет меньше числа
    (
    )
    ,
    2 1
    1
    j
    j
    a
    a
    +
    +
    а половина — больше, поэтому ошибки компенсируют друг друга.
    Геометрическое среднее есть корень
    n
    -й степени из произведения n вы- борочных значений
    n
    n
    x
    x
    x



    2 1
    и рекомендуется для усреднения после- довательности дробей.
    Гармоническое среднее есть величина, обратная к среднему арифметиче- скому величин, обратных выборочным значениям. Гармоническое среднее используется для усреднения последовательности скоростей на одинаковых дистанциях.

    43
    В теории вероятностей модой
    М
    дискретной случайной величины назы- вается ее значение, которое имеет максимальную вероятность. Модой непре- рывной случайной величины называется такое ее значение, при котором дос- тигается максимум плотности распределения
    ).
    (x
    f
    Закон распределения на- зывается унимодальным, если мода единственна. В математической статисти- ке мода

    M
    определяется по выборке, как варианта с наибольшей частотой.
    Для выборки примера 1 мода
    0
    =

    M
    Если выборка сгруппирована, то сначала определяют модальный интер- вал, т.е. интервал с наибольшей частотой. В качестве моды можно взять сере- дину модального интервала. Для выборки примера 2 середина модального интервала равна 3.75 (рис. 3.2).
    В теории вероятностей медианой непрерывной случайной величины Х называется такое число
    ,
    5 0
    x
    что
    5 0
    )
    (
    )
    (
    5 0
    5 0
    =
    >
    =
    <
    x
    x
    P
    x
    x
    P
    Соответст- венно, по выборке находят приближенное значение медианы — число
    x
    такое, что половина вариант выборки меньше этого числа, а половина — больше него.
    Работая со сгруппированной выборкой, вначале находят медианный ин- тервал
    )
    ;
    [
    1
    +
    j
    j
    a
    a
    такой, что относительная накопленная частота для
    j
    a
    мень- ше 0.5, а для
    1
    +
    j
    a
    — больше 0.5. В примере 2 таким интервалом является ин- тервал [3,6; 3.9) (табл. 3.4). В качестве медианы можно взять середину этого интервала:
    75 3
    5 0
    =

    x
    Медиана делит выборку на две части: половина вариант меньше медиа- ны, половина — больше. Можно найти три числа
    ,
    ,
    ,
    3 2
    1
    q
    q
    q
    которые анало- гичным образом делят выборку на четыре равные части. Эти числа называются квартилями. Число
    2
    q
    совпадает с медианой,
    1
    q
    называется нижней, а
    3
    q
    — верхней квартилью. В теории вероятностей квартилями непрерывной случай- ной величины
    Х
    называются значения
    ,
    ,
    ,
    75 0
    5 0
    25 0
    x
    x
    x
    определяемые из ус- ловия (рис. 1.4):
    25 0
    )
    (
    )
    (
    )
    (
    )
    (
    75 0
    75 0
    5 0
    75 0
    25 0
    25 0
    =
    <
    =
    =
    <
    <
    =
    <
    <
    =
    <
    x
    X
    P
    x
    X
    x
    P
    x
    X
    x
    P
    x
    X
    P
    Точно так же можно найти девять чисел
    ,
    ...,
    ,
    ,
    9 2
    1
    c
    c
    c
    которые разбива- ют выборку на десять равных частей. Эти числа называются
    1   2   3   4   5   6   7   8   9   ...   13


    написать администратору сайта