Главная страница
Навигация по странице:

  • Информационные технологии обработки экспериментальных данных Конспект лекций Казань 2017 2 Модуль 1. Компьютерные технологии первичной

  • Статистическое распределение выборки

  • Лекция 2

  • Эмпирическая функция распределения

  • Тема 1.2 Выборочные статистики и интервальные оценки Точечные оценки параметров распределений

  • Оценка математического ожидания случайной величины

  • Оценка дисперсии наблюдаемой случайной величины

  • Оценка вероятности случайного события

  • Интервальное оценивание параметров распределений случайных величин Построение интервальных оценок параметров распределений

  • Построение доверительного интервала для математического ожидания случайной величины при известной дисперсии

  • Построение интервальной оценки для математического ожидания и дисперсии Построение доверительного интервала для математического ожидания

  • Доверительный интервал для дисперсии нормального распределения

  • Курс. Конспект лекций Медведева Роднищев ИТОЭД Модуль 1. Конспект лекций Казань 2017 2 Модуль Компьютерные технологии первичной


    Скачать 0.58 Mb.
    НазваниеКонспект лекций Казань 2017 2 Модуль Компьютерные технологии первичной
    Дата10.01.2023
    Размер0.58 Mb.
    Формат файлаpdf
    Имя файлаКонспект лекций Медведева Роднищев ИТОЭД Модуль 1.pdf
    ТипКонспект
    #879686

    Министерство образования и науки Российской Федерации
    КАЗАНСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ
    ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ им. А.Н. ТУПОЛЕВА
    Кафедра прикладной математики и информатики им. Ю.В. Кожевникова
    Н.Е. РОДНИЩЕВ, С.Н. МЕДВЕДЕВА
    Информационные технологии обработки экспериментальных данных
    Конспект лекций
    Казань 2017

    2
    Модуль 1.
    Компьютерные технологии первичной
    обработки статистической информации
    Тема 1.2. Описательная (дескриптивная) статистика
    Основные понятия математической статистики
    Математическая статистика занимается статистическим анализом результатов опытов или наблюдений, а также построением и проверкой подходящих математических моделей процессов и систем на основе результатов экспериментов.
    Статистический анализ и построение вероятностных моделей процессов и систем основаны на том, что измеряемые в процессе опыта или наблюдений физические (или иного смысла) величины X , характеризующие исследуемый процесс или систему, при повторении опытов подвержены некоторому неконтролируемому разбросу
    n
    x
    x
    x
    ,...,
    ,
    2 1
    . Этот разброс обусловлен главным образом действием случайных неучтенных факторов и ошибками измерений. Поэтому величина X рассматривается как одномерная случайная величина, а результаты измерения
    n
    x
    x
    x
    ,...,
    ,
    2 1
    этой величины, называемые в математической статистике ее основными признаками, –как эмпирическая реализация этого математического понятия.
    Совокупность всех мыслимых значений, которые может принимать величина X при данном реальном комплексе условий, называют генеральной
    совокупностью. Распределение признака X в генеральной совокупности совпадает с теоретическим распределением вероятностной величины X.
    Последнее называется распределением генеральной совокупности, а его параметры – параметрами генеральной совокупности.

    3
    Генеральная совокупность может быть конечной (всего N мыслимых наблюдений) и бесконечной в зависимости от того, конечна или бесконечна совокупность всех мыслимых значений.
    Выборка из данной генеральной совокупности – это результаты ограниченного ряда наблюдений
    n
    x
    x
    x
    ,...,
    ,
    2 1
    значений случайной величины
    X.
    Таким образом, выборку можно рассматривать как некий эмпирический аналог генеральной совокупности. На практике при исследованиях мы чаще всего имеем дело с выборками, поскольку обследование всей генеральной совокупности бывает слишком трудоемко (когда n – достаточно большое число), либо принципиально невозможно (в случае бесконечных генеральных совокупностей).
    Число n наблюдений, образующих выборку, называют объемом
    выборки.
    Разность между наибольшим и наименьшим значениями
    i
    x
    )
    ,...,
    1
    (
    n
    i

    из выборки называется размахом выборки.
    Каждая выборка
    n
    x
    x
    x
    ,...,
    ,
    2 1
    значений X представляет собой, вообще говоря, случайную выборку из теоретически бесконечной генеральной
    совокупности. Поэтому выборочные значения
    n
    x
    x
    x
    ,...,
    ,
    2 1
    признака X рассматривают также как реализации независимых случайных величин
    n
    X
    X
    X
    ,...,
    ,
    2 1
    , распределение признаков которых
    )
    ,...,
    1
    (
    n
    i
    X
    i

    в генеральной совокупности совпадает с теоретическим распределением вероятностной величины X. В этом случае
    n
    X
    X
    X
    ,...,
    ,
    2 1
    представляют собой взаимно
    независимые случайные величины с одинаковой плотностью распределения
    p(x) случайной величины X. К основным задачам математической статистики относятся:

    определение закона распределения основного признака (наблюдаемой случайной величины);

    4

    нахождение оценок неизвестных параметров распределений и оценок числовых характеристик случайной величины;

    проверка правдоподобия статистических гипотез;

    оптимальная организация и проведение экспериментов и оптимальная обработка результатов экспериментов.
    Статистическое распределение выборки
    Пусть из генеральной совокупности извлечена выборка объемом
    n = 20 . Наблюдаемые значения
    i
    x
    называют вариантами, а последовательность значений (вариант), записанных в возрастающем порядке, – вариационным рядом. Числа наблюдений
    i
    n
    называют
    частотами, а их отношения к объему выборки
    i
    n
    /n =
    *
    i
    p
    относительными
    частотами.
    Статистическим распределением выборки называют перечень вариант
    i
    x и соответствующих им частот
    i
    n
    i
    x
    2 6
    12
    i
    n
    3 10 7 или относительных частот
    *
    i
    p
    i
    x
    2 6
    12
    i
    p
    3/20 10/20 7/20
    При больших объемах выборки n статистическое распределение выборки становится недостаточно наглядным. В этом случае статистические данные представляются в виде интервального вариационного ряда, который носит также название статистического ряда.
    Для построения статистического ряда размах выборки разбивается на
    r конечных (или бесконечных) подходящим образом выбранных интервалов

    5
    j
    j
    i
    j
    j
    X
    X
    x
    X
    X






    5
    ,
    0 5
    ,
    0
    , длины которых (размахи) соответственно
    j
    j
    X
    h


    , а середины интервалов
    j
    X , где j=1,...,r.
    Количество интервалов выбирается в основном из практических соображений. В частности, рекомендуется, чтобы значение r было не менее 5
    – 10 и более 20 – 25. В каждом интервале должно быть не менее 10 значений.
    В том случае, если полученные из опыта данные группируются вокруг некоторых значений, то желательно, чтобы эти значения не находились вблизи узлов разбиения интервалов. Затем подсчитываются число значений выборки
    j
    n , попавших в интервал j, и относительная частота
    *
    j
    p
    значений, попавших в этот интервал.
    Если данные попадают на границы интервалов, то их либо распределяют равномерно по двум соседним интервалам, либо относят только к одному из них (например, к левому). Выбор количества интервалов существенно зависит от объема выборки. Существуют также рекомендации по использованию формулы Старджеса
    1
    ln
    32
    ,
    3 1
    log
    2




    n
    n
    m
    или других формул:
    n
    m
    lg
    5

    ,
    n
    m

    Все эти формулы следует рассматривать как нижнюю оценку m. Так как длина интервала
    j
    h может быть большой, а количество численных значений
    j
    n , попавших в него, сравнительно малым, то для сопоставления групп друг с другом вычисляется также величина
    *
    j
    p
    =
    *
    j
    p
    /
    j
    X

    , называемая плотностью относительной частоты.
    Полученные результаты сводятся в таблицу вида.
    № интервала
    1 2
    …….
    j
    …….
    r
    Длина интервала

    j
    X

    1
    X

    2
    X
    …….

    j
    X
    …….

    r
    X
    Частота
    j
    n
    1
    n
    2
    n
    …….
    j
    n
    …….
    r
    n
    Относительная. частота
    *
    j
    p
    *
    1
    p
    *
    2
    p
    …….
    *
    j
    p
    …….
    *
    r
    p

    6
    Плотность относитель–
    ной частоты
    *
    j
    p
    *
    1
    p
    *
    2
    p
    …….
    *
    j
    p
    …….
    *
    r
    p
    Для большей наглядности статистический ряд оформляют в виде
    полигона частот или гистограммы.
    Лекция 2
    Полигон частот и гистограмма
    Полигоном частот называют ломаную линию (рис.19.1), отрезки ко- торой соединяют точки (
    1
    x
    ,
    1
    n
    ),(
    2
    x
    ,
    2
    n
    ),…,(
    n
    x
    ,
    n
    n
    ). Для построения полигона частот на оси абсцисс откладывают варианты
    i
    x
    , а по оси ординат – соответствующие им частоты
    i
    n
    . Точки
    i
    x
    ,
    i
    n
    соединяют отрезками прямых и получают полигон частот.
    Полигоном
    относительных
    частот называют ломаную (рис.19.2), отрезки которой соединяют точки (
    1
    x
    ,
    *
    1
    p
    ),(
    2
    x
    ,
    *
    2
    p
    ),…,(
    n
    x
    ,
    *
    n
    p
    ).
    Гистограммой
    частот называют ступенчатую фигуру (рис.19.3), состоящую из прямоугольников, основаниями которых служат интервалы длиною
    j
    j
    X
    h


    , представленные в таблице вида
    № интервала
    1 2
    3
    Границы интервала
    0 – 4 4 – 8 8 – 14
    Длина интервала
    j
    h
    4 4
    6
    Частота
    j
    n
    3 10 7
    x
    i
    n
    0
    Рис.19.1 3
    7 2
    6 12 0.50
    x
    *
    i
    p
    0
    Рис.
    19.2 0.15 0.35 2
    6 12

    7
    Плотность частоты
    j
    j
    h
    n /
    0,75 2,50 1,16
    Плотность относительной частоты
    j
    j
    h
    p /
    *
    0,037 0,125 0,058 а высоты равны отношению
    j
    j
    h
    n /
    (плотность частоты). Площадь j-го прямоугольника равна
    j
    h
    j
    j
    h
    n /
    =
    j
    n – сумме частот j-го интервала.
    Следовательно, площадь гистограммы частот равна сумме всех частот,
    т.е. объему выборки n .
    Гистограммой относительных частот называют ступенчатую фигуру
    (рис.19.4), состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною
    j
    j
    X
    h


    , а высоты равны отношению
    j
    j
    h
    p /
    *
    (плотность относительной частоты). Площадь j-го частичного прямоугольника равна
    j
    h
    j
    j
    h
    p /
    *
    =
    *
    j
    p
    – сумме относительных частот j-го интервала.
    Следовательно, площадь гистограммы относительных частот равна
    сумме всех относительных частот, т.е. единице.
    Эмпирическая функция распределения
    Эмпирической функцией распределения (функцией распределения выборки) называют функцию
    )
    (
    *
    x
    F
    , определяющую для каждого значения x относительную частоту события X < x , т.е.
    n
    n
    x
    F
    x
    /
    )
    (
    *

    ,где
    x
    n
    – число вариант (значений), меньших x; n – объем выборки.
    2.50 0.75 1.16
    x
    j
    j
    h
    n /
    0
    Рис 19.3 4
    8 14 0.125 0
    0.037 0.058
    x
    j
    j
    h
    p /
    *
    0
    Рис.19.4 4
    8 14

    8
    Таким образом, для того чтобы найти, например
    )
    (
    2
    *
    x
    F
    , надо число вариант, меньших
    2
    x
    , разделить на объем выборки
    n
    n
    x
    F
    x
    /
    )
    (
    2
    *

    Из теоремы Бернулли следует, что при неограниченном увеличении n относительная частота события X < x , т.е.
    )
    (
    2
    *
    x
    F
    стремится по вероятности к F(x) этого события, так как
    1
    }
    |
    |
    {
    lim
    *






    p
    p
    P
    n
    Отсюда следует целесообразность использования эмпирической
    (статистической) функции распределения выборки для приближенной оценки
    (представления) теоретической (интегральной) функции распределения генеральной совокупности.
    Это подтверждается тем, что
    )
    (
    *
    x
    F
    обладает всеми свойствами F(x):
    - значения эмпирической функции принадлежат отрезку [0,1];
    -
    )
    (
    *
    x
    F
    – неубывающая функция;
    - если
    1
    x
    – наименьшая варианта, то
    )
    (
    *
    x
    F
    = 0 при x <
    1
    x
    ;
    - если
    k
    x – наибольшая варианта, то
    )
    (
    *
    x
    F
    = 1 при x
    k
    x .
    Пример: Построить
    )
    (
    *
    x
    F
    по данному распределению
    Варианты
    i
    x
    2 6
    12
    Частоты
    i
    n
    3 10 7
    Решение. Определим объем выборки n = 3+10+7=20. Наименьшая варианта равна 2, следовательно,
    )
    (
    *
    x
    F
    = 0 при x < 2 . Значение X < 6, а именно, x = 2, наблюдалось 3 раза, следовательно
    )
    (
    *
    x
    F
    = 3/20 = 0,15 при значениях 2 ≤ x < 6. Значения X < 12, а именно, x = 2 и x = 6 , наблюдались 3 +
    10 = 13 раз, следовательно,
    )
    (
    *
    x
    F
    = 13/20 = 0,65

    9 при 6 ≤ x < 12. Наибольшая варианта равна 12, следовательно,
    )
    (
    *
    x
    F
    = 1 при x ≥ 12.
    Таким образом:



    









    12 1
    12 6
    65
    ,
    0 6
    2 15
    ,
    0 2
    0
    )
    (
    *
    x
    при
    x
    при
    x
    при
    x
    при
    x
    F
    и функция распределения имеет вид рис.19.5.
    С увеличением объема выборки и количества интервалов, содержащих в пределе одну реализацию случайной величины, гистограмма приближается к плотности распределения исследуемой случайной величины.
    Следует отметить, что полигон частот является статистическим аналогом ряда распределения случайной величины, а гистограмма
    статистическим аналогом плотности распределения.
    0 2
    6 12
    x
    )
    (
    *
    x
    F
    1,00
    Рис.19.5 0,65 0,15

    10
    Тема 1.2 Выборочные статистики и интервальные оценки
    Точечные оценки параметров распределений
    Задача статистической оценки параметров распределения формулируется следующим образом.
    Требуется на основе однородных независимых опытов и полученной случайной выборки значений
    n
    x
    x
    x
    ,...,
    ,
    2 1
    случайных величин
    n
    X
    X
    X
    ,...,
    ,
    2 1
    , представляющих собой признаки случайной величины X, найти оценки
    a
    параметров а распределения случайной величины X :
    a
    =
    a
    (
    n
    x
    x
    x
    ,...,
    ,
    2 1
    ), которые в этом смысле представляют собой реализации некоторых
    выборочных функций случайной величины
    )
    ,...,
    1
    (
    n
    i
    X
    i

    , распределенных по одному и тому же закону, совпадающему с законом распределения случайной величины X .
    Поскольку элементы выборки являются случайными величинами, то и оценки
    a
    (параметров а) являются также случайными величинами. Для того, чтобы статистические оценки были объективными и давали "хорошие" приближения оцениваемых параметров, они должны быть состоятельными,
    несмещенными и эффективными.
    Оценка
    a
    =
    n
    a называется состоятельной, если ее значение при


    n
    с вероятностью единица сходится к истинному значению параметра, т.е. а.
    1
    }
    |
    |
    {
    lim






    n
    n
    a
    a
    P
    Состоятельность оценки означает, что при достаточно большом объеме выборки отклонение оценки
    a
    от истинного значения параметра а с большой достоверностью меньше заданной величины

    . Состоятельность является лишь асимптотической характеристикой оценки при


    n

    11
    Оценка называется несмещенной, если M[
    a
    ] = а.
    Несмещенность оценки означает, что для всех n математическое ожидание оценки
    a
    должно быть равно оцениваемому параметру а. Если это не удовлетворяется, то оценка называется смещенной.
    Оценка
    a
    называется эффективной, если среди всех других возможных оценок она обладает наименьшей дисперсией, т.е.
    D[
    a
    ] = min M{(
    a
    M[
    a
    ] )
    2
    }.
    Оценка
    a
    называется достаточной статистикой, если вся полученная из выборки информация относительно параметра а содержится в
    a
    Оценка математического ожидания случайной величины
    Пусть имеется n однородных (равноточных и независимых) измерений
    n
    x
    x
    x
    ,...,
    ,
    2 1
    случайной выборки
    n
    X
    X
    X
    ,...,
    ,
    2 1
    . Тогда оценка




    n
    i
    i
    x
    x
    n
    m
    x
    1 1
    называется статистическим (выборочным) средним.
    Поскольку
    n
    X
    X
    X
    ,...,
    ,
    2 1
    являются признаком случайной величины X , то
    M[
    i
    x
    ] =
    x
    m
    , D[
    i
    x
    ] =
    2


    x
    D
    Рассмотрим некоторые характеристики оценки математического ожидания. Согласно теореме Чебышева
    1 1
    lim
    1

    



    










    n
    i
    x
    i
    n
    m
    x
    n
    P
    , т.е. оценка
    x
    m
    является состоятельной.
    Определим математическое ожидание выборочного среднего:
    x
    x
    n
    i
    i
    n
    i
    i
    x
    m
    m
    n
    n
    x
    M
    n
    x
    n
    M
    m
    M
















    1 1
    1
    ]
    [
    1 1
    ]
    [
    Следовательно, оценка
    x
    m
    является несмещенной.
    Найдем дисперсию оценки
    x
    m
    :

    12
    n
    D
    D
    n
    n
    x
    D
    n
    x
    n
    D
    m
    D
    x
    n
    i
    x
    i
    n
    i
    i
    x
















    1 2
    2 1
    1
    ]
    [
    1 1
    ]
    [
    Таким образом, дисперсия оценки
    x
    m в n раз меньше дисперсии случайной величины X, с ростом выборки при


    n
    дисперсия
    ]
    [
    x
    m
    D
    среднего неограниченно убывает и является асимптотически эффективной.
    Оценка дисперсии наблюдаемой случайной величины
    Для того, чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг среднего значения
    x
    m
    , вводят сводную характеристику
    2
    S
    выборочную дисперсию.
    В том случае, если известно
    x
    m
    генеральной совокупности, то в качестве оценки дисперсии принимают выборочную дисперсию
    2
    S
    , вычисляемую по формуле
    2
    S
    =
    2 1
    )
    (
    1
    x
    n
    i
    i
    m
    x
    n



    Преобразуем это выражение к виду
    2
    S
    =
    n
    m
    x
    n
    m
    x
    n
    n
    i
    x
    i
    x
    n
    i
    i
    2 2
    1 2
    2 1
    )
    (
    1




    


    

     






    χ
    2
    , где χ
    2
    – величина «хи-квадрат» с n степенями свободы с математическим ожиданием М(χ
    2
    ) = n и дисперсией D(χ
    2
    ) = 2n.
    Найдем теперь математическое ожидание выборочной дисперсии:
    М[
    2
    S
    ] =
     
    n
    M
    n
    n
    M
    2 2
    2 2
    2















    n =
    x
    D

    2

    Отсюда следует, что выборочная дисперсия
    2
    S
    является несмещенной оценкой.
    Найдем дисперсию оценки
    2
    S
    :

    13
    D[
    2
    S ] =
     
    n
    n
    D
    n
    n
    D
    2 2
    4 2
    2 4
    2 2







    


    


    =
    n
    4 2

    При


    n
    дисперсия оценки D[
    2
    S
    ]=
    n
    4 2

    → 0. Таким образом, оценка дисперсии
    2
    S
    является асимптотически эффективной.
    В том случае, если
    x
    m
    неизвестно, то в качестве оценки дисперсии принимают выборочную дисперсию, которая вычисляется по формуле
    2
    S =
    2 1
    )
    (
    1 1
    x
    n
    i
    i
    m
    x
    n




    и называется исправленной дисперсией.
    Эта оценка является несмещенной. Для доказательства этого утверждения преобразуем оценку дисперсии
    2
    S
    к виду:
    2
    S
    =
    1 1
    )
    (
    1 1
    2 2
    1 2
    2 1


    


    

     








    n
    m
    x
    n
    m
    x
    n
    n
    i
    x
    i
    x
    n
    i
    i



    χ
    2
    , где χ
    2
    – величина «хи-квадрат» с n – 1 степенями свободы, математическим ожиданием М(χ
    2
    ) = n – 1 и дисперсией D(χ
    2
    ) = 2(n – 1). Это обусловлено тем, что между случайными величинами
    x
    i
    m
    x

    существует одна линейная связь, определяющая
    x
    m
    Поэтому в данном случае сумма квадратов связана не с n , а с n – 1 степенями свободы. Тогда
    М[
    2
    S
    ] =
     
    )
    1
    (
    1 1
    1 2
    2 2
    2 2





    


    



    n
    n
    M
    n
    n
    M





    =
    x
    D

    2

    Исправленная дисперсия является также асимптотически эффективной оценкой, так как
    D[
    2
    S
    ] =
     
    )
    1
    (
    2
    )
    1
    (
    )
    1
    (
    1 2
    4 2
    2 4
    2 2





    


    



    n
    n
    D
    n
    n
    D





    =
    1 2
    4

    n

    Отметим, что оценка дисперсии
    2
    S
    удовлетворяет также условиям
    состоятельности. Однако доказательство этого утверждения выходит за рамки курса, поэтому мы его опускаем.

    14
    При большом объеме выборки n практически безразлично, по какой формуле вычислять оценку дисперсии
    2
    S . Однако при малых выборках следует пользоваться формулой для исправленной дисперсии.
    Оценка вероятности случайного события
    Оценим вероятность появления события А в n опытах: P(A) = p.
    В качестве оценки рассмотрим частоту событий
    n
    m
    p
    /
    *
    *

    , где
    *
    m
    – число опытов (случайная величина), в которых наблюдалось событие А , а n – общее число опытов.
    Из теоремы Бернулли, согласно которой
    1
    }
    |
    |
    {
    lim
    *






    p
    p
    P
    n
    , следует, что оценка вероятности случайного события
    *
    p
    является
    состоятельной.
    Определим математическое ожидание и дисперсию оценки
    *
    p
    .Так как
    *
    m
    – случайная величина, распределенная по биномиальному закону с математическим ожиданием
    np
    m
    M

    )
    (
    *
    и дисперсией
    npq
    m
    D

    )
    (
    *
    ,то
    p
    n
    np
    m
    M
    n
    n
    m
    M
    p
    M



    


    



    )
    (
    1
    )
    (
    *
    *
    *
    ,
    n
    pq
    n
    npq
    m
    D
    n
    n
    m
    D
    p
    D



    


    



    2
    *
    2
    *
    *
    )
    (
    1
    )
    (
    Таким образом, оценка вероятности случайного события
    *
    p
    является также несмещенной и асимптотически эффективной.

    15
    Интервальное оценивание параметров распределений
    случайных величин
    Построение интервальных оценок параметров распределений
    Полученная точечная оценка
    a
    =
    a
    (
    n
    x
    x
    x
    ,...,
    ,
    2 1
    ) параметра а (даже если она является несмещенной и эффективной) не позволяет судить о том, как точно найденная оценка воспроизводит истинное значение параметра а.
    Так как оценка
    a
    является случайной величиной, то невозможно также точно определить и величину разности а
    a
    , характеризующую отклонение оценки
    a
    параметра от его истинного значения а.
    Однако, поскольку разность а
    a
    представляет собой случайную величину, то с точки зрения теории вероятностей можно найти некоторую область реализации оценки
    a
    , которая с вероятностью, близкой к единице,



    1
    P
    (требуемой степенью надежности) содержит истинное значение параметра а. Эту область можно определить соотношением






    1
    }
    |
    |
    {
    2
    /
    t
    a
    a
    P
    , где величина
    2
    /

    t
    говорит о том, что вероятность того, что абсолютная величина
    |
    |
    a
    a

    превысит
    2
    /

    t
    , равна

    . В зависимости от решаемых задач величина

    полагается равной 0,05, 0,01, 0,001. Иногда ее выражают в процентах и называют процентным уровнем значимости.
    Заменим неравенство
    2
    /
    |
    |

    t
    a
    a


    равносильным ему двойным неравенством
    2
    /
    2
    /
    |
    |


    t
    a
    a
    t



    или
    2
    /
    2
    /


    t
    a
    a
    t
    a




    , тогда









    1
    }
    {
    2
    /
    2
    /
    t
    a
    a
    t
    a
    P
    Положительная величина
    2
    /

    t
    характеризует точность оценки
    a
    , вероятность



    1
    P
    – надежность, а интервал
    2
    /
    2
    /


    t
    a
    a
    t
    a




    , который покрывает неизвестный параметр а с заданной надежностью , называют доверительным интервалом.

    16
    Построение доверительного интервала для математического ожидания
    случайной величины при известной дисперсии
    Рассмотрим оценку
    x
    математического ожидания
    x
    m
    нормально распределенной случайной величины Х с известной дисперсией
    2

    :



    n
    i
    i
    x
    n
    x
    1 1
    Если случайная величина Х распределена по нормальному закону, то выборочное среднее
    x
    (согласно центральной предельной теореме) будет также распределено по нормальному закону с математическим ожиданием
    x
    m
    x
    M

    )
    (
    и дисперсией
    2
    )
    (


    x
    D
    /n :











    n
    x
    m
    n
    x
    p
    x
    2 2
    2 2
    )
    (
    exp
    2 1
    )
    (



    Введем случайную величину
    n
    x
    m
    t
    x
    /



    , которая имеет нормированное нормальное распределение с нулевым математическим ожиданием и единичной дисперсией. Тогда вероятность



    1
    P
    того, что случайная величина t (рис. 23.1) не отклонится от своего математического ожидания на величину, больше чем
    2
    /

    t
    находится по формуле




















    1
    )
    (
    )
    (
    2 1
    )
    (
    2
    /
    *
    2
    /
    *
    2 2
    /
    2
    /
    2
    /
    2
    /
    2
    t
    Ф
    t
    Ф
    dt
    е
    t
    t
    t
    P
    t
    t
    t
    Принимая во внимание, что функция распределения
    )
    (
    *
    t
    Ф
    связана с функцией Лапласа Ф(t) соотношениями (рис. 10.1):
    Ф(t) = 0,5 +
    )
    (
    *
    t
    Ф
    , Ф (– t) = 0,5 – Ф(t), получим










    1
    )
    (
    2
    )
    (
    2
    /
    2
    /
    2
    /
    t
    Ф
    t
    t
    t
    P
    0 t p(t)
    Рис.23.1 2
    /

    t
    2
    /

    t

    ε /2
    ε /2 1 – ε

    17
    Поскольку функция
    dz
    е
    t
    Ф
    t
    z



    0 2
    2 2
    1
    )
    (

    непрерывна и возрастает на интервале [0, ∞) от 0 до 0,5, то для любого числа ε, удовлетворяющего неравенству 0 < 1 – ε < 1, существует единственное число
    2
    /

    t
    такое, что
    Ф(
    2
    /

    t
    ) =
    )
    1
    (
    2 1


    Для заданной вероятности



    1
    P
    по таблице значений функции Лапласа
    Ф(t) можно найти соответствующее значение
    2
    /

    t
    . Тогда, используя это значение и определение величины t, получим:














    2
    /
    2
    /
    2
    /
    2
    /
    /
    )
    (





    t
    n
    x
    m
    t
    P
    t
    t
    t
    P
    x
    =
    =











    n
    t
    x
    m
    n
    t
    P
    x




    2
    /
    2
    /
    =











    n
    t
    x
    m
    n
    t
    x
    P
    x




    2
    /
    2
    /


    1
    Отсюда следует, что с надежностью



    1
    P
    можно утверждать, что
    доверительный интервал










    n
    t
    x
    m
    n
    t
    x
    x




    2
    /
    2
    /
    покрывает неизвестный параметр
    x
    m с точностью
    n
    t


    2
    /


    Таким образом, доверительным интервалом называется такой интервал, относительно которого можно с заранее определенной, близкой к единице вероятностью утверждать, что он содержит не известное нам истинное значение параметра
    x
    m
    :
    n
    t
    x
    m
    n
    t
    x
    x




    2
    /
    2
    /




    Из этого соотношения видно что, чем точнее при данном значении

    мы хотим оценить среднее значение, тем больше n экспериментов необходимо провести. С увеличением надежности (уменьшением

    ) доверительный интервал расширяется, т.е. точность уменьшается. Если

    18 задать точность

    и вероятность

    , то можно найти минимальный объем выборки n, который обеспечит заданную точность

    :
    2 2
    /










    t
    n
    Поскольку концы интервала представляют собой случайные величины, то их называют также доверительными границами.
    Если величина Х распределена не по нормальному закону, то поскольку величина
    x
    представляет собой сумму независимых, одинаково распределенных случайных величин, согласно предельной теореме при достаточно больших n (n ≥ 30) ее закон распределения близок к нормальному.
    Пример: Оценить среднюю точность изготовления внешнего контура крыла
    x
    m
    с известным стандартным отклонением
    1


    мм. по выборке замеров n = 58 .
    Решение. На основе замеров рассчитывается оценка
    x
    = 0,45мм. Так как n = 58 > 30 , то закон распределения измерений
    x
    можно считать нормальным . Задаемся

    = 0,05 и находим Ф(
    2
    /

    t
    ) =
    )
    1
    (
    2 1


    = 0,475. Затем по таблице значений функции Лапласа Ф(t) находим
    2
    /

    t
    = 1,96. Определяем
    26
    ,
    0 58 1
    96
    ,
    1 2
    /




    n
    t


    Следовательно, средняя точность изготовления внешнего контура крыла
    x
    m
    лежит в пределах 0,45

    0,26 .

    19
    Построение интервальной оценки для математического ожидания и
    дисперсии
    Построение доверительного интервала для математического ожидания
    случайной величины при неизвестной дисперсии
    Рассмотрим оценку
    x
    математического ожидания
    x
    m
    нормально распределенной случайной величины Х с неизвестной дисперсией
    2

    :



    n
    i
    i
    x
    n
    x
    1 1
    Для оценивания дисперсии
    2

    используем оценку
    2 1
    2
    )
    (
    1 1
    x
    x
    n
    S
    n
    i
    i





    Величина
    n
    S
    x
    m
    t
    x
    /


    , при этих условиях имеет t-распределение (распределение Стьюдента)с числом степеней свободы k = n – 1.
    Для нахождения доверительного интервала значения
    x
    m
    задаемся надежностью P = 1 –

    по таблице t-распределения для уровня значимости

    /2 (соответствующего односторонней критической области см. рис.10.1), из условия





    1
    }
    |
    |
    {
    2
    /
    t
    t
    P
    определяем значение
    2
    /

    t
    и строим доверительный интервал:
    n
    S
    t
    x
    m
    n
    S
    t
    x
    x
    2
    /
    2
    /






    Пример: Оценить прочность сотового заполнителя из материала А1Т толщиной 0,08 мм по данным 19 испытаний на сжатие.
    Решение. Предполагая, что разброс предела прочности подчиняется нормальному закону распределения и по результатам испытаний определяется
    x
    = 2,37,
    2
    S
    = 3,12 . Для

    /2 = 0,025 (соответствующего

    20 односторонней критической области) и для k = n – 1 = 18 степени свободы по таблице t-распределения определяем
    2
    /

    t
    = 2,1 и находим величину
    85
    ,
    0 36
    ,
    4 766
    ,
    1 1
    ,
    2 19 12
    ,
    3 1
    ,
    2 2
    /





    n
    S
    t

    Таким образом, с надежностью 0,95 (или 95%) можно утверждать, что среднее значение прочности сотового заполнителя находится в пределах
    12,37 ± 0,85.
    Доверительный интервал для дисперсии нормального распределения
    Рассмотрим построение доверительного интервала дисперсии нормально распределенной случайной величины Х при неизвестном математическом ожидании. Для этого используем соотношение
    ,
    1
    )
    (
    1 1
    2 2
    2 1
    2









    n
    x
    x
    n
    S
    n
    i
    i
    откуда имеет место
    2 2
    2
    )
    1
    (


    S
    n


    с k = n – 1 степенями свободы.
    Таким образом, если математическое ожидание случайной величины Х неизвестно, то случайная величина
    2

    распределена по закону
    2

    с k = n – 1 степенями свободы. Уменьшение числа степеней свободы обусловлено тем, что выборочные значения связаны между собой линейной зависимостью через оценку математического ожидания.
    Так как случайная величина
    2

    неотрицательна, а плотность распределения
    )
    (
    2

    p
    несимметричная (рис.24.1), то доверительный интервал будем определять из условия










    1
    }
    {
    2 2
    2 2
    1
    P
    , или
    0 p(
    2

    )
    Рис.24.1 2
    1


    ε /2
    ε /2 1 – ε
    2 2


    2


    21

















    1
    )
    1
    (
    2 2
    2 2
    2 1
    S
    n
    P
    , откуда получаем








    



    







    1
    )
    1
    (
    )
    1
    (
    2 2
    2 2
    2 1
    2
    S
    n
    S
    n
    P
    Следовательно, интервал










    2 2
    2 2
    1 2
    )
    1
    (
    ;
    )
    1
    (




    S
    n
    S
    n
    есть доверительный интервал для дисперсии
    2

    с надежностью



    1
    P
    , а интервал










    2 2
    1 2
    1
    ;
    1




    n
    S
    n
    S
    доверительный интервал для стандартного отклонения

    с надежностью



    1
    P
    Определим
    2 1


    ,
    2 2


    по таблицам распределения
    2

    из условия
    2
    /
    }
    {
    }
    {
    2 2
    2 2
    2 1











    P
    P
    Если таблица
    2

    построена из расчета







    1
    }
    {
    2 2
    P
    , то значения
    2 1


    ,
    2 2


    определяются из условий (см. рис.10.2):
    2
    /
    1
    }
    {
    ),
    2
    /
    1
    (
    1 2
    /
    }
    {
    2 2
    2 2
    2 1

















    P
    P
    Действительно:





    )
    (
    )
    (
    }
    {
    2 2
    2 2
    2 1
    2 2
    1









    F
    F
    P
    =




    }
    {
    }
    {
    2 2
    2 2
    1 2






    P
    P
    =









    1
    )
    2
    /
    1
    (
    1 2
    /
    1
    Если таблица
    2

    построена из условия






    }
    {
    2 2
    P
    , то значения
    2 1


    ,
    2 2


    определяются из условий (см. рис.10.1):

    22 2
    /
    }
    {
    ,
    2
    /
    1
    }
    {
    2 2
    2 2
    2 1













    P
    P
    Покажем, что в этом случае также имеет место





    )
    (
    )
    (
    }
    {
    2 2
    2 2
    2 1
    2 2
    1









    F
    F
    P
    =




    }
    {
    }
    {
    2 2
    2 2
    1 2






    P
    P
    =






    }
    {
    1
    }
    {
    1 2
    2 2
    2 1
    2






    P
    P
    =









    1
    )
    2
    /
    1
    (
    1 2
    /
    1
    Пример: Вычислим с надежностью P = 0,95 доверительный интервал для дисперсии нормального распределения прочности сотового заполнителя по результатам испытаний, рассмотренных в предыдущем примере, где выборочная дисперсия
    2
    S
    = 3,12 вычислена по выборке объема n = 19.
    Решение. По таблице, определенной из условия






    }
    {
    2 2
    P
    для k
    = n –
    1 = 18 степеней свободы и доверительного уровня значимости

    /2 = 0,025 определяем
    2 2


    = 31,5,. Для вероятности Р =
    2
    /
    1


    = 0,975 и числа степеней свободы k = n –
    1 = 18 определяем
    2 1


    = 8,23 .
    Следовательно, доверительный интервал с надежностью 0,95 для дисперсии будет (18 2
    S /31,5 ; 18 2
    S /8,23) или (1.78 ; 6.82), а для стандартного отклонения


    23
    ,
    8
    /
    18
    ;
    5
    ,
    31
    /
    18 2
    2
    S
    S
    или (1,33 ; 2,61).


    написать администратору сайта