Главная страница
Навигация по странице:

  • 6. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ 6.1. Постановка задачи

  • 6.2. Проверка гипотез о параметрах распределения 6.2.1. Гипотезы о значениях генерального среднего и дисперсии

  • теория вероятностей. Управления и радиоэлектроники (тусур) Кафедра автоматизации обработки информации (аои) З. А. Смыслова М


    Скачать 3.11 Mb.
    НазваниеУправления и радиоэлектроники (тусур) Кафедра автоматизации обработки информации (аои) З. А. Смыслова М
    Анкортеория вероятностей.pdf
    Дата13.12.2017
    Размер3.11 Mb.
    Формат файлаpdf
    Имя файлатеория вероятностей.pdf
    ТипУчебное пособие
    #11331
    страница8 из 13
    1   ...   5   6   7   8   9   10   11   12   13

    5.2.3. Интервальное оценивание генеральной доли
    (вероятности события)
    Для определения вероятностей интересующих нас событий мы применя- ем выборочный метод: проводим
    n
    независимых экспериментов, в каждом из которых может произойти (или не произойти) событие
    А
    (вероятность
    р
    появ- ления события А в каждом эксперименте постоянна). Тогда относительная частота

    p
    появлений событий
    А
    в серии из
    n
    испытаний принимается в каче- стве точечной оценки для вероятности
    p
    появления события
    А
    в отдельном испытании. При этом величину

    p
    называют выборочной долей появлений события
    А
    , а
    р
    — генеральной долей.
    В силу следствия из центральной предельной теоремы (теорема Муавра-
    Лапласа) относительную частоту события при большом объеме выборки мож- но считать нормально распределенной с параметрами
    p
    p
    M
    =

    )
    (
    и
    )
    1
    (
    )
    (
    n
    p
    p
    p

    =
    σ

    Поэтому при
    30
    >
    n
    доверительный интервал для генеральной доли можно построить, используя формулы (5.2)–(5.4):

    65
    ,
    )
    1
    (
    ;
    )
    1
    (
    кр кр
    



    





    +









    n
    p
    p
    u
    p
    n
    p
    p
    u
    p
    (5.6) где кр
    u
    находится по таблицам функции Лапласа с учетом заданной довери- тельной вероятности
    )
    (
    2
    :
    кр
    γ
    =
    Φ
    γ
    u
    При малом объеме выборки
    )
    30
    (

    n
    предельная ошибка
    ε
    определяется по таблице распределения Стьюдента
    ,
    )
    1
    (
    кр
    n
    p
    p
    t




    =
    ε
    (5.7) где
    )
    ;
    (
    кр
    α
    = k
    t
    t
    и число степеней свободы
    ),
    1
    (

    = n
    k
    вероятность
    γ

    =
    α 1
    (двустороння область).
    Формулы (5.6), (5.7) справедливы, если отбор проводился случайным по- вторным образом (генеральная совокупность бесконечна), в противном случае необходимо сделать поправку на бесповторность отбора (табл. 5.2).
    Таблица 5.2
    Средняя ошибка выборки для генеральной доли
    Генеральная совокупность
    Бесконечная
    Конечная объема
    N
    Тип отбора
    Повторный
    Бесповторный
    Средняя ошибка выборки
    n
    p
    p
    )
    1
    (



    N
    n
    n
    p
    p





    1
    )
    1
    (
    Пример 3. С помощью случайного повторного отбора руководство фир- мы провело выборочный опрос 900 своих служащих. Среди опрошенных ока- залось 270 женщин. Постройте доверительный интервал, с вероятностью 0.95 накрывающий истинную долю женщин во всем коллективе фирмы.
    Решение. По условию выборочная доля женщин составляет
    3 0
    900 270 =
    =

    p
    (относительная частота женщин среди всех опрошенных).
    Так как отбор является повторным, и объем выборки велик
    ),
    900
    (
    =
    n
    пре- дельная ошибка выборки определяется по формуле
    )
    1
    (
    кр
    n
    p
    p
    u




    =
    ε

    66
    Значение кр
    u
    находим по таблице функции Лапласа из соотношения
    ,
    )
    (
    2
    кр
    γ
    =
    Φ u
    т.е.
    475 0
    2 95 0
    2
    )
    (
    кр
    =
    =
    γ
    =
    Φ u
    Функция Лапласа (приложе- ние 1) принимает значение 0.475 при
    96 1
    кр
    =
    u
    Следовательно, предельная ошибка
    ,
    18 0
    900
    )
    3 0
    1
    (
    3 0
    96 1
    =


    =
    ε
    и искомый доверительный интервал
    ).
    48 0
    ;
    12 0
    (
    )
    18 0
    3 0
    ;
    18 0
    3 0
    (
    )
    ;
    (
    =
    +

    =
    ε
    +
    ε

    p
    p
    Итак, с вероятностью 0.95 можно гарантировать, что доля женщин во всем коллективе фирмы находится в интервале от 0.12 до 0.48.
    Пример 4. Владелец автостоянки считает день «удачным», если автосто- янка заполнена более, чем на 80 %. В течение года было проведено 40 прове- рок автостоянки, из которых 24 оказались «удачными». С вероятностью 0.98 найдите доверительный интервал для оценки истинной доли «удачных» дней в течение года.
    Решение. Выборочная доля «удачных» дней составляет
    6 0
    40 24 =
    =

    p
    По таблице функции Лапласа найдем значение кр
    u
    при заданной доверительной вероятности
    ,
    49 0
    2
    )
    (
    ,
    )
    (
    2
    :
    98 0
    кр кр
    =
    γ
    =
    Φ
    γ
    =
    Φ
    =
    γ
    u
    u
    33 2
    ,
    49 0
    )
    33 2
    (
    кр
    =
    =
    Φ
    u
    Считая отбор бесповторным (т.е. две проверки в один день не проводи- лось), найдем предельную ошибку:
    ,
    1
    )
    1
    (
    кр
    N
    n
    n
    p
    p
    u




    =
    ε


    где
    365
    ,
    40
    =
    =
    N
    n
    (дней). Отсюда
    17 0
    365 40 1
    40
    )
    6 0
    1
    (
    6 0
    33 2
    =




    =
    ε
    и доверительный интервал для генеральной доли
    ).
    77 0
    ;
    43 0
    (
    )
    17 0
    6 0
    ;
    17 0
    6 0
    (
    )
    ;
    (
    =
    +

    =
    ε
    +
    ε

    p
    p
    С вероятностью 0.98 можно ожидать, что доля «удачных» дней в течение года находится в интервале от 0.43 до 0.77.

    67
    6. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ
    6.1. Постановка задачи
    В обычной речи слово «гипотеза» означает предположение. В статистике
    — это предположение о виде закона распределения («данная генеральная со- вокупность нормально распределена»), о значениях его параметров («гене- ральное среднее равно нулю»), об однородности данных («эти две выборки извлечены из одной генеральной совокупности»). Статистическая проверка гипотезы состоит в выяснении того, согласуются ли результаты наблюдений
    (выборочные данные) с нашим предположением.
    Результатом такой проверки может быть отрицательный ответ: выбороч- ные данные противоречат высказанной гипотезе, поэтому от нее следует отка- заться. В противном случае мы получаем ответ неотрицательный: выборочные данные не противоречат гипотезе, поэтому её можно принять в качестве одно- го из допустимых решений (но не единственно верного).
    Статистическая гипотеза, которая проверяется, называется основной (ну- левой) и обозначается
    0
    H
    Гипотеза, которая противопоставляется основной, называется альтернативной (конкурирующей) и обозначается
    1
    H
    Цель ста- тистической проверки гипотез: на основании выборочных данных принять решение о справедливости основной гипотезы или отклонить в ее пользу аль- тернативной.
    Так как проверка осуществляется на основании выборки, а не всей гене- ральной совокупности, то существует вероятность, возможно, очень малая, ошибочного заключения.
    Так, нулевая гипотеза может быть отвергнута, в то время как в действи- тельности в генеральной совокупности она является справедливой. Такую ошибку называют ошибкой первого рода, а её вероятность — уровнем значи-
    мости и обозначают
    α
    Возможно, что нулевая гипотеза принимается, в то время как в генеральной совокупности справедлива альтернативная гипотеза.
    Такую ошибку называют ошибкой второго рода, а её вероятность обозначают
    β
    (табл. 6.1).
    Таблица 6.1
    Результаты проверки статистической гипотезы
    В генеральной совокупности гипотеза
    0
    H
    Принятое решение
    Верна
    Неверна
    0
    H
    отвергнута
    Ошибка 1 рода
    α
    =
    )
    (
    0 1
    H
    H
    P
    Правильное решение
    β

    = 1
    )
    (
    1 1
    H
    H
    P
    0
    H
    принята
    Правильное решение
    α

    = 1
    )
    (
    0 0
    H
    H
    P
    Ошибка 2 рода
    β
    =
    )
    (
    1 0
    H
    H
    P

    68
    Проверка статистических гипотез осуществляется с помощью стати-
    стического критерия. Статистический критерий
    K
    — это правило (функция от результатов наблюдений), определяющее меру расхождения результатов наблюдений с нулевой гипотезой. Вероятность
    β

    1
    называют мощностью критерия.
    При проверке статистических гипотез принято задавать заранее уровень значимости
    α
    (стандартные значения: 0.1, 0.05, 0.01, 0.001). Тогда из двух критериев, характеризующихся одной и той же вероятностью
    ,
    α
    выбирают тот, которому соответствует меньшая ошибка 2-го рода, т.е. большая мощ- ность. Уменьшить вероятности обеих ошибок
    α
    и
    β
    одновременно можно, увеличив объем выборки.
    Значения критерия
    K
    разделяются на две части: область допустимых
    значений (область принятия гипотезы
    0
    H
    ) и критическую область (область принятия гипотезы
    1
    H
    ). Критическая область состоит из тех же значений критерия К, которые маловероятны при справедливости гипотезы
    0
    H
    . Если значение набл
    K
    критерия K, рассчитанное по выборочным данным, попадает в критическую область, то гипотеза
    0
    H
    отвергается в пользу альтернативной
    ;
    1
    H
    в противном случае мы утверждаем, что нет оснований отклонять гипоте- зу
    0
    H
    Пример. Для подготовки к зачету преподаватель сформулировал 100 во- просов (генеральная совокупность) и считает, что студенту можно поставить
    «зачтено», если тот знает 60 % вопросов (критерий). Преподаватель задает студенту 5 вопросов (выборка из генеральной совокупности) и ставит «зачте- но», если правильных ответов не меньше трех. Гипотеза
    0
    H
    : «студент курс усвоил», а множество
    }
    5
    ,
    4
    ,
    3
    {
    — область принятия этой гипотезы. Критиче- ской областью является множество
    }
    2
    ,
    1
    ,
    0
    {
    — правильных ответов меньше трех, в этом случае основная гипотеза отвергается в пользу альтернативной
    :
    1
    H
    «студент курс не усвоил, знает меньше 60 % вопросов».
    Студент
    А
    выучил 70 вопросов из 100, но ответил правильно только на два из пяти, предложенных преподавателем, — зачет не сдан. В этом случае преподаватель совершает ошибку первого рода.
    Студент
    Б
    выучил 50 вопросов из 100, но ему повезло, и он ответил пра- вильно на 3 вопроса — зачет сдан, но совершена ошибка второго рода.
    Преподаватель может уменьшить вероятность этих ошибок, увеличив количество задаваемых на зачете вопросов.
    Чтобы построить критическую область, нужно знать закон распределе- ния статистики K при условии, что гипотеза
    0
    H
    справедлива. Уровень зна- чимости
    α
    (вероятность наблюдаемому значению набл
    K
    попасть в крити-

    69
    ческую область) определяет «размер» критической области, а конкурирующая гипотеза
    1
    H
    — «форму» критической области. Например, если проверяется гипотеза
    ,
    :
    0 0
    θ
    =
    θ
    H
    а в качестве альтернативы —
    ,
    :
    0 1
    θ
    >
    θ
    H
    то критиче- ская область будет правосторонней (рис. 6.1, а). При альтернативе
    0 1
    :
    θ
    <
    θ
    H
    критическая область — левосторонняя (рис. 6.1, б). При альтер- нативе
    0 1
    :
    θ
    =
    θ
    H
    критическая область — двусторонняя (рис. 6.1, в). Во всех этих случаях при заданном уровне значимости
    α
    заштрихованная площадь составляет
    α

    100
    % от всей площади под кривой плотности распределения статистики K.
    Алгоритм проверки статистических гипотез сводится к следующему:
    1) сформулировать основную
    0
    H
    и альтернативную
    1
    H
    гипотезы;
    2) выбрать уровень значимости
    α
    ;
    3) в соответствии с видом гипотезы
    0
    H
    выбрать статистический крите- рий для ее проверки, т.е. случайную величину
    K
    , распределение которой из- вестно;
    4) по таблицам распределения случайной величины
    K
    найти границу критической области кр
    K
    (вид критической области определить по виду аль- тернативной гипотезы
    1
    H
    );
    5) по выборочным данным вычислить наблюдаемое значение критерия
    ;
    набл
    K
    6) принять статистическое решение: если набл
    K
    попадает в критиче- скую область — отклонить гипотезу
    0
    H
    в пользу альтернативной
    1
    H
    ; если набл
    K
    попадает в область допустимых значений, то нет оснований отклонять основную гипотезу.
    Рис. 6.1. Правосторонняя (а), левосторонняя (б) и двусторонняя (в) критические области кр
    K
    в
    x
    0
    )
    (
    0
    H
    x
    f
    K
    кр
    K

    x
    )
    (
    0
    H
    x
    f
    K
    x
    б
    0
    )
    (
    0
    H
    x
    f
    K
    кр
    K

    кр
    K
    а
    0

    70
    6.2. Проверка гипотез о параметрах распределения
    6.2.1. Гипотезы о значениях генерального среднего и дисперсии
    Рассмотрим нормальную генеральную совокупность
    ),
    ,
    (


    σ
    a
    N
    X
    па- раметр
    a
    которой требуется определить по выборочным данным. Например, задан требуемый номинальный размер
    0
    a
    деталей, вытачиваемых на данном станке. Отобрав из всей продукции выборку объема
    n
    , определить по ней, со- ответствует ли производимая продукция заданному требованию. В этом случае речь идет о проверке гипотезы
    0 0
    :
    a
    a
    H
    =
    о равенстве генерального средне- го
    a
    заданному значению
    0
    a
    . Для проверки этой гипотезы используются статистики, распределение которых известно (табл. 6.2). По выборке вычис- ляются оценки неизвестных параметров распределения:

    =

    =
    =
    n
    i
    i
    x
    n
    x
    a
    1
    ;
    1
    )
    (
    1 1
    2 1
    2 2

    =



    =
    =
    σ
    n
    i
    i
    x
    x
    n
    s
    Таблица 6.2
    Гипотеза о генеральном среднем
    Гипотеза
    0
    :
    a
    a
    H
    =
    Предположения
    Генеральная совокупность нормальна; параметр
    σ
    известен
    Генеральная совокупность нормальна; параметр
    σ
    неизвестен
    Оценки по выборке
    x
    a
    =

    s
    x
    a
    =
    σ
    =


    ;
    Статистика
    K
    n
    a
    X

    σ

    0
    n
    s
    a
    X


    0
    Распределение статистики K
    Стандартное нормальное
    )
    1
    ,
    0
    (
    N
    Распределение Стьюдента
    )
    1
    (

    n
    T
    Эти же статистики используются, если распределение генеральной сово- купности неизвестно (для выборок объема
    30
    >
    n
    используется статистика с нормальным распределением, для
    30

    n
    с распределением Стьюдента).
    Пример 1. Техническая норма предусматривает в среднем 40 с на выпол- нение определенной технологической операции на конвейере по производству часов. От работающих поступили жалобы, что они в действительности затра- чивают на эту операцию больше времени. Для проверки жалобы проведены

    71
    хронометрические измерения времени её выполнения у 36 работниц, занятых на этой операции, и получено среднее время выполнения операции
    42
    =
    x
    с.
    Можно ли по имеющимся хронометрическим данным на уровне значимости
    01 0
    =
    α
    отклонить гипотезу о том, что среднее время выполнения этой опе- рации соответствует норме, если известно, что среднее квадратическое откло- нение генеральной совокупности
    5 3
    =
    σ
    с?
    Решение. Сформулируем основную и альтернативную гипотезы.
    40
    :
    0
    =
    a
    H
    — неизвестное генеральное среднее равно заданному зна- чению (время выполнения технологической операции соответствует норме).
    40
    :
    1
    >
    a
    H
    — время выполнения технологической операции больше ус- тановленной нормы.
    По условию задачи уровень значимости
    ,
    01 0
    =
    α
    т.е. событие, которое происходит с такой вероятностью, считаем практически невозможным.
    Так как выборка большого объема
    )
    30 36
    (
    >
    =
    n
    и среднее квадратиче- ское отклонение генеральной совокупности известно, воспользуемся статисти- кой
    )
    1 0
    (

    N
    K
    (табл. 6.2). Её наблюдаемое значение равно
    43 3
    36 5
    3 40 42 0
    набл
    =


    =
    σ

    =
    n
    a
    x
    K
    Так как альтернативная гипотеза правосторонняя, то и критическая об- ласть — правосторонняя (рис. 6.1, а) и её границу кр
    K
    следует искать по таблице функции Лапласа (приложение 1) из равенства
    2 1
    )
    (
    кр
    α

    =
    Φ K
    Так как
    01 0
    =
    α
    имеем
    49 0
    01 0
    5 0
    )
    (
    кр
    =

    =
    Φ K
    и значение
    33 2
    кр
    =
    K
    Наблюдаемое значение
    ,
    кр набл
    K
    K
    >
    т.е. попадает в критическую об- ласть, следовательно, на данном уровне значимости нулевая гипотеза отверга- ется в пользу альтернативной. Уровень значимости характеризует надежность нашего утверждения: более чем с 99 % надежностью можно утверждать, что среднее время выполнения этой операции превышает норму. Следовательно, жалобы работниц обоснованы.
    Заметим, что при левосторонней конкурирующей гипотезе
    40
    :
    1
    <
    a
    H
    граница критической области отрицательна (рис. 6.1, б). При двусторонней конкурирующей гипотезе
    40
    :
    1

    a
    H
    (рис. 6.1, в) правую границу критиче- ской области кр
    K
    находят по таблицам функции Лапласа (приложение 1) из равенства
    2 1
    )
    (
    кр
    α

    =
    Φ K
    К гипотезе о значении генеральной дисперсии мы приходим, если требу- ется проверить предположение о точности настройки станка или устройства.

    72
    Для проверки основной гипотезы
    0 2
    0
    :
    σ
    =
    σ
    H
    используется статистика, имеющая распределение «хи-квадрат» (табл. 6.3). Альтернативная гипотеза обычно выбирается правосторонней
    :
    2 0
    2 1
    σ
    >
    σ
    H
    Пример 2. Точность работы станка-автомата проверяется по дисперсии контролируемого размера деталей, которая не должна превышать
    1 0
    2
    =
    σ
    По выборке из 25 случайно отобранных деталей рассчитаны оценки генераль- ного среднего и генеральной дисперсии, при этом
    2 0
    2
    =
    s
    На уровне значи- мости 0.05 проверить, обеспечивает ли станок требуемую точность.
    Таблица 6.3
    Гипотеза о генеральной дисперсии
    Гипотеза
    :
    2 0
    2 1
    σ
    >
    σ
    H
    Предположения
    Нормальная генеральная совокупность с известным параметром
    a
    Нормальная генеральная совокупность с неизвест- ным параметром
    a
    Оценки по выборке
    2 2
    s
    =
    σ

    2 2
    ;
    s
    x
    a
    =
    σ
    =


    Статистика
    K
    2 0
    2
    σ
    nS
    2 0
    2
    )
    1
    (
    σ
    S
    n
    Распределение статистики K
    «хи-квадрат»
    )
    (
    2
    n
    χ
    «хи-квадрат»
    )
    1
    (
    2

    χ
    n
    Решение. Основная гипотеза
    1 0
    :
    2 0
    =
    σ
    H
    — станок обеспечивает тре- буемую точность. Альтернативная гипотеза правосторонняя
    1 0
    :
    2 0
    >
    σ
    H
    — точность не обеспечивается. Объем выборки
    ,
    25
    =
    n
    уровень значимости
    05 0
    =
    α
    Так как генеральное среднее неизвестно (оценивается по выборке), то будем использовать статистику

    )
    1
    (
    )
    1
    (
    2 2
    0 2

    χ
    σ

    =
    n
    S
    n
    K
    Её наблюдаемое значение равно
    48 1
    0 2
    0
    )
    1 25
    (
    набл
    =


    =
    K
    Критическая область является правосторонней и ее границу кр
    K
    опре- деляем по таблице распределения «хи-квадрат» (приложение 2):
    36.4.
    0.05)
    ;
    24
    (
    )
    ;
    1
    (
    2 2
    кр
    =
    χ
    =
    α

    χ
    =
    n
    K

    73
    Наблюдаемое значение попадает в критическую область:
    ,
    кр набл
    K
    K
    >
    поэтому основная гипотеза
    0
    H
    отвергается: станок не обеспечивает требуе- мой точности и требует наладки.
    1   ...   5   6   7   8   9   10   11   12   13


    написать администратору сайта