Математика и информатика. Учебное пособие по всему курсу Тольятти 2008 удк 51 004 (075. 8) Ббк 22. 1832. 81 Е егорова, Э. В. Учебное пособие по дисциплине Математика и информатика для студентов гуманитарных и педагогических специальностей очной формы обучения
Скачать 1.82 Mb.
|
Глава 7. Проверка статистических гипотез7.1. Понятие и классификация статистических гипотезСтатистической гипотезой называется предположение относительно вида неизвестного распределения или параметров известных распределений наблюдаемой случайной величины. Ранее в 5.2 рассматривались примеры 1, 2, где вычислялись выборочные характеристики, были построены полигон или гистограмма. Можно предположить, что данная случайная величина распределена по одному из известных законов. Следующий этап: нужно проверить, что экспериментальные данные соответствуют высказанной гипотезе и принять её. Этот этап называется проверкой статистической гипотезы. Алгоритм проверки гипотезы называется решающим правилом. Так как гипотеза выдвигалась на основе выборочных данных, то гипотеза будет носить вероятностный характер. К основным задачам математической статистики относятся: Статистическая проверка гипотез о параметрах распределения. В этом случае предполагается, что закон распределения случайной величины установлен. Пусть совокупность распределена по нормальному закону. Выдвигается гипотеза о математическом ожидании в предполагаемом диапазоне. Статистическая проверка гипотез о законе распределения случайной величины. Гипотезы о виде распределения выдвигаются в условиях недостаточной информации о выборке. Практически экспериментальные данные при большой выборке приближаются к нормальному закону. Выдвинув такую гипотезу, далее следует найти доверительные интервалы для параметров этого распределения. Проверяемая гипотеза называется нулевой (основной), наиболее правдоподобной по каким-то соображениям, и обозначают её H0. Наряду с основной гипотезой рассматривают альтернативную (конкурирующую) гипотезу H1, противоречащую основной. Выдвинутая нулевая гипотеза нуждается в дальнейшей проверке. При этом могут быть допущены ошибки двух типов: Ошибка первого рода – отвергнута правильная гипотеза; Ошибка второго рода – принята неправильная гипотеза. 7.2. Общая схема проверки гипотезДля проверки нулевой гипотезы используют специально подобранную случайную величину, точное или приближённое распределение которой известно, обозначают её через Z, если она распределена нормально, T – по закону Стьюдента, 2 – по закону «хи–квадрат». Данная специально подобранная случайная величина называется статистическим критерием или критерием значимости, который в дальнейшем будет обозначаться через Z. Статистический критерий служит для проверки нулевой гипотезы. Например, если проверяют гипотезу о равенстве дисперсий двух нормальных генеральных совокупностей, то в качестве критерия принимают отношение исправленных выборочных дисперсий. Для проверки гипотезы по данным выборок вычисляют частные значения входящих в критерий величин и получают наблюдаемое значение критерия. Наблюдаемым значением критерия Zнабл называют значение критерия, вычисленное по выборкам. Например, если по двум выборкам найдены выборочные дисперсии d1=27; d2=9, то наблюдаемое значение критерия равно отношению большей исправленной дисперсии к меньшей: Задачу проверки гипотез можно сформулировать следующим образом. 1. Требуется найти случайную величину Z, которую ещё называют статистикой критерия, удовлетворяющую двум основным требованиям: а) Значение критерия можно посчитать только на основании выборки. б) Распределение критерия известно в предположении, что нулевая гипотеза верна. 2. После поиска или выбора статистики находится критическая область. На числовой оси выделяется область, попадание в которую для случайной величины маловероятно. Малая вероятность задаётся, как и в доверительных интервалах, малым числом – , которое называют уровнем значимости. Вероятность совершить ошибку первого рода (вероятность отвергнуть правильную гипотезу) равна – уровню значимости. Критической областью называют совокупность значений критерия Z, при которых нулевую гипотезу отвергают. Областью принятия гипотез называют совокупность значений критерия Z, при которых нулевую гипотезу принимают. Критическими точками (границами) – zkp называют точки, отделяющие критическую область от области принятия гипотезы. Различают три вида критической области: правосторонняя, определяемая неравенством Z > zkp > 0; левосторонняя, определяемая неравенством Z < zkp < 0; двусторонняя, определяемая неравенством Z < -zкр ; Z > zкр. В частности, если критические точки симметричны относительно нуля, то двусторонняя критическая область определяется неравенством Z > zkp > 0. При отыскании критической области задаются достаточно малой вероятностью – уровнем значимости и ищут критические точки, исходя из требования, чтобы вероятность того, что критерий Z примет значения, лежащие в критической области, была равна принятому уровню значимости. В результате получают: для правосторонней критической области:
для левосторонней критической области P (Z < zkp) = ; для двусторонней симметричной области P (Z > zkp) = /2 . Основной принцип статистической проверки гипотез заключается в следующем: Если наблюдаемое значение критерия Zнабл, вычисленное по данным выборки, принадлежит критической области, то гипотезу отвергают. Если наблюдаемое значение не принадлежит критической области, то нет оснований отвергать гипотезу. Для каждого критерия имеются соответствующие таблицы, позволяющие по найти критические точки zkp, удовлетворяющие требованию (7.1). 7.3. Статистическая проверка гипотез о параметрах распределенияСравнение исправленной выборочной дисперсии с генеральной дисперсией Пусть из генеральной совокупности, распределенной нормально c неизвестной генеральной дисперсией 20, извлечена выборка объёма n и по ней найдена исправленная выборочная дисперсия S2 с k = n – 1 степенями свободы. Требуется установить насколько различаются исправленная выборочная дисперсия и предполагаемая генеральная дисперсия. Нулевую гипотезу можно записать в виде:
В нулевой гипотезе (7.2) принимается, что математическое ожидание исправленной выборочной дисперсии равно предполагаемой генеральной дисперсии. В качестве статистического критерия проверки нулевой гипотезы принимают случайную величину:
Эта величина случайная, так как в разных опытах S2 принимает различные значения, имеет распределение по закону «Хи – квадрат» 2 с k = n–1 степенями свободы. Рассматривается один из возможных случаев. Нулевая гипотеза:
Конкурирующая гипотеза:
Для данного случая строится правосторонняя критическая область. При этом ставится условие, чтобы вероятность попадания критерия в эту область будет равна принятому уровню значимости , с учётом справедливости нулевой гипотезы:
Критическую точку 2kp (; k) находят по таблице критических точек распределения 2 (Приложение 3). Тогда правосторонняя критическая область определяется неравенством: 2 > 2kp. Область принятия нулевой гипотезы определяется неравенством: 2 < 2kp. Значение критерия 2 вычисляется по данным наблюдений по формуле (7.3) и обозначается 2набл. Тогда нулевую гипотезу о параметрах распределения: Отвергают при выполнении условия:
Принимают при условии:
Пример 1. Из генеральной совокупности, распределенной нормально, извлечена выборка объёма n = 21 и по ней найдена исправленная выборочная дисперсия S2 = 25 . Требуется проверить нулевую гипотезу, которая принимается по (7.4), предполагая неизвестное значение генеральной дисперсией равным 20. Нулевая гипотеза: H0: 2 = 20 = 20. Конкурирующая гипотеза принимается по (7.5). H1: 2 > 20. Задаётся минимальный уровень значимости = 0,01. Таким образом, в задаче дано: n = 21. S2 = 25. 20 = 20. = 0,01. Решение. По формуле (7.3) можно найти наблюдаемое значение критерия: . По таблице критических точек распределения 2 (Приложение 3), зная уровень значимости = 0,01 и число степеней свободы: k =n–1=20, можно найти критическую точку: 2kp (=0,01; k=20)=37,6. Так как конкурирующая гипотеза по условию: H1: 2 > 20, то критическая область правосторонняя. Наблюдаемое значение критерия 2набл=25, критическое значение статистического критерия 2kp =37,6. По (7.8), если 2набл < 2kp, нулевая гипотеза о параметрах распределения принимается. В итоге можно сформулировать алгоритм проверки гипотез о параметрах распределения: Выбрать нулевую – H0 и конкурирующую – H1 гипотезы. Задать уровень значимости . Выбрать статистический критерий 2. По формуле (7.3) найти 2набл. Найти критическую точку 2kp (; k) по таблице Приложения 3. Принять решение по выдвинутой гипотезе. Решение носит вероятностный характер. Поэтому, если выдвинутая гипотеза не подтверждается, то делают заключение, что данные эксперимента не подтверждают гипотезу H0. 7.4. Вопросы для самоконтроля по теме «Элементы математической статистики»1. Определите правильный ответ. По статистическому распределению выборки установите её объём:
a) 11; b) 30; c) 18; d) 13. 2. Определите правильный ответ. Статистическое распределение выборки имеет вид:
Тогда объём предложенной выборки равен: a) 20; b) 80; c) 18; d)13. 3. Определите правильный ответ. Средняя выборочная вариационного ряда 1,2,3,3,4,5 равна: a) 2; b) 3; c) 5; d) 10. 4. Определите правильный ответ. Дана выборка объема n = 5: -4, -2, 2, 6, 8. Выборочное среднееx равно: a)x = 3,0; b)x = 2,0; c)x = 1,2; d)x = 2,5. 5. Определите правильный ответ. Дана выборка объема n = 5: -2, -1, 1, 3, 4. Выборочное среднееx и выборочная дисперсия S2 равны: a)x=1; S2=5,2; b)x=2; S2=4; c)x=3; S2=8; d)x=1,5; S2=7. 6. Определите правильный ответ. Дано статистическое распределение выборки:
Выборочное среднееx равно: a)x = 2,4; b)x = 2,0; c)x = 1,5; d)x = 1,0. 7. Определите правильный ответ. Дано статистическое распределение выборки:
Выборочное среднееx и выборочная дисперсия S2 равны: a)x = 2; S2 = 0; b)x = 0,1; S2 = 7; c)x = 0; S2 = 30; d)x =1,2; S2 = 30. 8. Определите правильный ответ. Дана выборка объема n = 5: -6, -4, 0, 4, 6. Выборочное среднееx и выборочная дисперсия S2 равны: a)x = 0,5; S2 = 12; b)x = 0; S2 = 20,8; c)x = 2; S2 = 5,2; d)x = 1; S2 = 208 . 9. Определите правильный ответ. Дана выборка объема n = 5: -3, -2, 0, 2, 3. Выборочное среднееx и выборочная дисперсия S2 равны: a)x= 0; S2=5,2; b)x= 1; S2=6; c)x= 2; S2=26; d)x= 3; S2=7. 10. Определите правильный ответ. Дана выборка объема n = 10. Статистическое распределение этой выборки имеет вид:
Тогда выборочное среднееx для этой выборки равно: a)x =3,0; b)x =3,3; c)x =4,0; d)x =3,4. 11. Определите правильный ответ. Дана выборка объема n = 5: 2, 3, 5, 7, 8. Выборочное среднееx и выборочная дисперсия S2 равны: a)x= 6; S2=22; b)x= 5; S2=5,2; c)x= 6; S2 =26; d)x= 4; S2=10. 12. Определите правильный ответ. Дано статистическое распределение выборки:
Выборочное среднееx и выборочная дисперсия S2 равны: a)x = 2, S2 = 17,6; b)x = 1,5, S2 = 42; c)x = 3, S2 = 7; d)x = 1, S2 = 30. Часть 4. Алгоритмизация и программирование |