Интервальные оценки параметров распределения. Доверительный интервал В ряде задач требуется не только найти с помощью статистических данных точечную оценку
a для параметра a распределения, но и оценить ее точность и надежность, так как в силу случайности a приближенная замена a на a может привести к серьезным ошибкам. Для определения точности оценки в математической статистике используют доверительные интервалы, для определения надежности - доверительные вероятности.
Пусть для параметра a распределения случайной величины Х получена несмещенная оценка a . Задаем достаточно высокую вероятность (напри- мер, 95 , 0 ) и находим такое значение > 0, для которого γ ε) a a P(
. Данное равенствоможно переписать в другом ви- де: γ ε) a a -ε a P(
и истолковать следующим образом: неизвест- ное значение параметра а с вероятностью попадает в интервал ε) a -ε a ( I γ
,
. Или говорят, интервал I с высокой вероятностью по- крывает неизвестный параметр a . Интервал I называется доверительным интервалом; центр его на- ходится в точке a , радиус его . Вероятность называется доверительной вероятностью или надеж- ностью. Итак, доверительный интервал I - это интервал с центром в точ- ке a и радиусом , который с высокой вероятностью (надежностью) по- крывает неизвестный параметр а . Найти доверительный интервал – это значит, по статистическим дан- ным найти центр интервала a и радиус его > 0. Доверительный интервал для оценки математического ожидания нормального распределения случайной величины с известным Пусть случайная величина X имеет нормальное распределение с неизвест- ным математическим ожиданием a и известной дисперсией 2 . Пусть произ- ведено n независимых опытов и на основании статистических данных полу- чено выборочное среднее: 1 1 n i X n x Тогда доверительный интервал имеет вид: n t x a n t x Значение t находим по таблице приложения из выражения 2 ) ( t ; Доверительный интервал для оценки математического ожидания нормального распределения с неизвестным Доверительный интервал для оценки математического ожидания с не- известным имеет вид: n S t x a n S t x , где t – коэффициент Стьюдента (находим по таблице приложения). Доверительные интервалы для оценки среднего квадратического отклонения нормального распределения
Пусть исследуемая случайная величина X генеральной совокупности распределена по закону N( a, ). По статистическим данным найдено “исправ- ленное” среднее квадратическое отклонение S. Требуется найти для него до- верительный интервал с надежностью Требуется найти такое > 0, чтобы выполнялось равенство: ) | (| SPДоверительный интервал для оценки среднего квадратического откло- нения нормального распределения ищем по формуле ) 1 ( ) 1 ( qSaqS , q– находим по таблице приложения Пример 7. С целью определения среднего трудового стажа на предпри- ятии методом случайной повторной выборки проведено обследование трудо- вого стажа рабочих. Из всего коллектива рабочих завода случайным образом выбрано 400 рабочих, данные о трудовом стаже которых и составили выбор- ку. Средний по выборке стаж оказался равным 9,4 года. Считая, что трудовой стаж рабочих имеет нормальный закон распределения, определить с вероят- ностью 0,97 границы, в которых окажется средний трудовой стаж для всего коллектива, если известно, что = 1,7 года. Решение. Признак Х – трудовой стаж рабочих. Этот признак имеет нормальный закон распределения с известным параметром = 1,7, параметр а неизвестен. Сделана выборка объемом n = 400, по данным выборки найдена точечная оценка параметра а: xв = 9,4. С надежностью = 0,97 найдем интервальную оценку параметра ген xa по формуле: ntxxntx в ген в По таблице значений функции Лапласа из уравнения Ф( t) 2 97 , 0 = 0,485 находим t= 2,17; тогда: , 400 1,7 2,17 + 9,4 400 7 , 1 17 , 2 4 , 9 ген x9,4 – 0,18 < xген < 9,4 + 0,18. Итак, 9,22 < xген < 9,58, то есть средний трудовой стаж рабочих всего коллектива лежит в пределах от 9,22 года до 9,58 года (с надежностью = 0,97). С изменением надежности изменится и интервальная оценка. Пусть = 0,99, тогда Ф( t) = 0,495, отсюда t = 2,58. Тогда: , 20 1,7 2,58 + 9,4 20 7 , 1 58 , 2 4 , 9 ген x или 9,4 – 0,22 < xген < 9,4 + 0,22 . Окончательно: 9,18 < xген < 9,62. Пример 8.Случайная величина X имеет нормальное распределение с известным =3. Найти доверительный интервал для оценки неизвестного математического ожидания a по его выборочному среднему 1 , 4 x, если из- вестны объем выборки 36 n и 95 , 0 Решение. Воспользуемся формулой: ) | (| aaP =2Ф( n )= , t = n , 475 , 0 ) ( , 2 ) ( tt . Значение t находим на таблице для функции Лапласа: t = 1,96. Тогда nt = 36 3 96 , 1 =0,98. Таким образом, получим доверительный интервал: ) 08 , 5 ; 12 , 3 ( ) 98 , 0 1 , 4 ; 98 , 0 1 , 4 ( IПример 9.С целью определения средней продолжительности рабочего дня на предприятии методом случайной повторной выборки проведено об- следование продолжительности рабочего дня сотрудников. Из всего коллек- тива завода случайным образом выбрано 30 сотрудников. Данные табельного учета о продолжительности рабочего дня этих сотрудников и составили вы- борку. Средняя по выборке продолжительность рабочего дня оказалась рав- ной 6,85 часа, а S = 0,7 часа. Считая, что продолжительность рабочего дня имеет нормальный закон распределения, с надежностью = 0,95 определить, в каких пределах находится действительная средняя продолжительность ра- бочего дня для всего коллектива данного предприятия. Решение. Признак Х – продолжительность рабочего дня. Признак имеет нормальное распределение с неизвестными параметрами. Сделана выборка объемом n = 30, по выборочным данным найдены точечные оценки параметров распределения: xв = 6,85; S = 0,7. С надежностью = 0,95 найдем интервальную оценку параметра ген xa по формуле: , в ген в nStxxnStx t находим по таблице распределения Стьюдента, t = t(0,95; 30) = 2,045. Тогда: 30 ,7 0 2,045 + ,85 6 30 7 , 0 045 , 2 85 , 6 ген x, или 6,85 – 0,26 < xген < 6,85 + 0,26 . Итак, 6,59 < x ген < 7,11 , то есть с надежностью = 0,95 средняя продолжительность рабочего дня для всегоколлектива лежит в пределах от 6,59 до 7,11 ч. Пример 10. Случайная величина X имеет нормальное распределение. По выборке объемом n = 15 найдены выборочная средняя ; 3 , 18 x “исправ- ленное” среднее квадратическое отклонение 6 , 0 S ; Определить интерваль- ную оценку математического ожидания с доверительной вероятностью 95 , 0 Решение. По таблице приложения находим 15 , 2 ) 15 ( 95 , 0 t Тогда 33 , 0 15 6 , 0 15 , 2 n S t . Получим доверительный интервал ) 63 , 18 ; 97 , 17 ( ) 33 , 0 3 , 18 ; 33 , 0 3 , 18 ( I Пример 11. По данным 16 независимых равноточных измерений физи- ческой величины найдено выборочное среднее 451 , 35 x и “исправленное” среднее квадратическое отклонение 62 , 3 S . Требуется оценить истинное значение случайной величины с надежностью 95 , 0 Решение. Истинное значение измеряемой величины равна ее математи- ческому ожиданию a . Поэтому задача сводится к оценке математического ожидания (при неизвестном ) для нормального распределения при помощи доверительного интервала. Доверительный интервал находим, пользуясь таблицей распределения Стьюдента. По =0,95 и 16 n , находим 13 , 2 t Имеем 93 , 1 4 / 62 , 3 13 , 2 16 / 62 , 3 13 , 2 / n S t ) 381 , 37 ; 521 , 33 ( ) 93 , 1 451 , 35 ; 93 , 1 451 , 35 ( I Пример 12. Количественный признак генеральной совокупности рас- пределен по нормальному закону N(a, ). По выборке объема 16 n найдено “исправленное” среднее квадратическое отклонение 24 , 1 S . Найти довери- тельный интервал для этой оценки с надежностью 95 , 0 Решение. По таблице приложения по 95 , 0 и 16 n найдем 44 , 0 q Доверительный интервал имеет вид: 79 , 1 69 , 0 ) 44 , 0 1 ( 24 , 1 ) 44 , 0 1 ( 24 , 1 ). Проверка статистических гипотез При исследовании случайной величины X на основании статистических данных довольно часто необходимо знать закон распределения генеральной совокупности, или, если закон распределения известен, его параметры. В
этих случаях выдвигают гипотезы о виде предполагаемого распределения или о предполагаемой величине параметра известного распределения. Статистической называют гипотезу о виде неизвестного распределе- ния или о параметрах известных распределений. Нулевой (основной) назы- вают выдвинутую гипотезу H0 . Конкурирующей (альтернативной) называют гипотезу H1 , которая противоречит основной. Например, если нулевая гипотеза состоит в предположении, что мате- матическое ожидание a нормального распределения равна 5, то конкури- рующая гипотеза состоит в предположении, что 5 a. Кратко это записыва- ют так: 5 : 0 aH; 5 : 1 aHПроверку выдвинутой гипотезы осуществляют статистическими мето- дами, поэтому ее называют статистической проверкой гипотез. Статистическим критерием (или просто критерием) называют слу- чайную величину K, которая служит для проверки нулевой гипотезы. Часто критерием служит случайная величина, распределенная по закону 2 или закону Стьюдента. Наблюдаемым значением Kнаб называют значение критерия, вычислен- ное по выборке, т.е. получают частное (наблюдаемое) значение критерия, вычисленное с помощью частных значений, входящих в критерий величин. После установления K, множество его значений разбивается на два пересе- кающихся подмножества: одно из них содержит значения критерия, при ко- торых нулевая гипотеза отвергается, другое - при которых она принимается. Критической областью называют множество значений критерия, при которых нулевую гипотезу отвергают. Областью допустимых значений (область принятия гипотезы) назы- вают множество значений критерия, при которых нулевую гипотезу прини- мают. Идея метода статистических гипотез состоит в следующем: если на- блюдаемое значение критерия принадлежит критической области - нулевую гипотезу отвергают; если наблюдаемое значение принадлежит области до- пустимых значений - нулевую гипотезу принимают. Критическая область и область принятия гипотезы представляют собой интервалы, поэтому существуют точки, которые их разделяют. Критическими точками kкр называют точки, разделяющие критиче- скую область и область принятия гипотезы. Различают односторонние критические области (правосторонние и ле- восторонние) и двусторонние. Правосторонней называют критическую область определяемую нера- венством Kk кр , где kкр > 0. Левосторонней называют критическую область, определяемую нера- венством Kk кр , где kкр < 0. Двусторонней называют критическую область, определяемую нера- венствами Kk Kk 1 2 , , где kk1 2 . В частности, если критические точки симметричны, двусторонняя критическая область определяется неравенства- ми Kk кр , Kk кр , или | | Kk кр Гипотезы о виде предполагаемого закона распределения Критерий2 : (“хи-квадрат”) Пирсона – наиболее часто употребляе- мый критерий, может применяться для проверки гипотезы о любом законе распределения. Независимо от того, какое распределение имеет Х, распреде- ление случайной величины 2 : 2 siiiimmm1 т 2 т э 2 ) ( , где э im– эмпирические частоты, т im – теоретические частоты; при n стремится к 2 – распределению с k степенями свободы. Теоретические частоты определяются, исходя из предположения о за- коне распределения генеральной совокупности, в данном случае о нормаль- ном законе. Так как nmpii , где рi– теоретическая вероятность, то iipnm т Для дискретного ряда: ) ( в iiufhp , где в вiixxu , 2 2 2 1 ) ( ueuf –дифференциальная фун- кция нормированного нормального распределения, шаг 1 iixxh, в x – вы- борочная средняя, в σ– выборочное среднее квадратическое отклонение. Для интервального ряда: в в 1 в в 1 ) ( xxФxxФxXxPpiiiii, где Ф( t) – функция Лапласа. Рассчитав теоретические частоты, находят 2 набл„ . Из специальной таблицы критических точек распределения 2 по заданному уровню значимости (достаточно малая вероятность) и числу степеней свободы k находят 2 крит ( , k) – границу правосторонней критической области. Здесь k = s – r – 1, где s – число различных значений xi дискретного или число ин- тервалов ( xi–1 – xi) непрерывного признака Х, r – число параметров предпола- гаемого закона распределения, для нормального распределения r = 2, отсюда k = s – 3. Затем сравнивают 2 набл„ и 2 крит ( , k) и делают вывод. При формулировке вывода руководствуются следующим правилом: если наблюдаемое значение критерия 2 набл„ 2 крит ( , k), то нет основа-ний отвергать нулевую гипотезу, по данным наблюдения признак Х имеет нормальный закон распределения, расхождение между эмпириче- скими и теоретическими частотами ( miэ и miт ) случайное; если наблюдаемое значение критерия 2 набл„ 2 крит ( , k), то нулевая ги-потеза отвергается, справедлива конкурирующая гипотеза, то есть признак Х имеет закон распределения, отличный от нормального, рас-хождение между эмпирическими и теоретическими частотами ( miэ и т im) значимо. |