N (0, 1). Поэтому P −u 1−α/2 < (X − Y ) − (µ 1 − µ 2 ) r σ 2 1 n + σ 2 2 m < u 1−α/2 = 1 − α, где u 1−α — квантиль уровня 1 − α стандартного нормального распределения. Умножая все части двойного неравенства на − r σ 2 1 n + σ 2 2 m , а затем прибавляя X − Y , получим P ( X − Y − r σ 2 1 n + σ 2 2 m u 1−α < µ 1 − µ 2 < X − Y + r σ 2 1 n + σ 2 2 m u 1−α ) = 1 − 2α, т.е. случайный интервал Ã X − Y − r σ 2 1 n + σ 2 2 m u 1−α , X − Y + r σ 2 1 n + σ 2 2 m u 1−α ! накрывает неизвест- ную разность математических ожиданий µ 1 − µ 2 с необходимой доверительной вероятностью 1 − 2α. Доверительная оценка для разности математических ожиданий нормаль- ных случайных величин с неизвестными, но равными дисперсиями Пусть X n = (X 1 , . . . , X n ) и
Y n = (Y 1 , . . . , Y m ) — две независимые выборки из распределений N (µ 1 , σ 2 ) и N (µ 2 , σ 2 ) соответственно, µ 2 и σ 2 неизвестны. Обозначим X = 1 n n X i=1 X i , S 2 (
X n ) = 1 n − 1 n X i=1 (X i − X) 2 , Y = 1 m m X i=1 Y i , S 2 (
Y n ) = 1 m − 1 m X i=1 (Y i − Y ) 2 . Можно показать, что случайная величина r mn(m + n − 2) m + n (X − Y ) − (µ 1 − µ 2 ) q (n − 1)S 2 (
X n ) + (m − 1)S 2 (
Y n ) имеет распределение Стьюдента с m + n − 2 степенями свободы. Поэтому P −t 1−α (m + n − 2) < r mn(m + n − 2) m + n (X − Y ) − (µ 1 − µ 2 ) q (n − 1)S 2 (
X n ) + (m − 1)S 2 (
Y n ) < t 1−α (m + n − 2) = 1 − 2α, где t 1−α (m + n − 2) — квантиль уровня 1 − α распределения Стьюдента с m + n − 2 степенями сво- боды. Умножая все части двойного неравенства на − s (m + n)((n − 1)S 2 (
X n ) + (m − 1)S 2 (
Y n )) mn(m + n − 2) а затем прибавляя X − Y , заключаем, что нижняя θ(
X n ,
Y n ) и верхняя θ(
X n ,
Y n ) границы интер- вальной оценки с коэффициентом доверия γ = 1 − 2α для разности µ 1 − µ 2 в случае с неизвестными, но равными дисперсиями можно определить по формулам θ(
X n ,
Y n ) = X − Y − t 1−α (m + n − 2) s (m + n)((n − 1)S 2 (
X n ) + (m − 1)S 2 (
Y n )) mn(m + n − 2) , θ(
X n ,
Y n ) = X − Y + t 1−α (m + n − 2) s (m + n)((n − 1)S 2 (
X n ) + (m − 1)S 2 (
Y n )) mn(m + n − 2) . Замечание 16.1 Можно показать, что все четыре интервальных оценки являются самыми корот- кими среди всех интервальных оценок с таким же уровнем доверия. 75 Доверительная оценка для дисперсии при неизвестном математическом ожиданииСтатистика ( n − 1) S2 ( Xn) σ2 имеет χ2 -распределение с n − 1 степенью свободы. Поэтому P ( χ2 α( n − 1) <( n − 1) S2 ( Xn) σ2 < χ2 1 −α( n − 1) ) = 1 − 2 α,где χ2 q( n − 1) — квантиль уровня q χ2 -распределения с n − 1 степенью свободы. Деля все части двойного неравенства на ( n − 1) S2 ( Xn), а затем переходя к неравенству для обратных величин, получим P ( ( n − 1) S2 ( Xn) χ2 1 −α( n − 1) < σ2 <( n − 1) S2 ( Xn) χ2 α( n − 1) ) = 1 − 2 α,т.е. à ( n − 1) S2 ( Xn) χ2 1 −α( n − 1) ,( n − 1) S2 ( Xn) χ2 α( n − 1) ! — интервальная оценка для дисперсии σ2 уровня доверия 1 − 2 α. Приближенные интервальные оценки для математического ожидания случайной величины Пусть Xn= ( X1 , . . . , Xn) — случайная выборка объема n из распределения случайной величины Xс математическим ожиданием µ = M X и дисперсией σ2 = D X. В соответствии с центральной предельной теоремой функция распределения случайной величи- ны X − µσ√nстремится к функции распределения Φ( x) стандартной нормальной случайной величины N (0 , 1). Поэтому P ½ −u1 −α<X − µσ√n < u1 −α¾ ≈ 1 − 2 α,где u1 −α— квантиль уровня 1 − α стандартного нормального распределения. Умножая все части двойного неравенства на −σ√n, а затем прибавляя X, получим P ½ X −σ√nu1 −α< µ < X + σ√nu1 −α¾ ≈ 1 − 2 α.Заменяя неизвестную величину σ ее оценкой, например, случайной величинойS( Xn) = v u u t 1 n − 1 nX i=1 ( Xi− X) 2 ,получим приближенную интервальную оценку à X −S( Xn) √nu1 −α, X + S( Xn) √nu1 −α! математического ожидания µ с доверительной вероятностью 1 − 2 α. Доверительная оценка вероятности успеха в схеме Бернулли Пусть Xiчисло успехов в i-ом, i = 1 , n, испытании по схеме Бернулли с вероятностью успеха p и вероятностью неудачи q = 1 − p. Тогда M Xi= p, D Xi= pq. Оценкой дисперсии D Xiбудет случайная величина ˆ pˆ q, где ˆ p = X и ˆ q = 1 − ˆ p — доли успехов и неудач соответственно. Поэтому µ ˆ p −√ˆ pˆ q√nu1 −α, ˆ p + √ˆ pˆ q√nu1 −α¶ — приближенная интервальная оценка вероятности успеха p с доверительной вероятностью 1 − 2 α. 76
Доверительная оценка параметра распределения Пуассона Пусть X n = (X 1 , . . . , X n ) — случайная выборка пуассоновской случайной величины X с параметром λ. Так как MX = λ, DX = λ, то дисперсию DX можно оценить как и математическое ожидание MX случайной величиной X. Поэтому приближенной интервальной оценкой параметра λ с доверитель- ной вероятностью 1 − 2α будет интервал X − u 1−α s X n , X + u 1−α s X n . Доверительная оценка выборочного коэффициента корреляции Пусть (X i , Y i ), i = 1, n — выборка из распределения нормального случайного вектора (X, Y ). Обо- значим b ρ( X n , Y n ) = n P i=1 (X i − X)(Y i − Y ) s n P i=1 (X i − X) 2 s n P i=1 (Y i − Y ) 2 выборочный коэффициент корреляции, являющийся состоятельной оценкой коэффициента корре- ляции ρ между X и Y . Р. Фишер показал, что случайная величина Z = 1 2 ln 1 + b ρ( X n , Y n ) 1 − b ρ( X n , Y n ) уже для небольших значений n приблизительно распределена по нормальному закону с парамет- рами MZ ≈ 1 2 ln 1 + ρ 1 − ρ + ρ 2(n − 1) , DZ = 1 n − 3 . Отсюда следует, что интервальная оценка (ρ, ρ) для ρ уровня доверия 1 − α имеет вид (ρ, ρ) = (th z, th z), (16.2) где z = 1 2 ln 1 + b ρ 1 − b ρ + b ρ 2(n − 1) − u 1−α/2 √ n − 3 ; (16.3) z = 1 2 ln 1 + b ρ 1 − b ρ + b ρ 2(n − 1) + u 1−α/2 √ n − 3 , (16.4) а u 1−α/2 — квантиль уровня 1 − α/2 стандартного нормального распределения. Равенствами (16.3), (16.4) можно пользоваться и в тех случаях, когда вектор (X, Y ) не является нормальным. Но в этом случае увеличивается длина интервала (th z, th z), а значит, ухудшается точность оценивания. Номер на- блюдения 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Рост, см 165 171 182 165 183 180 183 166 173 172 174 170 164 168 184 Масса, кг 72,9 48,4 66,3 64,1 62,7 76,0 73,8 50,6 52,3 56,5 66,8 61,6 72,8 52,6 68,6 Таблица 16.1. Пример 16.1 Вычислим значение b ρ для пары случайных величин (X, Y ), где X — рост (в см), а Y — масса тела (в кг) наугад выбранного студента-первокурсника. Выборка объема n = 15 пред- ставлена в табл. 16.1. Имеем x = 1 15 15 X i=1 x i = 2620 15 = 173,3; y = 1 15 15 X i=1 y i = 945 15 = 63,1. 15 X i=1 (x i − x) 2 = 747,33; 15 X i=1 (y i − y) 2 = 1171,4; 15 X i=1 (x i − x)(y i − y) = 293,3. Таким образом, b ρ = 293,3 √ 747,33 · 1171,4 = 0,313. 77
Найдем значения ρ и ρ при 1 − α = 0,9. Определив по таблице квантилей нормального распределения (см. 16.1) значение u 1−α/2 = u 0,95 = 1,65 и воспользовавшись формулой (16.2), получим ρ = th z ≈ −0,162, ρ = th z ≈ 0,658. 78
Лекция 17 Проверка гипотез. Параметрические модели Основные понятия Пусть имеется выборка xn, являющаяся реализацией случайной выборки Xnиз генеральной сово-купности X, функция распределения которой F¡ t; θ¢ зависит от неизвестного параметра θ. Определение 17.1 Статистической гипотезой называют любое утверждение о функции распределения случайной величины X, при этом слово “статистическая” для краткости обычно опускают. Параметрической гипотезой называют любое утверждение о параметре θ функции распределения F¡ t; θ¢ случайной величины X. При этом если θ — скаляр, то речь идет об одно-параметрических гипотезах, а если вектор, — то о многопараметрических гипотезах. Статистическую гипотезу H называют простой, если она имеет вид H : θ = θ0 , где θ0 — некоторое заданное значение параметра. Статистическую гипотезу называют сложной, ес- ли она имеет вид H : θ ∈ D, где D — некоторое множество значений параметра θ, состоящее более чем из одного элемента. Пример 17.1 Пусть Xn— случайная выборка объема n из генеральной совокупности X, распреде- ленной по нормальному закону с неизвестным математическим ожиданием µ и известной диспер- сией σ2 . Тогда гипотеза H: µ = µ0 , где µ0 — некоторое заданное значение параметра µ, является простой. Гипотезы H1 : µ > µ0 ; H2 : µ 6 µ0 ; H: µ0 6 µ 6 µ1 являются сложными. Пример 17.2 Пусть в примере 17.1 оба параметра µ и σ неизвестны. В этом случае гипотеза H: µ = µ0 становится сложной, так как ей соответствует множество значений двумерного вектора θ = ( µ; σ), для которых µ = µ0 , 0 < σ < ∞. Проверка двух простых гипотез Рассмотрим сначала случай, когда проверяются две простые статистические гипотезы вида H0 : θ = θ0 ,H1 : θ = θ1 ,где θ0 , θ1 — два заданных (различных) значения параметра. Первую гипотезу H0 обычно на- зывают основной, или нулевой, а вторую H1 — альтернативной, или конкурирующей, ги-потезой. По данным выборки xnисследователю нужно решить, можно ли принять выдвинутую гипотезу или ее нужно отклонить как противоречащую результатам эксперимента и принять неко- торую альтернативную гипотезу (например, θ 6= θ0 ). Критерием, или статистическим критерием, проверки гипотез называют правило, по которому по данным выборки xnпринимается решение о справедливости либо первой, либо второй гипотезы. Критерий задают с помощью критического множества W ∈ R n, являющегося подмноже- ством выборочного пространства Xnслучайной выборки Xn. Решение принимают следующим об- разом: • если выборка xnпринадлежит критическому множеству W , то отвергают основную гипотезу H0 и принимают альтернативную гипотезу H1 ; 79 • если выборка xnне принадлежит критическому множеству W (т.е. принадлежит дополнениюW множества W до выборочного пространства Xn), то отвергают альтернативную гипотезу H1 и принимают основную гипотезу H0 . Множество W называют доверительным множе-ством. При использовании любого критерия возможны ошибки следующих видов: • принять гипотезу H1 , когда верна H0 — ошибка первого рода; • принять гипотезу H0 , когда верна |