n ) и (Y 1 ; . . . ; Y m ) объемов n и m из генераль- ных совокупностей независимых случайных величин X ∼ N (µ 1 , σ 2 1 ) и Y ∼ N (µ 2 , σ 2 2 ) соответственно. Рассмотрим следующие задачи проверки сложных гипотез относительно параметров µ 1 , µ 2 в слу- чае, когда дисперсии σ 2 1 , σ 2 2 известны: H 0 : µ 1 = µ 2 , H 1 : µ 1 > µ 2 ; (17.15) H 0 : µ 1 = µ 2 , H 1 : µ 1 < µ 2 ; (17.16) H 0 : µ 1 = µ 2 , H 1 : µ 1 6= µ 2 . (17.17) Разность выборочных средних X − Y имеет нормальное распределение с математическим ожида- нием µ 1 − µ 2 и дисперсией σ 2 1 /n + σ 2 2 /m. Отсюда следует, что при справедливости основной гипотезы, т.е. при µ 1 = µ 2 , статистика X − Y r σ 2 1 n + σ 2 2 m (17.18) имеет стандартное нормальное распределение. Исходя из этого, заключаем, что критерии размера α для указанных задач задаются критическими множествами x − y r σ 2 1 n + σ 2 2 m > u 1−α ; x − y r σ 2 1 n + σ 2 2 m 6 −u 1−α ; |x − y| r σ 2 1 n + σ 2 2 m > u 1−α/2 . # Рассмотрим также задачу проверки гипотез (17.15)–(17.16) о равенстве средних двух нормаль- ных распределений в предположении, что их дисперсии не известны, но равны между собой: σ 1 = σ 2 = σ. Обозначим через S 2 ( X n ) = 1 n − 1 n X i=1 (X i − X) 2 , S 2 (
Y m ) = 1 m − 1 m X i=1 (Y i − Y ) 2 соответствующие исправленные оценки дисперсии. Статистики (n − 1)S 2 (
X n )/σ 2 и (m − 1)S 2 (
Y m )/σ 2 имеют χ 2 -распределения с n − 1 и m − 1 степенями свободы. Тем самым статистика (n − 1)S 2 (
X n ) σ 2 + (m − 1)S 2 (
Y m ) σ 2 84 имеет также χ2 -распределение с n + m − 2 степенями свободы . Учитывая, что случайная величина (17.18) при µ1 = µ2 имеет стандартное нормальное распределение, получаем, что статистика e T ( Xn, Ym) = ( X − Y ) √n + m − 2 q 1 n+ 1 mq ( n − 1) S2 ( Xn) + ( m − 1) S2 ( Ym) имеет распределение Стьюдента с n + m − 2 степенями свободы . Поэтому критерии размера αдля проверки гипотез (17.15)–(17.16) задаются с помощью критических множеств, определяемых следующими неравенствами: e T ( xn,ym) > t1 −α( n + m − 2) ,(17.19) e T ( xn,ym) 6 −t1 −α( n + m − 2) ,(17.20) ¯ ¯ e T ( xn,ym) ¯ ¯ > t1 −α/2 ( n + m − 2) .(17.21) 85
Лекция 18 Проверка непараметрических гипотез Критерий согласия χ 2 . Простая гипотеза Пусть наблюдается дискретная случайная величина X, принимающая r различных значений u 1 , . . . , u r с положительными вероятностями p 1 , . . . , p r : P {X = u k } = p k , k = 1, r, r X k=1 p k = 1. Допустим, что в выборке x n = (x 1 ; . . . ; x n ) число u k встретилось n k (x n ) раз, k = 1, r. Отметим, что r P k=1 n k (x n ) = n, т.е. случайные величины n 1 ( X n ), . . . , n r ( X n ) зависимы. Теорема 18.1 (теорема Пирсона) Распределение случайной величины r X k=1 (n k ( X n ) − np k ) 2 np k при n → ∞ сходится к χ 2 -распределению с r − 1 степенями свободы. # Этой теоремой можно воспользоваться для проверки простой гипотезы H 0 : p 1 = p 10 , . . . , p r = p r0 , (18.1) где p 10 , . . . , p r0 — известные величины, против альтернативной гипотезы H 1 : существуют такие k, что p k 6= p k0 , k = 1, r. (18.2) Если истинной является гипотеза H 0 , то по закону больших чисел n k ( X n ) n − p k0 → 0, k = 1, r, а если верна H 1 , то n k ( X n ) n − p k0 → p k − p k0 6= 0, для некоторых k = 1, r. Поэтому при H 1 случайная величина χ 2 ( X n ) = r X k=1 (n k ( X n ) − np k0 ) 2 np k0 = n r X k=1 ³ n k ( X n ) n − p k0 ´ 2 p k0 (18.3) стремится к бесконечности и, следовательно, в эксперименте, как правило,принимает б´ольшие зна- чения, чем при H 0 , когда ее распределение стремится к распределению χ 2 с r − 1 степенями свободы. Таким образом, становится естественным следующее определение критерия согласия χ 2 (хи- вадрат). Этот критерий при больших n на уровне значимости α отклоняет гипотезу H 0 в пользу альтернативной гипотезы H 1 , если χ 2 (x n ) > χ 2 1−α (r − 1), где χ 2 1−α (r − 1) — квантиль уровня 1 − α χ 2 -распределения с r − 1 степенями свободы, а χ 2 (x n ) — реализация случайной величины (18.3). 86
Если же χ2 ( xn) 6 χ2 1 −α( r − 1) ,то делается вывод о том, что гипотеза H0 не противоречит статистическим данным и ее следует принять. Критерием χ2 при небольших объемах выборки n пользоваться нельзя. На практике при неболь- ших r необходимо, чтобы выполнялись условия npk> 10, k = 1 , r, а если r велико ( r > 20), достаточно, чтобы было npk> 5, k = 1 , r. Критерий χ2 можно использовать и тогда, когда случайная величина X непрерывна или дискрет- на, но принимает счетное множество значений с положительными вероятностями. В этом случае множество M возможных значений X разбивают на r непересекающихся подмножеств Mk, k = 1 , r, таким образом, чтобы вероятность pk, k = 1 , r, попадания случайной величины X в k подмноже- ство Mkудовлетворяла условию npk> 5 или npk> 10, k = 1 , r. Если X — непрерывная случайная величина, то в качестве Mk, k = 1 , r, обычно берут множества вида ( −∞, s1 ) ,[ s1 , s2 ) ,. . . ,[ sr−2 , sr−1 ) ,[ sr−1 , ∞) ,где s1 < s2 < · · · < sr−1 , sk∈ R, k = 1 , r−1. Определим дискретную случайную величину X0, принимающую значение k тогда и только тогда, когда X ∈ Mk, k = 1 , r. В этом случае исходная задача проверки статистических гипотез сводится к проверке основной гипотезы (18.1) при альтернативной гипотезе (18.2), где в случае непрерывности случайной величины Xpk0 = Z Mkp0 ( t) dt — вероятность попадания случайной величины X в множество Mk, а p0 ( t) — плотность X при H0 Если X — дискретная случайная величина, имеющая счетное множество возможных значений z1 , z2 , . . . , и P {X = zj} = qj> 0, j = 1 , 2 , . . . , то вместо проверки гипотезы H0 : qj= qj0 ,j = 1 , 2 , . . . ,где qj0 , j = 1 , 2 , . . . , — известные числа, при альтернативной гипотезе H1 : существуют такие j, что qj6= qj0 ,j = 1 , 2 , . . . ,проверяют гипотезу (18.1) при альтернативной гипотезе (18.2), где вероятности pk0 , k = 1 , r, вычис- ляют по формулам pk0 = X zj∈Mkqj0 ,k = 1 , r.Далее для выборки xnнаходят число nk( xn) ее элементов, принадлежащих множеству Mk, k = 1 , r. Затем, подставляя xnвместо Xnв формулу (18.3), определяют реализацию χ2 ( xn) случайной величины χ2 ( Xn). Гипотеза H0 отклоняется в пользу гипотезы H1 , если χ2 ( xn) > χ2 1 −α( r − 1) и принимается в противном случае. Недостатком использования критерия χ2 для случайных величин, принимающих бесконечное множество значений, является некоторая потеря информации при переходе от X к случайной ве- личине X0с конечным числом значений. Пример 18.1 При 4040 бросаниях монеты французский естествоиспытатель Ж.Л.Л. Бюффон (1707–1788) получил 2048 выпадений “герба” и 1992 выпадений “решки”. Совместимо ли это с ги- потезой о том, что вероятность выпадения “герба” при одном бросании равна 1 /2? Здесь n = 4040, r = 2, n1 ( xn) = 2048, n2 ( xn) = 1992, p10 = p20 = 0 ,5, число степеней свободы r − 1 = 1, и при α = 0 ,05 находим χ2 0 ,95 (1) = 3 ,841. Проверим гипотезу H0 о том, что вероятности p1 и p2 выпадения “герба” и “решки” равны 1 /2. На основании (18.3) получаем χ2 ( xn) = (2048 − 4040 · 0 ,5) 2 4040 · 0 ,5 + (1992 − 4040 · 0 ,5) 2 4040 · 0 ,5 = 0 ,776 .Так как 0 ,776 < 3 ,841, то статистические данные не противоречат гипотезе H0 87 Критерий χ2 для сложной гипотезы Пусть функция распределения дискретной случайной величины X, принимающей конечное множе- ство значений u1 , . . . , ur, зависит от неизвестного d-мерного вектора параметров θ. Тогда вероят- ность pkтого, что X примет возможное значение uk, зависит от θ, т.е. pk= pk( θ), k = 1 , r. А так как вероятности p1 ( θ), . . . , pr( θ) полностью определяют функцию распределения случайной величины X, то в рассматриваемом случае основная гипотеза принимает следующий вид: H0 : P {X = uk} = pk( θ) ,k = 1 , r,θ ∈ Θ ⊂ R d.Эту сложную гипотезу можно проверить при помощи модификации критерия χ2 Пирсона. Пусть b θ( xn) — значение оценки b θ( Xn) максимального правдоподобия для θ, а nk( xn) — количе- ство элементов выборки xn, равных uk, k = 1 , r. Оценку b θ( Xn) получают в результате минимизации логарифма функции правдоподобияL¡ Xn; θ¢ = n! n1 ! . . . nr! rY k=1 pnk( Xn) i( θ) ,rX i=1 ni( Xn) = n,как решение системы уравнений rX k=1 nk( Xn) pk( θ) ∂pk( θ) ∂θj= 0 ,j = 1 , d.Можно показать, что при некоторых предположениях о гладкости функций pk( θ), k = 1 , r, распре- деление случайной величины при n → ∞χ2 ( Xn) = rX i=1 ¡ ni( Xn) − npi(b θ( Xn)) ¢ 2 npi(b θ( Xn)) сходится к χ2 -распределению с r − d − 1 степенями свободы. Если X — непрерывная случайная величина с функцией распределения F ( t), то, разбивая мно- жество возможных значений X на конечное число непересекающихся подмножеств и переходя к дискретной случайной величине X0, можно проверить сложную гипотезу H0 : F ( t) ∈© F¡ t; θ¢ , θ ∈ Θ ⊂ R dª .Необходимо только помнить, что оценку максимального правдоподобия b θ( Xn) следует строить не по наблюдениям X1 , . . . , Xnслучайной величины X, а по значениям частот n1 ( x0n), . . . , nr( x0n) случайной величины X0, что, как правило, гораздо труднее. Построение такой оценки для наибо- лее распространенных параметрических семейств распределений (нормального, экспоненциального, пуассоновского и т.д.) можно найти в специальной литературе (См. Г. Крамер ). Критерий независимости, основанный на выборочном коэффициенте кор- реляции Пусть ( Xi, Yi), i = 1 , n — выборка из распределения нормального случайного вектора ( X, Y ). Обо- значим b ρ( Xn, Yn) = nP i=1 ( Xi− X)( Yi− Y ) s nP i=1 ( Xi− X) 2 s nP i=1 ( Yi− Y ) 2 выборочный коэффициент корреляции. При проверке статистической гипотезы H0 : ρ = 0 (т.е. гипотезы о том, что нормально распреде- ленные случайные величины независимы) используют статистику |