Лекции по теме Статистическое оценивание и проверка гипотез
Скачать 0.85 Mb.
|
6.5 . Интервальное оценивание Различные статистики, получаемые в результате вычислений, представля- ют собой точечные оценки соответствующих параметров. В предыдущем пара- графе указывалось, что если из генеральной совокупности извлечь некоторое количество выборок и для каждой из них найти интересующую нас статистику, то вычисленные значения будут представлять собой случайные величины, имеющие некоторый разброс вокруг оцениваемого параметра. Как правило, в результате эксперимента в распоряжении исследователя имеется одна выбор- ка, поэтому требуется получить интервальную оценку, т. е. интервал, внутри которого, как можно предположить, лежит истинное значение параметра. 184 Для примера интервального оценивания рассмотрим x как оценку μ. Нам известно, что если выборки извлекаются из генеральной совокупности с параметрами μ и σ 2 ,то распределение выборочных x будет иметь среднее, равное μ, и дисперсию σ 2 /п и будет стремиться к нормальному (рис. 6.17). Рис. 6.17. Распределение выборочных x , имеющее среднее, равное μ, дисперсию σ 2 /п Для такого распределения 68 % наблюдений лежит в пределах одного стандартного отклонения, относительно μ, т. е. в пределах μ ± / n (стандарт- ное отклонение выборочного распределения x не что иное, как стандартная ошибка среднего). Соответственно, в пределах μ ± 2 / n и μ ± 3 / n лежит около 95 и 99 % всех возможных значений выборочных средних. (Коэффициен- ты 2 и 3 взяты для упрощения, точные их значения равны 1,96 и 2,58). Отсюда следует вывод, что если, например, 95 % значений x расположено внутри ин- тервала ± 2 / n относительно μ, то 2 / x n , где x вычислено по одной вы- борке из генеральной совокупности с параметрами μ и σ 2 ,дает интервал, кото- рый заключает μ в своих границах (рис. 6.17). Сделанный вывод допускает и следующую формулировку: вероятность Р того, что расстояние от x до μ,измеренное в единицах стандартной ошибки, больше или меньше 2 1 z , равна 1 – , т.е. 2 2 1 1 1 P x z x z n n (6.1) f( x ) – 3 / n – 2 / n – / n + / n + 2 / n + 3 / n x 68 % 95 % 185 Для выборок достаточно большого объема распределение x приближается к нормальному. Следовательно, используя соответствующую таблицу площа- дей под кривой стандартного нормального распределения, можно определить значения ±z, между которыми заключена интересующая нас часть площади. Оставшуюся часть площади обозначим через . В силу того, что кривая рас- пределения симметрична, слева от –z и справа от z будет находиться по /2 ча- сти площади стандартного нормального распределения. Табличные значения z даны в единицах стандартного отклонения, которое для стандартизованного нормального распределения равно единице. Следовательно, чтобы найти инте- ресующую нас часть площади 1 – под кривой нормального распределения с произвольными параметрами, необходимо табличные значения 2 1 z умножить на величину стандартного отклонения, которое в нашем случае равно / n . Величина 1 – = Р носит название доверительной вероятности, а сам довери- тельный интервал, т. е. интервал, внутрь которого с заданной доверительной вероятностью попадает истинное значение параметра (рис. 6.18), задается вы- ражением 2 1 x z n (6.2) Рис. 6.18. Распределение выборочных x и доверительный интервал 1, 64 x n f( x ) 1, 64 x n x 1, 64 x n x 1, 64 n 1, 64 n 186 ПРИМЕР 6.3.Пусть п = 144, σ 2 = 49, а доверительная вероятность произ- вольно выбрана равной 0,91, т. е. Р = 1 – = 0,91. Отсюда = 0,09. Из [1] доля /2 = 0,045 (или 4,5 %) площади под единичной нормальной кривой лежит сле- ва от значения z = 1,7. Следовательно, z 0,955 = 1,7. Пусть среднее этой выборки равно 18,2. Тогда доверительный интервал для μравен: 1 2 7 18, 2 1,7 18, 2 0,992 (17, 208;19,192) 12 x z n Замечание.На практике дисперсия генеральной совокупности неизвестна. Поэтому вместо σ 2 обычно используют s 2 , вычисленную по выборке, и вместо таблиц стандартного нормального распределения пользуются таблицами рас- пределения Стьюдента. Рассмотренные принципы построения доверительных интервалов справед- ливы, естественно, не только для средних, но и для всех других статистик, для которых показано, что распределение их выборочных значений приближа- ется к нормальному. Требование нормальности является принципиальным,так как только при его выполнении имеет смысл приведенная выше процедура построения довери- тельных интервалов. Как правило, для большинства статистик это требование выполняется, но не для всех. В частности, нормальность выборочных коэффи- циентов корреляции имеет место только для случая, когда в двумерной гене- ральной совокупности, из которой извлекаются выборки с последующим вы- числением r xy , = 0. Для других значений ρ распределение выборочных коэф- фициентов корреляции имеет большую асимметрию и может быть аппроксими- ровано кривой нормального распределения (рис. 6.19). Тем не менее, интервальное оценивание возможно и в этом случае, но при использовании не самих выборочных коэффициентов корреляции, а не- которых преобразованных величин. 187 Рис. 6.19. Распределение выборочных коэффициентов корреляции для = 0,8, n =20 Р. Фишером было показано, что величина 1 1 ln , 2 1 r r z r (6.3) где r – выборочный коэффициент корреляции, имеет нормальное распределе- ние со средним, равным z , и стандартным отклонением 1/ 3 n (для просто- ты индекс «ху»у коэффициента корреляции опущен). Рассмотрим пример построения доверительного интервала для r с исполь- зованием z-преобразования Фишера. Значения z для различных значений ко- эффициента корреляции приведены в [1]. Пусть число пар значений, по которым вычислялось r, равно 12, а само по- лученное значение коэффициента корреляции равно 0,79. Необходимо постро- ить доверительный интервал для r, который с доверительной вероятностью Р = 0,95 накрывал бы истинное значение параметра ρ. Преобразуем r в z r . Для r = 0,79 имеем z r = 1,07. Преобразованная величина z r , как уже было сказано выше, имеет нормальное распределение со стандарт- ным отклонением 1/ 3 z n . Так как z 1– /2 = z 0,975 = 1,96, то доверительный интервал для z r будет равен: z r , ± z 1– /2 z = 1,07 ± 1,96 1 12 3 = 1,07 ± 0,653 = (0,418; 1,723). f(r) 0 0,25 0,5 0,75 1 r 188 Теперь, вновь используя z-преобразования (6.3), можно перейти к значени- ям r. Доверительные пределы для коэффициента корреляции будут приближен- но равны (0,395; 0,938). В заключение этого параграфа приведем формулы для стандартных оши- бок некоторых статистик и те условия, при выполнении которых распределения выборочных значений этих статистик приближаются к нормальным, и, следова- тельно, для них можно строить доверительные интервалы по описанным выше правилам. 1. Медиана (Md) – 2 Md n . Здесь п – число значений в выборке, – стандартное отклонение генеральной совокупности. Формула справедлива, если генеральная совокупность симметрична, а п 30. 2. Стандартное отклонение ( ) – 2 n . Распределение выборочных стандартных отклонений близко к нормальному, когда п 100 и исходная гене- ральная совокупность нормальна. 3. Коэффициент вариации (сv)– 2 4 2( ) 1 10 2 cv cv cv n Вторым сомножителем в этом выражении можно ввиду его малости пре- небречь, тогда 2 cv cv n . Ограничения те же, что и для стандартного отклонения. 4. Коэффициенты регрессии (а и b) – a n , 2 ( ) b x x , где – стандартное отклонение зависимой переменной у,которая должна иметь обязательно нормальное распределение с параметром 2 для всех значений не- зависимой переменной х. 189 5. Для дихотомической случайной переменной, в которой доля объектов вида А представляет собой величину р А = п А /п, где п А и п – соответственно, чис- ло объектов вида А и общее число объектов (1 ) , p n где в данном случае через обозначена доля объектов вида А в генеральной со- вокупности. 6.6 . Проверка статистических гипотез После проведения эксперимента в распоряжении исследователя имеется некоторое множество значений измеренных показателей, и возникает вопрос, какие выводы о свойствах генеральной совокупности можно сделать по этим выборочным наблюдениям. Первым шагом в решении поставленной задачи может быть вычисление различных статистических оценок и построение для них доверительных интервалов. Вторым обязательным шагом является провер- ка выдвигаемых статистических гипотез [1–3]. Нужно четко представлять себе разницу между гипотезой в обычном по- нимании и статистической гипотезой. Статистическая гипотеза – это любое предположение относительно распределения наблюдаемых случайных величин, в то время как в других областях знаний гипотеза – предположительное сужде- ние о закономерной, причинной связи явлений. Пусть, например, при изучении взаимосвязи между двумя переменными получена выборкаиз двумерной генеральной совокупности и рассчитан коэф- фициент корреляции. Будем считать, что эта выборка достаточно представи- тельна (репрезентативна), т. е.хорошо отражает свойства всей генеральной со- вокупности. Имея в своем распоряжении выборочный коэффициент корреляции r, исследователь выдвигает статистическую гипотезу о том, что коэффициент корреляции генеральной совокупности равен какому-то значению, например нулю. Формально это записывается так: H: = 0. (Буквой H обозначается ста- тистическая гипотеза). Процедура, которая будет использоваться для принятия 190 решения об истинности или ложности сформулированной статистической гипо- тезы, называется проверкой гипотезы. Итак, если вычисленное значение r 0, значит ли это, что Н ошибочна? Выборочные значения различных статистик, в том числе и коэффициента корреляции, представляют собой случайные величины, имеющие порой до- вольно большой разброс, поэтому даже в том случае, когда = 0, вычисленные по выборке значения могут существенно отличаться от нуля. Следовательно, утверждать с уверенностью по полученному значению r,равен или не равен нулю коэффициент корреляции (и это зависит от объема выборки), экспери- ментатор не может. Эти соображения составляют один из основных принципов, лежащих в основе проверки статистических гипотез: при проверке любой ста- тистической гипотезы решение никогда не принимается с абсолютной уверен- ностью, всегда существует риск принятия неправильного решения. Именно в контроле и оценке этого риска состоит сущность проверки статистических гипотез. Если выборочные значения представляют собой случайные величины, то возможно получение любого значения в нашем случае для коэффициента корреляции в диапазоне ±l. Однако некоторые значения более, а другие менее вероятны. В частности, выборочная плотность распределения коэффициентов корреляции для выборок объемом 100 (рис. 6.20) показывает, что, если в гене- ральной совокупности = 0,14, получение выборочных значений, например r = 0,4 или r = –0,2, весьма маловероятно, хотя полностью их исключить нельзя. Какой вывод можно из этого сделать? Пусть, например, получено выбо- рочное значение r = 0,5. С одной стороны, такое значение должно способство- вать отклонению гипотезы Н: = 0 ввиду ничтожной вероятности его появле- ния, если истинное значение коэффициента корреляции, в самом деле, равно 0,1. Эта вероятность, конечно же, очень мала, но все-таки не равна нулю. 191 Рис. 6.20. Выборочная плотность распределения коэффициента корреляции для = 0,14 С другой стороны, истинное значение вгенеральной совокупности на самом деле нам неизвестно. А если, например, = 0,3? В этом случае появление выборочного значения r = 0,5 не такое уж маловероятное событие. А какое-то решение принимать надо. Поэтому вводят следующие понятия: ошибки первого и второго рода. Вернемся к примеру. Если, в самом деле, = 0 и выдвинута гипотеза Н: = 0, но получив значение r = 0,5, мы ее отвергаем (а сделать это можно, по- скольку и такое значение, хотя и очень редко, может появиться), возникает ошибка первого рода. Пусть выдвинута та же гипотеза Н: = 0, в то время как истинное значе- ние генеральной совокупности равно, например, –0,3, и мы, получив значение r = 0,12,примем ее. Появляется ошибка второго рода. Таким образом, при проверке статистических гипотез существует четыре возможности: 1. Гипотезаверна, и она принимается. 2. Гипотезаверна, но она отвергается (ошибка первого рода). 3. Гипотезаневерна, и она отвергается. 4. Гипотезаневерна, но она принимается (ошибка второго рода). = 0,14 –0,2 –0,1 0 0,1 0,2 0,3 0,4 r –0,14 0,14 Р 192 Ошибки первого и второго рода существенно различаются между собой по значимости, и это оказывает большое влияние на всю процедуру проверки статистических гипотез. Необходимо еще раз подчеркнуть, что никакая гипотеза не может быть окончательно принята или отвергнута. Поэтому используемые в дальнейшем категорические утверждения «принять» и «отвергнуть» являются просто услов- ными сокращениями выражений вида «опытные данные не противоречат вы- двинутой гипотезе» и «опытные данные противоречат выдвинутой гипотезе». Основные этапы проверки статистических гипотез: 1. Формулируется проверяемая гипотеза, например Н: = 0. В силу исто- рической традиции проверяемая гипотеза носит название нуль-гипотезы. 2. Делаются некоторые предположения относительно выборочного рас- пределения статистики, с помощью которой планируется оценивать параметр, входящий в гипотезу. 3. Принимается степень риска отвергнуть выдвинутую гипотезу, если она верна. Этот риск называется уровнем значимости проверки гипотезы и выра- жается как вероятность. Из определения уровня значимости следует, что его величина определяет уровень ошибки первого рода. Уровень значимости опре- деляет также критические области, т.е. области, попадание в которые выбо- рочного значения статистики, оценивающей параметр, приводит к тому, что сформулированная гипотеза отвергается. Критические области и область принятия гипотезы для Н : = 0 и = 0,05 приведены на рис. 6.21. 4. Извлекается выборка; рассчитывается значение интересующей нас ста- тистики; определяется, в какую область, критическую или допустимую, она по- пала, и на основании этого принимается решение относительно истинности ги- потезы Н. Решение принимается с использованием критерия для проверки ста- тистической гипотезы, который представляет собой правило для определения ложности или истинности выдвинутой гипотезы. 193 Рис. 6.21. Область принятия гипотезы (95 %) и критическая область (5 %) Уровнем значимости, а значит, и вероятностью ошибки первого рода мож- но управлять. В принципе, мы можем установить любую приемлемую для нас степень риска для неправильного вывода на основе выборочных дан- ных об ошибочности выдвинутой гипотезы. Поэтому на первый взгляд кажется целесообразным выбирать уровень значимости как можно меньшим, так как в этом случае вероятность отвергнуть правильную гипотезу будет минимальной. Однако, сформулировав проверяемую гипотезу, мы не знаем, верна ли она. По- этому уменьшение вероятности ошибки первого рода автоматически будет приводить к увеличению вероятности ошибки второго рода. Поясним это на примере. Обозначим нуль-гипотезу о том, что = 0, через Н 0 : = 0, а альтернатив- ную ей гипотезу – H 1 : 0. Предположим, что на самом деле истинное значе- ние = 0,20 и извлекается выборка объемом п = 200. На рис. 6.22 кривые пред- ставляют собой распределения выборочных коэффициентов корреляции для ге- неральных совокупностей с = 0 и = 0,2. Изрис. 6.22 видно, что если вы- брать уровень значимости = 0,05, то в случае истинности = 0 появление вы- борочных значений, больших 0,14 или меньших –0,14, возможно только в пяти случаях из ста, и для таких значений гипотеза Н 0 будет отвергаться. Все же остальные значения r, попадающие в интервал (–0,14; 0,14), будут при- водить к принятию Н 0 Р 194 Рис. 6.22. Распределения выборочных коэффициентов корреляции для генеральных совокупностей при = 0 (1) и = 0,2 (2) Но что будет, если на самом деле = 0,20? Тогда нуль-гипотезу Н 0 : = 0 следовало бы отклонить в пользу альтернативной гипотезы Н 1 : 0, и это бу- дет делаться для значений r > 0,14 (область со штриховкой). Площадь этой заштрихованной области численно равна вероятности от- вергнуть неправильную гипотезу, а сама эта вероятность (1 – ) носит название мощности выбранного критерия, в данном случае критерия = 0,20. С другой стороны, если мы приняли Н 0 : = 0, в то время как справедлива Н 1 : = 0,20, такие значения, как r = 0,1, будут свидетельствовать в пользу этой неправильной гипотезы, т. е. будет совершаться ошибка второго рода. Из рис. 6.22 видно, что площадь под кривой 2, соответствующая выборочным значениям r < 0,14 и перекрывающаяся с областью принятия гипотезы Н 0 : = 0, довольно значительна (в данном случае она равна 18 %). Поэтому и вероят- ность принять неправильную гипотезу о том, что = 0, численно равная этой площади, тоже велика. При этом мы видим, что если уровень значимости вы- брать еще меньше, то вероятность ошибки второго рода еще больше возрас- тает, а мощность критерия (1 – ) уменьшается. Таким образом, становится ясно, что уровень значимости и мощность кри- терия связаны между собой, причем связь эта нелинейная. Поэтому произволь- -0,2 -0,1 0 0,1 0,2 0,3 0,4 r -0,14 0,14 Н 0 верна = 0 /2 = 0,2 Р 195 но по нашему усмотрению изменять уровень значимости нельзя, так как не- оправданное уменьшение ошибки первого рода может привести к существен- ной потере мощности критерия для проверки статистической гипотезы. Наиболее часто в статистической практике используются уровни значимо- сти = 0,05 и = 0,01, потому что они обеспечивают разумный компромисс между ошибками первого и второго рода. Но абсолютизировать эти уровни значимости нельзя. Вообще, приемлемый уровень значимости необходимо вы- бирать, исходя из условий решаемой исследовательской задачи. ПРИМЕР 6.4.Пусть испытывается вновь созданный лекарственный препа- рат, действие которого направлено на поддержание некоторого существенного для жизни показателя в определенных пределах. Испытывая этот препарат, можно, например, выдвинуть гипотезу, что он в самом деле удерживает среднее значение показателя в нужных пределах. И если был выбран уровень значимо- сти = 0,05, то в случае справедливости выдвинутой гипотезы она будет от- вергаться в одном случае из двадцати. Но если гипотеза неверна, то при таком уровне ошибки первого рода уровень ошибки второго рода будет достаточно высок, а это значит, что мы можем принять неправильную гипотезу во многих случаях, когда препарат не выполняет своих функций. Естественно, что это не- допустимо, когда речь идет о здоровье или жизни людей. Поэтому в этих слу- чаях нужно выбирать уровень значимости, по крайней мере, = 0,10 или даже еще больше, чтобы свести риск принятия неправильной гипотезы к минималь- ному значению. Правда, при этом мы значительно чаще будем отвергать пра- вильную гипотезу, и возможно, что для ее окончательной проверки понадобит- ся провести значительно больше экспериментов. Это будет, конечно, связано с дополнительными затратами, но в случаях, аналогичных вышеприведенному, эти соображения всегда должны отодвигаться на второй план. ПРИМЕР 6.5. С другой стороны, может встретиться прямо противополож- ная ситуация, когда уровень значимости нужно выбирать меньше даже чем 0,01. Это может потребоваться в тех случаях, когда проверяются статистиче- ские гипотезы о некоторых параметрах, выборочные статистики для которых 196 получаются при проведении экспериментов, направленных на поиск новых эф- фектов, предсказываемых теорией или связанных с использованием уникально- го оборудования. В этих случаях экспериментатору очень важно не упустить эффект, если он есть. Поэтому он может предусмотреть, чтобы выдвигаемая им, и как он считает, правильная гипотеза отвергалась не более чем в одном случае из тысячи. При этом экспериментатор должен отдавать себе полный отчет в том, что существенно возрастает ошибка второго рода, т.е. вероятность при- нять выдвигаемую гипотезу, даже если она неверна, со всеми вытекающими от- сюда последствиями. Варьируя уровень значимости и число наблюдений n, можно в каждом конкретном случае выбрать разумный компромисс между и мощностью кри- терия 1 – , помня при этом, что мощность критерия для проверки статистиче- ской гипотезы возрастает с увеличением n и КОНТРОЛЬНЫЕ ВОПРОСЫ 1. Если выборки извлекаются из генеральной совокупности с параметрами μ и σ 2 ,то к какому виду будет стремиться распределение и чему будут равны среднее и дисперсия? 2. Что такое доверительный интервал? 3. К какому виду распределения приближается среднее для выборок доста- точно большого объема? 4. Что такое доверительная вероятность? 5. Для каких видов распределения строят доверительные интервалы? 6. Почему при построении доверительного интервала для коэффициента кор- реляции используют z-преобразование Фишера? 7. Дайте определение статистической гипотезе. 8. Что означает фраза: «выборка достаточно представительна (репрезента- тивна)»? 9. Что такое проверка статистической гипотезы? 197 10. Перечислите выводы, которые можно сделать при проверке статистиче- ских гипотез? 11. Что такое уровень значимости проверки гипотезы? 12. Что такое критические области? БИБЛИОГРАФИЧЕСКИЙ СПИСОК 1. Владимирский Б. М., Горстко А. Б., Ерусалимский Я. М. Математика. Об- щий курс : учебник для вузов. СПб. : Лань, 2008. 960 с. 2. Компьютерный анализ и интерпретация эмпирических зависимостей : учебник / С. В. Поршнев [и др.]. М.: Бином-Пресс, 2009. 336 с. 3. Лисиенко В. Г., Трофимова О. Г., Трофимов С. П., Дружинина Н. Г., Дюгай П. А. Моделирование сложных вероятностных систем : учеб. посо- бие. Екатеринбург : УГТУ–УПИ, 2011. 200 с. 198 СОДЕРЖАНИЕ 6. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ ................ 158 6.1. Теоретические распределения, используемые в статистических выводах ......................................................................... 158 6.1.1. Распределение хи-квадрат .................................................................... 160 6.1.2. F-распределение .................................................................................... 162 6.1.3. Распределение Стьюдента .................................................................... 164 6.1.4. Биномиальное распределение .............................................................. 165 6.1.5. Распределение Пуассона ...................................................................... 165 6.1.6. Распределение Эрланга ......................................................................... 169 6.2. Выборочные распределения ........................................................................ 171 6.3. Идентификация параметров распределения случайной величины ........ 175 6.3.1. Использование метода наименьших квадратов ................................. 175 6.3.2. Использование числовых характеристик выборки ............................ 176 6.4. Генерация случайных величин ................................................................... 180 6.4.1. Метод «обратной» функции ................................................................. 180 6.4.2. Генерация двумерных случайных величин ........................................ 181 6.5. Интервальное оценивание ........................................................................... 183 6.6. Проверка статистических гипотез .............................................................. 189 КОНТРОЛЬНЫЕ ВОПРОСЫ ................................................................................ 196 БИБЛИОГРАФИЧЕСКИЙ СПИСОК .................................................................... 197 Учебное электронное текстовое издание Трофимова Ольга Геннадиевна СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ Редактор Подготовка к публикации О.Г. Трофимовой Рекомендовано Методическим советом Разрешено к публикации 01.3.2016 Электронный формат – pdf Объем 2,15 уч.-изд. л. 620002, Екатеринбург, ул. Мира, 19 Информационный портал УрФУ http://www.ustu.ru |