Глантз. Книга Primer of biostatistics fourth edition
Скачать 6.07 Mb.
|
Бег и менструации. Продолжение анализа Воспользуемся критерием Ньюмена-Кейлса для анализа связи частоты менструации с занятиями физкультурой и спортом. Сред- негодовое число менструаций в контрольной группе составило 11,5 у физкультурниц — 10,1 и у спортсменок 9,1. Упорядочим эти средние по возрастанию 9,1, 10,1, 11,5 (спортсменки физкуль- турницы контроль) и обозначим их 1 X , 2 X , 3 X соответственно. Оценка внутригрупповой дисперсии 2 вну s = 3,95, число степе- СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА 110 ней свободы n = 75, численность каждой группы 26 человек. Те- перь мы можем воспользоваться критерием Ньюмена—Кейлса. Сравним 3 X и 1 X . Имеем: 3 1 2 вну 3 1 11 5 9 1 6 157 3 95 1 1 1 1 2 26 26 2 X X q s n n − − = = = + + , , , , Интервал сравнения в данном случае l = 3 – 1 + 1 = 3. По таблице 4.ЗА находим, что для уровня значимости α′ = 0,05 числа степеней свободы ν = 75 и интервала сравнения l = 3 критическое ГЛАВА 4 ν 2 3 4 5 6 7 8 9 10 1 17,97 26,98 32,82 37,08 40,41 43,12 45,40 47,36 49,07 2 6,085 8,331 9,798 10,88 11,74 12,44 13,03 13,54 13,99 3 4,501 5,910 6,825 7,502 8,037 8,478 8,853 9,177 9,462 4 3,927 5,040 5,757 6,287 6,707 7,053 7,347 7,602 7,826 5 3,635 4,602 5,218 5,673 6,033 6,330 6,582 6,802 6,995 6 3,461 4,339 4,896 5,305 5,628 5,895 6,122 6,319 6,493 7 3,344 4,165 4,681 5,060 5,359 5,606 5,815 5,998 6,158 8 3,261 4,041 4,529 4,886 5,167 5,399 5,597 5,767 5,918 9 3,199 3,949 4,415 4,756 5,024 5,244 5,432 5,595 5,739 10 3,151 3,877 4,327 4,654 4,912 5,124 5,305 5,461 5,599 11 3,113 3,82 4,256 4,574 4,823 5,028 5,202 5,353 5,487 12 3,082 3,773 4,199 4,508 4,751 4,950 5,119 5,265 5,395 13 3,055 3,735 4,151 4,453 4,690 4,885 5,049 5,192 5,318 14 3,033 3,702 4,111 4,407 4,639 4,829 4,990 5,131 5,254 15 3,014 3,674 4,076 4,367 4,595 4,782 4,940 5,077 5,198 16 2,998 3,649 4,046 4,333 4,557 4,741 4,897 5,031 5,15 17 2,984 3,628 4,020 4,303 4,524 4,705 4,858 4,991 5,108 18 2,971 3,609 3,997 4,277 4,495 4,673 4,824 4,956 5,071 19 2,960 3,593 3,977 4,253 4,469 4,645 4,794 4,924 5,038 20 2,950 3,578 3,958 4,232 4,445 4,620 4,768 4,896 5,008 24 2,919 3,532 3,901 4,166 4,373 4,541 4,684 4,807 4,915 30 2,888 3,486 3,845 4,102 4,302 4,464 4,602 4,720 4,824 40 2,858 3,442 3,791 4,039 4,232 4,389 4,521 4,635 4,735 60 2,829 3,399 3,737 3,977 4,163 4,314 4,441 4,550 4,646 120 2,800 3,356 3,685 3,917 4,096 4,241 4,363 4,468 4,560 ∞ 2,772 3,314 3,633 3,858 4,030 4,170 4,286 4,387 4,474 Интервал сравнения l Таблица 4.3А. Критические значения q для α′ = 0,05 111 значение q равно 3,385, то есть меньше чем поучилось у нас. Следовательно, различие статистически значимо. Теперь сравним 3 X и 2 X 3 2 2 вну 3 2 11 5 10 1 3 592 3 95 1 1 1 1 2 26 26 2 X X q s n n − − = = = + + , , , , СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА Таблица 4.3Б. Критические значения q для α′ = 0,01 H. I. Наrtег. Order statistics and their use in testing and estimation. Vol. 1: Tests based on range and studentized range of samples from a normal population. U.S. Government Printing Office, Washington, D.C., 1970. ν 2 3 4 5 6 7 8 9 10 1 90,03 135 164,3 185,6 202,2 215,8 227,2 237 245,6 2 14,04 19,02 22,29 24,72 26,63 28,2 29,53 30,68 31,69 3 8,261 10,62 12,17 13,33 14,24 15 15,64 16,2 16,69 4 6,512 8,12 9,173 9,958 10,58 11,1 11,55 11,93 12,27 5 5,702 6,976 7,804 8,421 8,913 9,321 9,669 9,972 10,24 6 5,243 6,331 7,033 7,556 7,973 8,318 8,613 8,869 9,097 7 4,949 5,919 6,543 7,005 7,373 7,679 7,939 8,166 8,368 8 4,746 5,635 6,204 6,625 6,96 7,237 7,474 7,681 7,863 9 4,596 5,428 5,957 6,348 6,658 6,915 7,134 7,325 7,495 10 4,482 5,27 5,769 6,136 6,428 6,669 6,875 7,055 7,213 11 4,392 5,146 5,621 5,97 6,247 6,476 6,672 6,842 6,992 12 4,32 5,046 5,502 5,836 6,101 6,321 6,507 6,67 6,814 13 4,26 4,964 5,404 5,727 5,981 6,192 6,372 6,528 6,667 14 4,21 4,895 5,322 5,634 5,881 6,085 6,258 6,409 6,543 15 4,168 4,836 5,252 5,556 5,796 5,994 6,162 6,309 6,439 16 4,131 4,786 5,192 5,489 5,722 5,915 6,079 6,222 6,349 17 4,099 4,742 5,14 5,43 5,659 5,847 6,007 6,147 6,27 18 4,071 4,703 5,094 5,379 5,603 5,788 5,944 6,081 6,201 19 4,046 4,67 5,054 5,334 5,554 5,735 5,889 6,022 6,141 20 4,024 4,639 5,018 5,294 5,51 5,688 5,839 5,97 6,087 24 3,956 4,546 4,907 5,168 5,374 5,542 5,685 5,809 5,919 30 3,889 4,455 4,799 5,048 5,242 5,401 5,536 5,653 5,756 40 3,825 4,367 4,696 4,931 5,114 5,265 5,392 5,502 5,559 60 3,762 4,282 4,595 4,818 4,991 5,133 5,253 5,356 5,447 120 3,702 4,2 4,497 4,709 4,872 5,005 5,118 5,214 5,299 ∞ 3,643 4,12 4,403 4,603 4,757 4,882 4,987 5,078 5,157 Интервал сравнения l 112 ГЛАВА 4 Величины α′ и ν те же, что и раньше, но теперь l = 3 – 2 + 1 = 2. По таблице 4.3А находим критическое значение q = 2,822. Полу- ченное нами значение снова превосходит критическое. Различие статистически значимо. Для 2 X и 1 X имеем: 2 1 2 вну 2 1 10 1 9 1 2 566 3 95 1 1 1 1 2 26 26 2 X X q s n n − − = = = + + , , , , Величины α′, ν и l = 2 – 1 + 1 = 2 те же, что и в предыдущем сравнении, соответственно то же и критическое значение. Оно больше вычисленного, следовательно, различие статистически не значимо. В данном случае вывод не отличается от полученного при применении критерия Стьюдента с поправкой Бонферрони. КРИТЕРИИ ТЬЮКИ Критерии Тьюки совпадает с критерием Ньюмена-Кейлса во всем кроме способа определения критического значения. В кри- терии Ньюмена-Кейлса критическое значение q зависит от ин- тервала сравнения l. В критерии Тьюки при всех сравнениях вместо l берут число групп m, таким образом, критическое зна- чение q все время одно и то же. Критерий Ньюмена-Кейлса был разработан как усовершенствование критерия Тьюки. Применяя критерии Тьюки к только что рассмотренной за- даче о влиянии бега на частоту менструации нужно было бы приравнять l к числу групп m = 3. Соответствующее критичес- кое значение равно 3,385 и неизменно при всех сравнениях. В нашем примере при двух последних сравнениях критические значения по Тьюки будут больше чем по Ньюмену-Кейлсу. Од- нако в данном случае результат применения обоих критериев один и тот же. Разумеется, так будет не всегда. Поскольку в кри- терии Тьюки при всех сравнениях используется максимальное критическое значение q, различия будут выявляться реже, чем при использовании критерия Ньюмена-Кейлса. 113 * Этот материал важен для тех, кто использует нашу книгу как руко- водство для анализа данных. Во вводном курсе этот раздел можно опустить. СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА Критерий Тьюки слишком жесток и отвергает существование различий чаще, чем нужно, а критерий Ньюмена–Кейлса напро- тив слишком мягок. В общем, выбор критерия определяется ско- рее психологическим фактором, чего больше боится исследова- тель найти отличия там, где их нет или пропустить их там, где они есть. Автор предпочитает критерий Ньюмена–Кейлса. МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ С КОНТРОЛЬНОЙ ГРУППОЙ* Иногда задача заключается в том, чтобы сравнить несколько групп с единственной — контрольной. Конечно, можно было бы использовать любой из описанных методов множественного сравнения (критерий Стьюдента с поправкой Бонферрони, Нью- мена—Кейлса или Тьюки): попарно сравнить все группы, а за- тем отобрать те сравнения, в которых участвовала контрольная группа. Однако в любом случае (особенно при применении по- правки Бонферрони) из-за большого числа лишних сравнений критическое значение окажется неоправданно высоким. Ины- ми словами мы слишком часто будем пропускать реально суще- ствующие различия. Преодолеть эту трудность позволяют спе- циальные методы сравнения, из которых мы разберем два. Это еще одна модификация критерия Стьюдента с поправкой Бон- феррони и критерии Даннета. Как и другие методы множествен- ного сравнения их следует применять только после того, как с помощью дисперсионного анализа отвергнута нулевая гипоте- за о равенстве всех средних. Поправка Бонферрони Применить поправку Бонферрони к сравнению нескольких групп с одной контрольной очень просто. Ход вычислений такой же что и при применении поправки Бонферрони в общем случае. Надо только учесть, что число сравнений k составляет теперь 114 Т аб лица 4.4 А . Критиче ские зна чения q ′ для α′ = 0,05 Интерв ал сравнения l ν 2 3 4 5 6 7 8 9 10 11 12 13 16 21 5 2,57 3,03 3,29 3,48 3,62 3,73 3,82 3,90 3,97 4,03 4,09 4,14 4,26 4,42 6 2,45 2,86 3,10 3,26 3,39 3,49 3,57 3,64 3,71 3,76 3,81 3,86 3,97 4,1 1 7 2,36 2,75 2,97 3,12 3,24 3,33 3,41 3,47 3,53 3,58 3,63 3,67 3,78 3,91 8 2,31 2,67 2,88 3,02 3,13 3,22 3,29 3,35 3,41 3,46 3,50 3,54 3,64 3,76 9 2,26 2,61 2,81 2,95 3,05 3,14 3,20 3,26 3,32 3,36 3,40 3,44 3,53 3,65 10 2,23 2,57 2,76 2,89 2,99 3,07 3,14 3,19 3,24 3,29 3,33 3,36 3,45 3,57 11 2,20 2,53 2,72 2,84 2,94 3,02 3,08 3,14 3,19 3,23 3,27 3,30 3,39 3,50 12 2,18 2,50 2,68 2,81 2,90 2,98 3,04 3,09 3,14 3,18 3,22 3,25 3,34 3,45 13 2,16 2,48 2,65 2,78 2,87 2,94 3,00 3,06 3,10 3,14 3,18 3,21 3,29 3,40 14 2,14 2,46 2,63 2,75 2,84 2,91 2,97 3,02 3,07 3,1 1 3,14 3,18 3,26 3,36 15 2,13 2,44 2,61 2,73 2,82 2,89 2,95 3,00 3,04 3,08 3,12 3,15 3,23 3,33 16 2,12 2,42 2,59 2,71 2,80 2,87 2,92 2,97 3,02 3,06 3,09 3,12 3,20 3,30 17 2,1 1 2,41 2,58 2,69 2,78 2,85 2,90 2,95 3,00 3,03 3,07 3,10 3,18 3,27 18 2,10 2,40 2,56 2,68 2,76 2,83 2,89 2,94 2,98 3,01 3,05 3,08 3,16 3,25 19 2,09 2,39 2,55 2,66 2,75 2,81 2,87 2,92 2,96 3,00 3,03 3,06 3,14 3,23 20 2,09 2,38 2,54 2,65 2,73 2,80 2,86 2,90 2,95 2,98 3,02 3,05 3,12 3,22 24 2,06 2,35 2,51 2,61 2,70 2,76 2,81 2,86 2,90 2,94 2,97 3,00 3,07 3,16 30 2,04 2,32 2,47 2,58 2,66 2,72 2,77 2,82 2,86 2,89 2,92 2,95 3,02 3,1 1 40 2,02 2,29 2,44 2,54 2,62 2,68 2,73 2,77 2,81 2,85 2,87 2,90 2,97 3,06 60 2,00 2,27 2,41 2,51 2,58 2,64 2,69 2,73 2,77 2,80 2,83 2,86 2,92 3,00 120 1,98 2,24 2,38 2,47 2,55 2,60 2,65 2,69 2,73 2,76 2,79 2,81 2,87 2,95 ∞ 1,96 2,21 2,35 2,44 2,51 2,57 2,61 2,65 2,69 2,72 2,74 2,77 2,83 2,91 115 Т аб лица 4.4 Б . Критиче ские зна чения q ′ для α′ = 0,01 С . W , Dunnett. New tables for multiple comparisons with a control. Biometrics, 20:482—491, 1964. Интерва л сравнения l ν 2 3 4 5 6 7 8 9 10 11 12 13 16 21 5 4,03 4,63 4,98 5,22 5,41 5,56 5,69 5,80 5,89 5,98 6,05 6,12 6,30 6,52 6 3,71 4,21 4,51 4,71 4,87 5,00 5,10 5,20 5,28 5,35 5,41 5,47 5,62 5,81 7 3,50 3,95 4,21 4,39 4,53 4,64 4,74 4,82 4,89 4,95 5,01 5,06 5,19 5,36 8 3,36 3,77 4,00 4,17 4,29 4,40 4,48 4,56 4,62 4,68 4,73 4,78 4,90 5,05 9 3,25 3,63 3,85 4,01 4,12 4,22 4,30 4,37 4,43 4,48 4,53 4,57 4,68 4,82 10 3,17 3,53 3,74 3,88 3,99 4,08 4,16 4,22 4,28 4,33 4,37 4,42 4,52 4,65 11 3,1 1 3,45 3,65 3,79 3,89 3,98 4,05 4,1 1 4,16 4,21 4,25 4,29 4,30 4,52 12 3,05 3,39 3,58 3,71 3,81 3,89 3,96 4,02 4,07 4,12 4,16 4,19 4,29 4,41 13 3,01 3,33 3,52 3,65 3,74 3,82 3,89 3,94 3,99 4,04 4,08 4,1 1 4,20 4,32 14 2,98 3,29 3,47 3,59 3,69 3,76 3,83 3,88 3,93 3,97 4,01 4,05 4,13 4,24 15 2,95 3,25 3,43 3,55 3,64 3,71 3,78 3,83 3,88 3,92 3,95 3,99 4,07 4,18 16 2,92 3,22 3,39 3,51 3,60 3,67 3,73 3,78 3,83 3,87 3,91 3,94 4,02 4,13 17 2,90 3,19 3,36 3,47 3,56 3,63 3,69 3,74 3,79 3,83 3,86 3,90 3,98 4,08 18 2,88 3,17 3,33 3,44 3,53 3,60 3,66 3,71 3,75 3,79 3,83 3,86 3,94 4,04 19 2,86 3,15 3,31 3,42 3,50 3,57 3,63 3,68 3,72 3,76 3,79 3,83 3,90 4,00 20 2,85 3,13 3,29 3,40 3,48 3,55 3,60 3,65 3,69 3,73 3,77 3,80 3,87 3,97 24 2,80 3,07 3,22 3,32 3,40 3,47 3,52 3,57 3,61 3,64 3,68 3,70 3,78 3,87 30 2,75 3,01 3,15 3,25 3,33 3,39 3,44 3,49 3,52 3,56 3,59 3,62 3,69 3,78 40 2,70 2,95 3,09 3,19 3,26 3,32 3,37 3,41 3,44 3,48 3,51 3,53 3,60 3,68 60 2,66 2,90 3,03 3,12 3,19 3,25 3,29 3,33 3,37 3,40 3,42 3,45 3,51 3,59 120 2,62 2,85 2,97 3,06 3,12 3,18 3,22 3,26 3,29 3,32 3,35 3,37 3,43 3,51 ∞ 2,58 2,79 2,92 3,00 3,06 3,1 1 3,15 3,19 3,22 3,25 3,27 3,29 3,35 2,42 116 m – 1 и соответственно рассчитать уровень значимости в каж- дом из сравнений α = α′/k. Применим этот метод к исследо- ванию частоты менструаций. Сравним спортсменок и физкуль- турниц с контрольной группой. Число сравнений k – 2 (а не 3 как при всех возможных сравнениях). Чтобы полная вероятность ошибочно обнаружить различия не превышала 0,05 при каж- дом сравнении, уровень значимости должен быть 0,05/2 = 0,025 (вместо 0,05/3 = 0,017). Число степеней свободы — 75; крити- ческое значение t = 2,31 (при всех возможных сравнениях оно бы составило 2,45). Величину l для сравнения физкультурниц и спортсменок с контролем мы уже рассчитывали — 2,54 и 4,35 соответственно. Таким образом, и спортсменки и физкультур- ницы статистически значимо отличаются от контрольной груп- пы. В данном случае вывод получился тот же, что и при приме- нении поправки Бонферрони в общем случае. Ясно, однако, что за счет снижения критического уровня t чувствительность ме- тода повышается. Обратите внимание, что в данном случае мы не делаем никакого заключения о различии спортсменок и физ- культурниц. Критерии Даннета Критерии Даннета — это вариант критерия Ньюмена–Кей- лса для сравнения нескольких групп с одной контрольной. Он вычисляется как кон 2 вну кон 1 1 A A X X q s n n − ′ = + Число сравнении равно числу групп не считая контрольной, и существенно меньше числа сравнений в исходном критерии Нью- мена–Кейлса. Соответственно меньше и критические значения (табл. 4.4). Как и в критерии Ньюмена–Кейлса сначала средние значения для всех групп упорядочиваются только теперь — по аб- солютной величине их отличия от контрольной группы. Затем кон- трольную группу сравнивают с остальными начиная с наиболее отличной от контрольной. Если различия с очередной группой не найдены вычисления прекращают. Параметр l постоянен и равен ГЛАВА 4 117 числу групп включая контрольную. Число степеней свободы вы- числяют как в критерии Ньюмена–Кейлса: ν = N – m. Применим критерий Даннета к анализу влияния бега на мен- струации. Сначала сравним с контрольной наиболее от нее от- личную группу спортсменок: кон 1 2 вну кон 1 11 5 9 1 4 35 1 1 1 1 3 95 26 26 , , , , X X q s n n − − ′ = = = + + Общее число средних равно трем, поэтому l = 3. Число степе- ней свободы равно 75. По таблице 4.4 находим критическое зна- чение для уровня значимости 0,05. Оно равно 2,28. Вычисленное значение больше критического. Тем самым различие между спорт- сменками и контрольной группой статистически значимо и срав- нения можно продолжать. Теперь сравним с контрольной группу физкультурниц кон 2 2 вну кон 2 11 5 10 1 2 54 1 1 1 1 3 95 26 26 , , , , X X q s n n − − ′ = = = + + Критическое значение, q ′ по-прежнему равно 2,28. Вычис- ленное значение больше. Различие между физкультурницами и контрольной группой статистически значимо. Критерии Даннета, как вариант критерия Ньюмена-Кейлса более чувствителен, чем критерий Стьюдента с поправкой Бон- феррони, особенно при большом числе групп. Если бы групп было больше, мы убедились бы, что критерии Ньюмена-Кейлса обнаруживает те различия, которые упускает критерии Стью- дента с поправкой Бонферрони завышающей критические значе- ния t. ЧТО ОЗНАЧАЕТ Р Поговорим еще раз о вероятности справедливости нулевой гипо- тезы Р. Понимание смысла Р требует понимания логики провер- ки статистической гипотезы. Например, исследователь хочет СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА 118 узнать, влияет ли некий препарат на температуру тела. Очевид- ная схема эксперимента: взять две группы, одной дать препарат другой плацебо измерить температуру и вычислить для обеих групп среднюю температуру и стандартное отклонение. Сред- ние температуры вряд ли совпадут, даже если препарат не обла- дает никаким действием. Поэтому естественен вопрос сколь ве- роятно, что наблюдаемое различие случайно? Для ответа на этот вопрос, прежде всего, нужно выразить раз- личия одним числом — критерием значимости. Со многими из них мы уже встречались — это критерии F, t, q и q ′. Значение критерия тем больше, чем больше различия. Если препарат не оказывает действия, то величина критерия будет мала, если ока- зывает — велика. Но что значит «мала» и что значит «велика»? Чтобы разграничить «большие» и «малые» значения крите- рия, строится предположение, что препарат не оказывает влия- ния на температуру. Это так называемая нулевая гипотеза. Если нулевая гипотеза верна, то обе группы можно считать просто случайными выборками из одной и той же совокупности. Далее эксперимент мысленно проводится на всех возможных выбор- ках, и для каждой пары вычисляется значение критерия. Чаше всего оно будет небольшим, но какая-то часть выборок даст весь- ма высокие значения. При этом мы сможем указать такое число (критическое значение), выше которого значение критерия, ока- зывается, скажем, в 5% случаев. Теперь вернемся к препарату и вычислим значение крите- рия. Если оно превышает критическое значение, то мы можем утверждать следующее, если бы нулевая гипотеза была спра- ведлива, то вероятность получить наблюдаемые различия была бы меньше 5%. В принятой системе обозначений это записыва- ется как Р < 0,05. Отсюда мы заключаем, что гипотеза об отсут- ствии влияния препарата на температуру вряд ли справедлива, то есть различия статистически значимы (при 5% уровне зна- чимости). Разумеется, этот вывод по сути своей носит вероят- ностный характер. Не исключено, что мы ошибочно признаем неэффективный препарат эффективным, то есть найдем разли- чия там, где их нет. Однако мы можем утверждать, что вероят- ность подобной ошибки не превышает 5%. Дадим определение Р. ГЛАВА 4 119 Р есть вероятность того, что значение критерия окажется не меньше критического значения при условии справедливости нулевой гипотезы об отсутствии различий между группами. Определение можно сформулировать и по-другому. Р есть вероятность ошибочно отвергнуть нулевую гипоте- зу об отсутствии различий. Упрощая, можно сказать, что Р — это вероятность справед- ливости нулевой гипотезы. Часто говорят также, что Р — это ве- роятность ошибки. В общем, и это верно, однако несколько не- точно. Дело в том, что существует два рода ошибок. Ошибка I рода — это ошибочное заключение о существовании различий, которых в действительности нет. Вероятность именно этой оце- нивает P. Возможна и противоположная ошибка — принять не- верную нулевую гипотезу то есть не найти действительно суще- ствующее различие. Это гак называемая ошибка II рода. О веро- ятности этой ошибки P ничего не говорит, мы обсудим ее в гл. 6. ЗАДАЧИ |