Глантз. Книга Primer of biostatistics fourth edition
Скачать 6.07 Mb.
|
Рис. 6.10. Чувствительность дисперсионного анализа как функция от парамет- ра нецентральности ϕ при уровне значимости α = 0,05 и межгрупповом числе степеней свободы ν меж = 2. В приложении Б вы найдете аналогичные графики для других значений α и ν меж E. S. Pearson, H. O. Hartley. Charts for power function for analysis of variance tests, derived from the non-central F distribution. Biometrika, 38:112–130, 1951 184 ленность групп должна увеличиться в 2 2 = 4 раза. Таким обра- зом, нужно, чтобы в каждую из групп входило по 100 человек. Тогда 1 100 2,04 2 2 3 ϕ = = × и ν вну = k(n – 1) = 3(100 – 1) = 297. По рис. 6.10 находим, что в этом случае чувствительность составит 0,88, то есть даже боль- ше, чем мы хотели. Поскольку стандартное отклонение может оказаться больше, чем мы думали, некоторый избыток чувстви- телности нам не помешает, однако резонно спросить, где же и на какие средства мы наберем такие группы. Нельзя ли хоть не- много сократить их численность? Попробуем n = 75. Тогда 1 75 1,77 2 2 3 ϕ = = × и ν вну = 3(75 – 1) = 222 . Рис. 6.10 показывает, что теперь чув- ствительность равна 0,80. Таким образом, для того чтобы при уровне значимости α = 0,05 с вероятностью 80% обнаружить в трех группах разли- чие в одну менструацию в год, когда стандартное отклонение пред- положительно составляет 2 менструации в год, нужно набрать группы по 75 человек. ЧУВСТВИТЕЛЬНОСТЬ ТАБЛИЦ СОПРЯЖЕННОСТИ* Графиками с рис. 6.10 (и из приложения Б) можно воспользоваться для нахождения чувствительности и объема выборки при работе с таблицами сопряженности**. Сначала нужно решить, какое ми- нимальное различие вы хотели бы обнаружить. В случае таблиц сопряженности это означает, что вам нужно заполнить клетки не- * Во вводном курсе этот раздел можно опустить. ** Таблицу сопряженности 2 × 2 можно рассматривать как задачу сравнения двух долей. Как в этом случае вычислить чувствительность и объем вы- борки, вы поймете, решив задачу 6.6. Более подробно этот вопрос изло- жен в работе: A. F Feinstem. Clinical biostatistics. Mosby, St. Louis, 1977. ГЛАВА 6 185 Таблица 6.2. Обозначения, используемые при вычислении чув- ствительности критерия χ 2 p 11 p 12 R 1 p 21 p 22 R 2 p 31 p 32 R 3 C 1 С 2 1,00 которыми долями. В таблице 6.2 приведены обозначения, ис- пользуемые при вычислении чувствительности таблицы сопря- женности, для примера взята таблица 3 ×2. Здесь р ij — доля в i-й строке j-го столбца, например р 11 — доля всех наблюдений в левой верхней клетке, p 12 — доля наблюдений в правой верхней клетке, и так далее. Сумма всех долей составляет 1. Суммы по строкам обозначаются R i , по столбцам — С j . Параметр нецент- ральности задается формулой ( )( ) ( ) 2 , 1 1 1 ij i j i j p R C N r c R C ϕ − = − − + ∑ где r — число строк, с — число столбцов и N — общее число наблюдений. Зная значение ϕ и число степеней свободы ν вну = ∞ и ν меж = (r – 1)(с – 1), чувствительность можно определить по кривым с рис. 6.10. Для нахождения объема выборки, при котором достигается тре- буемая чувствительность, воспользуемся обратной процеду- рой. Именно, сначала по рис. 6.10 найдем значение параметра не- центральности ϕ для заданной чувствительности и числа степеней свободы ν меж = (r – 1)(с – 1) и ν вну = ∞. А теперь найдем объем вы- борки, разрешив приведенную выше формулу относительно N: ( )( ) ( ) 2 1 1 1 ij i j i j r c N p R C R C ϕ − − + = − ∑ Бег и менструации Дейл и соавт. изучали не только то, как занятия бегом влияют на частоту менструаций, но и то, какая доля женщин обращалась к ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ 186 врачу. (Этот пример мы подробно рассмотрели в гл. 5, см. табл. 5.5.) Допустим, мы хотим выявить различия не меньшие, чем в табл. 6.3. Уровень значимости α = 0,05, общее число обследо- ванных N = 165. Расссчитаем сначала сумму ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 2 2 2 2 0,025 0,250 0,350 0,250 0,350 0,225 0,250 0,650 0,100 0,300 0,350 0,250 0,650 0,300 0,350 0,200 0,300 0,650 0,225 0,450 0,350 0,300 0,650 0,450 0,350 0,225 0,450 0,650 0, 0,450 0,650 ij i j i j p R C R C − − × = + × − × − × + + + × × − × − × + + + × × − × + = × ∑ 114. Тогда ( )( ) 165 0,114 2,50. 3 1 2 1 1 ϕ = = − − + По рис 6.10 находим, что для ϕ = 2,50 при ν меж = (r – 1)(с – 1) = = (3 – 1)(2 – 1) = 2 и ν вну = ∞ степенях свободы и уровне значимо- сти α = 0,05 чувствительность равна 0,98. ПРАКТИЧЕСКИЕ ТРУДНОСТИ Нетрудно рассчитать чувствительность критерия задним чис- лом, когда и стандартное отклонение, и величина эффекта уже известны. К сожалению, мы не знаем эти параметры, когда пла- нируем исследование. Стандартное отклонение можно пример- но оценить по литературным данным или проведя предвари- тельное исследование. Величину эффекта узнать заранее невоз- можно (обычно ее оценка и является целью исследования). По- этому при расчете чувствительности нужно указать минималь- ную величину эффекта, которую мы хотим выявить. Немногие решаются поведать миру о том, какова же эта величина, поэто- ГЛАВА 6 187 Таблица 6.3. Предполагаемые доли женщин, обращавшихся к врачу по поводу нерегулярности менструаци Обращались к врачу Группа Да Нет Всего Контроль 0,025 0,225 0,250 Физкультурницы 0,100 0,200 0.300 Спортсменки 0,225 0,225 0,450 Всего 0,350 0,650 1,00 му чувствительность очень редко рассчитывают заранее. Меж- ду тем делать это совершенно необходимо: иначе мы рискуем проводить исследования, заведомо обреченные на неуспех. Если после проведения исследования эффект обнаружен, то чувствительность уже неважна. В противном случае — если эф- фекта не выявлено — она приобретает первостепенное значе- ние. В самом деле, если мы не обнаружили статистически зна- чимых различий при чувствительности 80%, то с высокой веро- ятностью можно утверждать, что различий действительно нет. Иными словами, мы получили отрицательный результат. Если же чувствительность составляла 25%, то мы просто не получи- ли никакого результата. Обычно данные, необходимые для оп- ределения чувствительности, содержатся в статье, поэтому чи- татель может сам провести расчет. ЗАЧЕМ ВЫЧИСЛЯТЬ ЧУВСТВИТЕЛЬНОСТЬ? Ранее, в 4 гл., мы разобрали распространенную ошибку, состоя- щую в многократном применении критерия Стьюдента. В тер- минах этой главы можно сказать, что многократное применение критерия Стьюдента увеличивает ошибку I рода. На практике же это означает, что нам сообщают о «статистически значимых раз- личиях» там, где их в действительности нет. Теперь, познако- мившись с методами определения чувствительности критерия и убедившись, насколько малой она нередко оказывается, мы мо- жем судить о причинах этого явления. Многие исследования не имели бы никаких шансов на успех, если бы завершались одним единственным сравнением. Конечно, проще сравнить группы по целому ряду лабораторных показателей, чем сделать числен- ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ 188 ность групп достаточной для выявления разницы в летальнос- ти. С другой стороны, пренебрежение оценкой чувствительно- сти приводит к тому, что во вполне корректно (в остальном) про- веденном исследовании клинически значимый эффект остается невыявленным из-за слишком малой численности групп. Теперь мы получили достаточное представление о чувстви- тельности, чтобы избежать этих ловушек. Мы узнали о том, как можно оценить чувствительность критерия по данным, приве- денным в публикации, и как самому вычислить нужный объем выборок, чтобы обнаружить эффект заданной величины. Резуль- таты таких вычислений часто разочаровывают, поскольку ока- зывается, что численность групп должна быть огромной (осо- бенно в сравнении с тем обычно небольшим числом больных, которые участвуют в клинических исследованиях)*. Как бы то ни было, мы должны отдавать себе отчет в ограниченности на- ших возможностей. Однако заведомо несостоятельные иссле- дования все же проводятся. Вряд ли авторы сознательно замал- чивают недостаток чувствительности, рассчитывая, что благо- даря эффекту множественных сравнений «что-нибудь найдет- ся». На самом деле большинство из них просто никогда ничего не слышали о чувствительности критериев. Фрейман и соавт.** изучили 71 публикацию*** по результатам контролируемых испытаний, проведенных в 1960—1977 гг., в ко- торых исследуемый метод лечения не дал статистически значимо- го (Р < 0,05) улучшения исхода. Лишь в 20% работ численность групп была достаточной, чтобы обнаружить снижение частоты неблагоприятных исходов (смерть, осложнение и т. п.) на 25% с * По данным Р. А. и С. У. Флетчеров (R. A. Fletcher, S. W. Fletcher. Clinical research in general medical journals: a 30-year perspective. N. Engl. J. Med., 301:180—183, 1979), изучавших работы, опубликованные в Journal of the American Medical Association, Lancet и New England Journal of Medicine, в период с 1946 по 1976 г. медиана численности группы составляла от 16 до 36 человек. ** J. A. Freiman, Т. С. Chalmers, H. Smith Jr., R. R. Kuebler. The importance of beta, the type II error and sample size in the design and interpretation of the randomized controlled trial. N. Engl. J. Med., 299:690—694, 1978. *** В журналах Lancet, New England Journal of Medicine, Journal of the American Medical Association. ГЛАВА 6 189 вероятностью 50%. Только в одной статье говорилось, что уро- вень значимости и чувствительность были определены до нача- ла исследования, 14 статей содержали указания на желатель- ность большей численности групп. Пятнадцать лет спустя аналогичное исследование провели Моэр и соавт., рассмотрев публикации по результатам контро- лируемых испытаний в тех же журналах за 1990 г. Число публи- каций по этой теме по сравнению с 1975 г. возросло вдвое, одна- ко доля отрицательных результатов осталась прежней — около 27%. Доля исследований, обеспечивающих достаточную чувст- вительность, оказалась примерно той же, что и в работе Фрей- мана и соавт., однако расчет численности групп обнаружен уже в трети статей. Итак, некоторый прогресс налицо, хотя ситуа- ция все же оставляет желать лучшего. Как и во всем, что касает- ся применения статистических методов, полностью полагаться на авторов пока нельзя. Прежде чем принять вывод о неэффектив- ности того или иного метода лечения, читателю следует само- стоятельно оценить чувствительность примененного критерия. Что же все-таки делать с работами, не обнаружившими эф- фекта из-за недостаточной численности групп*? Нужно ли мах- * Необходимость заранее определять численность групп ставит ис- следователей перед нелегким выбором: мириться с высоким риском не получить результат или проводить дорогостоящее широкомас- штабное исследование. Эта проблема в значительной мере снимается методами последовательного анализа. При последовательном ана- лизе численность групп не определяется заранее: вместо этого боль- ных включают в исследование по одному. Дождавшись наступления того или иного исхода, выбирают одно из трех: 1) принять гипотезу об отсутствии эффекта, 2) отвергнуть гипотезу либо 3) включить еще одного больного. Последовательный анализ обычно обеспечивает те же величины α и β, что и обычные методы, при меньшей численности групп. Применять на каждом шаге критерий Стьюдента было бы не- правильно: из-за эффекта множественных сравнений мы получили бы чрезмерно «оптимистическое» значение Р. Последовательный анализ требует применения специальных методов оценки статистической значимости, которые изложены в главе «Sequential analysis» книги W. J. Dixon, F. J. Massey. Introduction to Statistical Analysis, McGraw-Hill, New York, 1969. ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ 190 нуть рукой на полученные результаты или из них можно извлечь нечто полезное? Оказывается, можно. Для этого следует отка- заться от альтернативной логики «эффект есть — эффекта нет» и вместо этого оценить величину эффекта и степень неопределен- ности этой опенки, то есть рассчитать доверительный интервал, чем мы и займемся в следующей главе. ЗАДАЧИ 6.1. Используя данные табл. 4.2, вычислите чувствительность критерия Стьюдента, способного обнаружить 50% различие на- илучшего сердечного индекса между галотановой и морфино- вой анестезией. 6.2. По тем же данным определите, какова должна быть чис- ленность групп, чтобы с вероятностью 80% обнаружить 25% различие в наилучшем сердечном индексе. 6.3. Используя данные табл. 4.2, определите чувствитель- ность критерия Стьюдента для выявления изменения среднего артериального давления и общего периферического сосудисто- го сопротивления на 25%. 6.4. В задаче 3.5 мы не обнаружили влияния внутривенного введения тетрагидроканнабинолов на антибактериальную за- щиту у крыс. Допустим, минимальное снижение, которое мы хотим выявить, составляет 20%, уровень значимости α = 0,05. Какова чувствительность критерия Стьюдента? 6.5. По тем же данным определите, какой должна быть чис- ленность групп, чтобы обеспечить выявление снижения анти- бактериальной защиты на 20% с вероятностью 90% (уровень значимости α = 0,05). 6.6. Какой должна быть численность групп, чтобы с вероят- ностью 90% обнаруживать снижение летальности с 90 до 30%. Уровень значимости α = 0,05. При решении вам пригодятся таб- личные значения стандартного нормального распределения (табл. 6.4). 6.7. Используя данные из задачи 3.2, найдите вероятность обнаружить снижение максимальной объемной скорости середи- ны выдоха на 0,25 л/с при уровне значимости α = 0,05. ГЛАВА 6 191 Отклонение z от среднего Площадь Площадь (в стандартных отклонениях) слева от z справа от z –2,5 0,0062 0,9938 –2,4 0,0082 0,9918 –2,3 0,0107 0,9893 –2,2 0,0139 0,9861 –2,1 0,0179 0,9821 –2,0 0,0228 0,9772 –1,9 0,0287 0,9713 –1,8 0,0359 0,9641 –1,7 0,0446 0,9554 –1,6 0,0548 0,9452 –1,5 0,0668 0,9332 –1,4 0,0808 0,9192 –1,3 0,0968 0,9032 –1,2 0,1151 0,8849 –1,1 0,1357 0,8643 –1,0 0,1587 0,8413 –0,9 0,1841 0,8159 –0,8 0,2119 0,7881 –0,7 0,2420 0,7580 –0,6 0,2743 0,7267 –0,5 0,3085 0,6975 –0,4 0,3446 0,6554 –0,3 0,3821 0,6179 –0,2 0,4207 0,5793 –0,1 0,4602 0,5398 0,0 0,5000 0,5000 0,1 0,5398 0,4602 0,2 0,5793 0,4207 0,3 0,6179 0,3821 0,4 0,6554 0,3446 0,5 0,6975 0,3085 0,6 0,7267 0,2743 0,7 0,7580 0,2420 Таблица 6.4. Процентили стандартного нормального распреде- ления ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ 192 Таблица 6.4. Окончание Отклонение z от среднего Площадь Площадь (в стандартных отклонениях) слева от z справа от z 0,8 0,7881 0,2119 0,9 0,8159 0,1841 1,0 0,8413 0,1587 1,1 0,8643 0,1357 1,2 0,8849 0,1151 1,3 0,9032 0,0968 1,4 0,9192 0,0808 1,5 0,9332 0,0668 1,6 0,9452 0,0548 1,7 0,9554 0,0446 1,8 0,9641 0,0359 1,9 0,9713 0,0287 2,0 0,9772 0,0228 2,1 0,9821 0,0179 2,2 0,9861 0,0139 2,3 0,9893 0,0107 2,4 0,9918 0,0082 2,5 0,9938 0,0062 6.8. Используя данные из задачи 3.3, найдите вероятность обнаружить увеличение уровня липопротеидов высокой плот- ности на 5 и 10 мг%. Уровень значимости α = 0,05. 6.9. По тем же данным определите, какой должна быть чис- ленность групп, чтобы изменение в 5 мг% можно было обна- ружить с вероятностью 80% при уровне значимости α = 0,05. 6.10. В задаче 5.4 сравнивали частоту рецидивов инфекции мочевых путей после короткого курса того или иного антибак- териального препарата. Допустим, минимальные различия, кото- рые мы хотим выявить, таковы: в группах ампициллина и три- метоприма/сулъфаметоксазола рецидив наступает у двух третей девочек, в группе цефалексина — у одной трети. Какой была бы чувствительность таблицы сопряженности при численности групп, указанной в задаче 5.4? Уровень значимости α = 0,05. 6.11. Каким должен быть объем выборки, чтобы в задаче 6.10 чувствительность составила 80%? ГЛАВА 6 Глава 7 Доверительные интервалы До сих пор мы занимались в основном нахождением различий между группами, не слишком интересуясь величиной этих раз- личий. Мы формулировали нулевую гипотезу, то есть предпола- гали, что экспериментальные группы — это просто две случай- ные выборки из одной и той же совокупности. Затем мы оцени- вали вероятность получить наблюдаемые различия при усло- вии, что нулевая гипотеза верна. Если эта вероятность была мала, мы отвергали нулевую гипотезу и делали вывод, что различия статистически значимы. При таком подходе мы всегда получаем только качественный результат: либо отклоняем нулевую гипо- тезу, либо не отклоняем, либо признаем различия статистически значимыми, либо не признаем. Количественная оценка различий от нас ускользает. Между тем, как мы выяснили в предыдущей главе, вероятность выявления различий зависит не только от их величины, но и от численности групп. Сколь угодно малые раз- личия при достаточно большой численности групп могут ока- заться статистически значимыми, или, как пишут в диссертаци- 194 ях, «высоко достоверными». При этом речь может идти о разнице в несколько миллиметров ртутного столба. Характеристика, которая дополняет и даже заменяет каче- ственное суждение (значимо—незначимо), — это доверитель- ный интервал. В гл. 2 мы уже встречались с этим понятием, хотя и не применяли этот термин. Тогда мы выяснили, что ис- тинное среднее в 95% случаев лежит на расстоянии не больше двух ошибок среднего от выборочного среднего. Промежуток длиной в четыре ошибки среднего — это и есть 95% довери- тельный интервал. Смысл доверительного интервала из этого примера достаточно ясен: мы не знаем точно, чему равна неко- торая величина, но можем указать интервал, в котором она на- ходится (с заданной вероятностью). В этой главе мы научимся определять доверительные интервалы для разных величин, в том числе для разности средних (величины эффекта) и доли. Мы покажем, что доверительный интервал можно использовать вме- сто обычных критериев значимости*. Доверительные интерва- лы используют также для определения границ нормы лабора- торного показателя. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ РАЗНОСТИ СРЕДНИХ В гл. 4 мы определили критерий Стьюдента как Разность выборочных средних Стандартная ошибка разности выборочных средних t = Вычислив t, его сравнивают с критическим значением t α для заданного уровня значимости α. Для двух случайных выборок из одной совокупности вероятность получить значение t, по абсо- лютной величине превышающее t α , весьма мала (а именно, не превышает α; напомним, что уровень значимости α — это мак- симальная приемлемая вероятность ошибочно признать суще- ствование различий там, где их нет). Поэтому, получив «боль- * Существует мнение, что только доверительные интервалы и нужно ис- пользовать. Эта точка зрения кратко изложена в работе: К. J. Rothman. A show of confidence. N. Engl. J. Med., 299:1362—1363, 1978. ГЛАВА 7 195 шое» значение t, мы делаем вывод о статистической значимос- ти различий. Для случайных выборок, извлеченных из одной совокупно- сти, распределение всех возможных значений t (распределение Стьюдента) симметрично относительно среднего, равного нулю (см. рис. 4.5). Если же выборки извлечены из двух совокупнос- тей с разными средними, то распределение всех возможных значений t будет иметь среднее, отличное от нуля (см. рис. 6.3 и 6.5). Формулу для t можно видоизменить так, чтобы распределе- ние t было всегда симметрично относительно нуля: Заметим, что если обе выборки извлечены из одной совокуп- ности, то разность истинных средних равна нулю и в этом слу- чае новая формула совпадает с предыдущей. Вот математическая запись новой формулы: ( ) ( ) 1 2 1 2 1 2 X X X X t s − − − µ − µ = Поскольку истинных средних (то есть средних по совокупно- сти) мы не знаем, то и вычислить значение t по этой формуле мы не можем. Но эта формула и не предназначена для нахождения t. Она позволяет сделать другое — оценить разность µ 1 – µ 2 , то есть истинную величину различий. Для этого вместо вычисления t выберем его подходящее значение и, подставив в формулу, вы- числим величину µ 1 – µ 2 . Как выбрать «подходящее» значение? По определению 100 α процентов всех возможных значений t расположены левее –t α или правее +t α . Остальные 100(1 – α) процентов значений t попадают в интервал от –t α до +t α . Напри- мер, 95% значений t находится в интервале от –t 0,05 до +t 0,05 . (Кри- тические значения t, в частности t 0,05 , можно найти по табл. 4.1.) Значит, в 100(1 – α) процентах всех случаев ( ) ( ) 1 2 1 2 1 2 X X X X t t s α α − − − µ − µ − < < + Разность выборочных средних – Разность истинных средних Стандартная ошибка разности выборочных средних t = ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 196 Преобразуя это неравенство, получаем ( ) ( ) 1 2 1 2 1 2 1 2 1 2 X X X X X X t s X X t s α α − − − − < µ − µ < − + Таким образом, разность истинных средних отличается от разности выборочных средних менее чем на произведение t α и стандартной ошибки разности выборочных средних. Это нера- венство задает доверительный интервал для разности средних µ 1 – µ 2 . К примеру, 95% доверительный интервал для разности средних определяется неравенством ( ) ( ) 1 2 1 2 1 2 0,05 1 2 1 2 0,05 X X X X X X t s X X t s − − − − < µ − µ < − + В этот интервал разность истинных средних попадет в 95% случаев. Этот способ определения доверительного интервала, как и критерий Стыодента, на котором он основан, можно применять только тогда, когда совокупность имеет хотя бы приближенно нормальное распределение*. |