Глантз. Книга Primer of biostatistics fourth edition
Скачать 6.07 Mb.
|
Эффективный диуретик На рис. 6.1 показан суточный диурез в совокупности из 200 чело- век после приема плацебо (рис. 6.1 А) и диуретика (рис. 6.1Б). Средний диурез при приеме плацебо составил µ п = 1200мл, при приеме диуретика — µ д = 1400 мл. Таким образом, препарат уве- личивает суточный диурез на µ д – µ п = 1400 – 1200 = 200 мл. Как обычно, исследователь вынужден довольствоваться выборками, по которым он и оценивает величину эффекта. На рис. 6.1 поми- мо известных нам, но не исследователю, данных по совокупнос- ти приведены данные, полученные по двум выборкам, в каждую из которых входило по 10 человек. В контрольной группе сред- ний диурез составил 1180 мл, а в группе, получавшей диуретик, — 1400 мл. Среднее увеличение диуреза в данном опыте: Д П 1400 1180 220 мл. X X − = − = Как и всякая выборочная оценка, подверженная влиянию * Доверительные интервалы можно определять и в случае множественных сравнений. Подробнее об этом см.: J. H. Zar. Biostatistical analysis, 2nd ed, Prentice-Hall, Englewood Cliff, N. J., 1984, p. 191-192, 195. ГЛАВА 7 197 случая, эта величина отличается от истинного увеличения су- точного диуреза, равного 200 мл. И если бы мы, основываясь на выборочных данных, сказали, что препарат увеличивает суточный диурез в среднем на 220 мл, то упустили бы из виду неопределенность, присущую выборочной оценке. Правильнее будет рассчитать доверительный интервал — он покажет не одно число, скорее всего не совпадающее с истинным, а диапазон чисел, куда истинное попадает почти наверняка (например, с вероятностью 95%). Вычислим сначала объединенную оценку дисперсии. По ней мы сможем найти стандартную ошибку разности средних. Стан- дартные отклонения у принимавших диуретик и плацебо соста- вили соответственно 245 и 144 мл. В обеих группах было по 10 человек. Объединенная оценка дисперсии ( ) ( ) 2 2 2 2 2 2 Д П 1 1 s 245 144 201 . 2 2 s s = − = + = Стандартная ошибка разности средних Д П 2 2 2 2 Д П 201 201 s 89,9. 10 10 X X s s n n − = + = + = Для определения 95% доверительного интервала найдем по табл. 4.1 значение t 0,05 . Объем каждой из выборок n = 10. Поэтому число степеней свободы ν = 2(n – 1) = 2(10 – 1) = 18. Соответствую- щее табличное значение t 0,05 равно 2,101. Теперь можно вычислить 95% доверительный интервал для среднего изменения диуреза: ( ) ( ) Д П Д П Д П 0,05 Д П Д П 0,05 X X X X X X t s X X t s − − − − < µ − µ < − + то есть Д П 220 2,101 89,9 220 2,101 89,9 − × < µ − µ < + × и окончательно: Д П 31 409. < µ − µ < Таким образом, 95% доверительный интервал среднего изме- нения диуреза составляет 31—409 мл. Иными словами, выбо- ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 198 ГЛАВА 7 199 рочные данные позволяют с 95% надежностью утверждать, что препарат увеличивает диурез более чем на 31 мл, но менее чем на 409 мл. Как и следовало ожидать, истинное значение 200 мл находится в этом интервале. Первый из рассчитанных нами доверительных интервалов изображен на рис. 7.1А. Другие выборки Понятно, что в нашем распоряжении могли оказаться совершенно другие выборки. Ранее мы видели, что разные выборки дают раз- ные оценки среднего и стандартного отклонения. Точно так же по разным выборкам мы будем получать разные доверительные интервалы. (И не удивительно — ведь доверительный интервал рассчитывают по среднему и стандартному отклонению.) Мы вычислили интервал по выборкам с рис 6.1. Для другой пары выборок — например с рис. 6.2 — доверительный интервал бу- дет другим. Вычислим его. Суточный диурез в группе плацебо составил в среднем 1216 мл, а в группе, получавшей диуретик, — 1368 мл. Стандартные откло- нения — 97 и 263 мл соответственно. Увеличение среднего диуре- за при приеме препарата Д П X X − = 1368 – 1216 = 152 мл. Находим объединенную оценку дисперсии: ( ) 2 2 2 2 1 s 97 263 198 2 = + = Рис. 7.1. Новый взгляд на испытания диуретика. А. 95% доверительный интервал изменения диуреза, вычисленный по данным с рис. 6.1 В. Интервал содержит ис- тинную величину изменения (+200 мл) и не содержит нуля. Последнее говорит о том, что изменение диуреза статистически значимо. Б. Такой же доверительный интервал, вычисленный по данным с рис. 6.2В. Он тоже содержит истинную вели- чину изменения диуреза, но он содержит также и ноль: статистически значимого изменения диуреза не выявлено. В. Еще сорок восемь 95% доверительных интерва- лов для пар выборок, извлеченных из той же пары совокупностей (рис. 6.1 А и Б). Теперь у нас в общей сложности 50 доверительных интервалов. Из них 3 не содер- жат истинного значения и 27 не содержат нуля. Если бы мы построили 95% довери- тельные интервалы по всем возможным парам выборок, то доля не содержащих ис- тинного значения составила бы 5%, а доля не содержащих нуля – 55%, что соответ- ствует чувствительности критерия. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 200 и стандартную ошибку разности средних: Д П 2 2 198 198 s 89. 10 10 X X − = + = Тогда 95% доверительный интервал для среднего изменения суточного диуреза: Д П Д П 152 2,101 89 152 2,101 89, 35 339. − × < µ − µ < + × − < µ − µ < Этот интервал (рис. 7.1 Б) отличается от полученного ранее. Однако и он содержит истинное среднее увеличение диуреза — 200 мл. Если бы в нашем распоряжении была только выборка с рис. 6.2, мы бы сказали, что на 95% уверены в том, что препарат увеличивает средний диурез на величину, меньшую 339 и боль- шую –35 мл. Заметьте, на сей раз доверительный интервал вклю- чает и отрицательные значения. Тем самым, выборочные дан- ные не противоречат тому, что «диуретик» в действительности может уменьшать диурез. Значение этого интересного обстоя- тельства мы разберем позже, когда будем обсуждать использова- ние доверительных интервалов для проверки гипотез. Пока что мы определили доверительные интервалы для двух пар выборок из совокупности, изображенной на рис. 6.1. На са- мом деле число возможных пар выборок превышает 10 27 . На рис. 7.1В показаны 95% доверительные интервалы для 48 из них. Те- перь у нас в общей сложности 50 доверительных интервалов. Еще раз убедившись, что разные выборки дают разные доверительные интервалы, заметим, что большинство из них — точнее 47 из 50 — содержат истинное значение, показанное на рис. 7.1 верти- кальной пунктирной линией. Если бы мы перебрали все возмож- ные выборки, то доля 95% доверительных интервалов, содержа- щих истинное значение, составила бы в точности 95%. ИНТЕРВАЛ ШИРЕ — ДОВЕРИЯ БОЛЬШЕ Мы только что убедились, что 95% доверительный интервал мо- жет и не содержать истинного значения, однако, как правило, он ГЛАВА 7 201 его содержит — а именно, в 95% случаев. Вообще, истинное значение содержат k процентов k-процентных доверительных интервалов. Иными словами, k — это вероятность того, что интервал содержит истинное значение. От этой вероятности k зависит ширина интервала. Взглянем еще раз на рис. 7.1. Если мы хотим, чтобы больше интервалов перекрывало истинное значение, нам придется их расширить. Чем больше k, тем шире k-процентный доверительный интервал. Для примера вычис- лим, в дополнение к 95%, еще и 90 и 99% доверительные интер- валы для двух выборок с рис. 6.1. Разность средних и стандар- тная ошибка разности средних у нас уже есть, осталось только по табл. 4.1 найти новые значения t α (по-прежнему число сте- пеней свободы ν = 18). Для 90% доверительного интервала находим t 0,01 = 1,734. Тогда: Д П Д П 220 1,734 89,9 220 1,734 89,9, 64 376. − × < µ − µ < + × < µ − µ < По сравнению с 95%, 90% доверительный интервал более уз- кий (рис. 7.2). Неужели волшебным образом наши знания о ве- личине µ д – µ п стали более точными? Разумеется, нет. Сужение доверительного интервала досталось нам ценой снижения веро- ятности того, что он действительно содержит истинное значение. Для вычисления 99% доверительного интервала находим в табл. 4.1 критическое значение t 0,01 = 2,878. Тогда интервал име- ет вид Д П 220 2,878 89,9 220 2,878 89,9, − × < µ − µ < + × то есть Д П 36 478. − < µ − µ < Это самый широкий доверительный интервал из трех изобра- женных на рис. 7.2. Подведем итоги. Приводя k-процентный доверительный ин- тервал, мы сообщаем, во-первых, в каких пределах находится истинное значение неизвестной нам величины и, во-вторых — с какой вероятностью k. Например, говоря: «95% доверительный ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 202 Рис. 7.2. Три доверительных интервала одной и той же разности средних (см. рис. 6.1). 99% доверительный интервал самый широкий, 90% — самый узкий. Истинная разность средних (изменение суточного диуреза) показана вертикальной пунктирной линией. интервал 31—409 мл», имеют в виду следующее: «Вероятность того, что истинное значение лежит в пределах 31—409 мл, со- ставляет 95%». Не исключено, к сожалению, что вам не повезет и истинное значение окажется вне доверительного интервала. С 95% доверительными интервалами такое случается в 5% слу- чаев. Желая застраховаться от подобной ошибки, вы можете рассчитать 99% доверительный интервал. Однако учтите, что он окажется шире 95% доверительного интервала. Вообще, чем больше k (вероятность того, что доверительный интервал со- держит истинное значение), тем больше ширина интервала. ПРОВЕРКА ГИПОТЕЗ С ПОМОЩЬЮ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ Доверительные интервалы можно использовать для оценки ста- тистической значимости различий. Это и не удивительно, ведь нахождение доверительного интервала имеет общую базу с тра- ГЛАВА 7 203 диционными методами проверки гипотез. И там и тут мы встре- чаем разность выборочных средних, ее стандартную ошибку и распределение Стьюдента. Истинная разность средних может находиться в любой точке доверительного интервала, поэтому если доверительный интер- вал содержит ноль, то мы не можем отвергнуть возможность того, что µ д – µ п = 0, то есть нулевую гипотезу. С другой стороны, нахо- ждение истинной разности средних вне доверительного интервала маловероятно. Поэтому, если доверительный интервал не со- держит нуля, справедливость нулевой гипотезы о равенстве сред- них маловероятна. Можно сформулировать следующее правило. Если 100(1 – α)-процентный доверительный интервал раз- ности средних не содержит нуля, то различия статистически значимы (Р < α); напротив, если этот интервал содержит ноль, то различия статистически не значимы (Р > α). Применим это правило к двум только что рассмотренным при- мерам. На рис. 7.1 А 95% доверительный интервал не содержит нуля, поэтому, как и при использовании критерия Стьюдента, мы заключаем, что препарат увеличивает диурез (уровень значимос- ти α = 0,05). Напротив, 95% доверительный интервал на рис. 7.1Б содержит ноль. Значит, в данном случае мы не можем отвергнуть гипотезу об отсутствии эффекта. К такому же выводу мы при- шли раньше, используя критерий Стьюдента. Из пятидесяти 95% доверительных интервалов на рис. 7.1 два- дцать три содержат ноль. Следовательно, 23/50 = 44% соответст- вующих выборок не дают оснований говорить о статистически значимых различиях (то есть о наличии эффекта) при уровне зна- чимости 1 – 0,95 = 0,05. Если бы в нашем распоряжении были все возможные доверительные интервалы, мы увидели бы, что 45% из них содержат ноль. Это значит, что в 45% случаев мы не смо- жем отвергнуть гипотезу об отсутствии эффекта, то есть совер- шим ошибку II рода. Следовательно, как и прежде (см. рис. 6.4), β = 0,45, а чувствительность критерия равна 1 – 0,45 = 0,55. Говоря о «статистически значимых различиях», всегда полезно привести еще и доверительный интервал — это даст возможность судить о величине эффекта. Если статистическая значимость об- наружена благодаря большому объему выборки, а не величине эф- фекта, доверительный интервал укажет на это. Другими cловами, ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 204 использование доверительных интервалов позволяет среди ста- тистически значимых эффектов выделить те, которые сами по себе слишком слабы, чтобы иметь клиническое значение. Предположим, мы должны оценить эффективность гипотензив- ного препарата. Мы набираем две группы по 100 человеке каждой — контрольную, которой даем плацебо, и экспериментальную, кото- рой даем препарат. Пусть в экспериментальной группе диастоли- ческое давление составило в среднем э X = 81 мм рт.ст. (стандартное отклонение 11 мм рт. ст.), а в контрольной — к X = 85 мм рт. ст. (стандартное отклонение 9 мм рт. ст.). Для оценки статистической значимости различий воспользуемся критерием Стьюдента. Объединенная оценка дисперсии составляет ( ) 2 2 2 2 1 11 9 10 , 2 s = + = откуда э к э к 2 2 81 85 2,83. s 10 10 100 100 X X X X t − − − = = = − + Это значение по абсолютной величине больше критическо- го значения t 0,01 = 2,601 для уровня значимости 0,01 и числа степе- ней свободы ν = 2(n – 1) = 198 (см. табл. 4.1). Таким образом, снижение диастолического артериального давления статисти- чески значимо (Р < 0,01). Мы обнаружили статистически значимый эффект. Но какова его клиническая значимость? Вычислим 95% доверительный ин- тервал для разности средних. Так как при 198 степенях свободы t 0,05 равно 1,972 (см. табл. 4.1), доверительный интервал имеет вид э к 4 1,972 1, 41 4 1,972 1, 41, − − × < µ − µ < − + × то есть э к 6,8 1, 2 − < µ − µ < − Таким образом, с вероятностью 95% препарат снижает арте- риальное давление на 1,2—6,8 мм рт. ст. Этот эффект невелик, особенно если сравнить его со стандартными отклонениями (9 и ГЛАВА 7 205 11 мм рт. ст.). Итак, гипотензивный эффект выражен слабо, а его статистическая значимость обусловлена исключительно боль- шой численностью групп. Приведенный пример наглядно показывает, почему, знакомясь с исследованием эффективности того или иного препарата, важ- но знать не только уровень значимости, но и величину эффекта. Авторы публикаций редко балуют читателя доверительными ин- тервалами, но обычно все же указывают численность групп, сред- ние величины и их стандартные ошибки. В таких случаях нужно самостоятельно рассчитать стандартные отклонения (произведе- ние стандартной ошибки среднего на квадратный корень из чис- ленности группы) и построить доверительный интервал. Этого часто достаточно, чтобы понять, имеет исследование сугубо ака- демическую или еще и практическую ценность. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ СРЕДНЕГО Продолжим рассматривать разнообразные применения довери- тельных интервалов. Найдем доверительный интервал для средне- го. Определив выборочное среднее X , мы понимаем, разумеет- ся, что это всего лишь выборочная оценка истинного среднего µ, которое, впрочем, скорее всего находится где-то поблизости. «Где-то поблизости» можно охарактеризовать количественно, то есть ука- зать интервал, в котором с заданной вероятностью k находится истинное среднее. Это и будет k-процентный доверительный интервал для среднего. Приближенный способ вычисления этого интервала изложен в гл. 2: примерно в 95% случаев выборочное среднее уклоняется от истинного не более чем на две стандартные ошибки среднего. Осталось внести некоторые уточнения. Ранее мы выяснили, что величина подчиняется распределению Стьюдента. Можно показать, что Разность выборочных средних – Разность истинных средних Стандартная ошибка разности выборочных средних t = ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 206 также подчиняется распределению Стьюдента. Математичес- кая запись для последней величины выглядит так: X X t s − µ = Дальнейший вывод аналогичен выводу доверительного ин- тервала для разности истинных средних. Опустив промежуточ- ные этапы, приведем формулу 100(1 – α)-процентного довери- тельного интервала для среднего: , X X X t s X t s α α − < µ < + где t α — критическое значение t для уровня значимости α и чис- ла степеней свободы ν = n – 1 (n — объем выборки). Смысл доверительного интервала для среднего совершенно аналогичен смыслу доверительного интервала для разности средних. Приводя k-процентный доверительный интервал сред- него, мы утверждаем, что вероятность того, что истинное сред- нее находится в этом интервале, равна k. Иными словами, если получить все возможные выборки из некоторой совокупности и для каждой рассчитать k-процентный доверительный интервал, то доля интервалов, содержащих среднее по совокупности (ис- тинное среднее), составит k. Вычислить доверительный интервал несложно, однако — ес- ли объем выборки достаточно велик — можно пользоваться и приведенным выше «правилом двух стандартных ошибок». Для выборок, имеющих объем от 20 и выше, t 0,05 приблизительно рав- но 2 (см. табл. 4.1), и мы получим достаточно точный результат. Если же объем выборки меньше 20, доверительный интервал ока- жется зауженным, а наше представление о точности, с какой мы можем судить об истинном среднем, — преувеличенным. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ РАЗНОСТИ ДОЛЕЙ Изложенные способы вычисления доверительных интервалов Выборочное среднее – Истинное среднее Стандартная ошибка среднего t = ГЛАВА 7 207 нетрудно приспособить для разности долей. В гл. 5 мы определи- ли критерий z как Величина z имеет приблизительно нормальное распределе- ние; в гл. 5 мы использовали z для проверки гипотезы о равенстве двух выборочных долей (или, что то же самое, для оценки ста- тистической значимости различий выборочных долей). Можно показать, что даже если в совокупностях, из которых извлечены выборки, доли различны, то отношение приближенно следует нормальному распределению — при усло- вии, что объемы выборок достаточно велики. Если р 1 , и р 2 — истинные доли в каждой из совокупностей, а 1 ˆp и 2 ˆp — выборочные оценки этих долей, то ( ) ( ) 1 2 1 2 1 2 ˆ ˆ ˆ ˆ p p p p p p z s − − − − = В 100(1 – α) процентах случаев z по абсолютной величине не превышает z, то есть ( ) ( ) 1 2 1 2 1 2 ˆ ˆ ˆ ˆ p p p p p p z z s α α − − − − − < < Преобразовав это неравенство, мы получим формулу для 100(1 – α)-процентного интервала для разности истинных долей: ( ) ( ) 1 2 1 2 ˆ ˆ ˆ ˆ 1 2 1 2 1 2 ˆ ˆ ˆ ˆ p p p p p p z s p p p p z s α − α − − − < − < − + Как вы помните, распределение Стьюдента с увеличением числа степеней свободы стремится к нормальному. Поэтому z α можно найти в табл. 4.1 — в строке, соответствующей беско- нечному числу степеней свободы. Чаще всего используют 95% доверительный интервал, в этом случае z α = z 0,05 = 1,96. z = Разность выборочных долей Стандартная ошибка разности выборочных долей Разность выборочных долей – Разность истинных долей Стандартная ошибка разности выборочных долей z = ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ |