Глантз. Книга Primer of biostatistics fourth edition
Скачать 6.07 Mb.
|
Галотан и морфин: операционная летальность В гл. 5 мы сравнивали операционную летальность при галота- новой и морфиновой анестезии и не нашли статистически зна- чимых различий. Посмотрим, каков 95% доверительный интер- вал для различия летальностей. В группе галотана умерли 8 оперированных из 61, доля умер- ших 1 ˆp = 8/61 = 0,13. В группе морфина умерли 10 из 67, 2 ˆp = 0,15. Разность долей равна 1 2 ˆ ˆ p p − = 0,13 – 0,15 = –0,02. Объединенная оценка доли 8 10 ˆ 0,14 61 67 p + = = + и стандартная ошибка разности ( ) ( ) 1 2 ˆ ˆ 1 2 1 1 ˆ ˆ 1 1 1 0,14 1 0,14 0,062 6,2%. 61 67 p p s p p n n − = − + = = − + = = Тем самым, 95% доверительный интервал для различия ле- тальности имеет вид: ( ) ( ) 1 2 1 2 ˆ ˆ ˆ ˆ 1 2 0,05 1 2 1 2 0,05 ˆ ˆ ˆ ˆ , p p p p p p z s p p p p z s − − − − < − < − + то есть –0,020 – 1,960 × 0,062 < p 1 – p 2 < –0,020 + 1,960 × 0,062 и окончательно 1 2 0,142 0,102. p p − < − < Итак, с вероятностью 95% можно утверждать, что истинная величина различия попадает в интервал между –14,2 и 10,2%. Вычисленный доверительный интервал содержит ноль, поэто- му различия летальности статистически не значимы*. * При использовании поправки Йейтса нужно раздвинуть границы довери- тельного интервала, соответственно уменьшив нижнюю и увеличив верх- нюю на величину (1/n 1 + 1/n 2 )/2. ГЛАВА 7 209 Тромбоз шунта у больных на гемодиализе В гл. 5 мы рассмотрели влияние аспирина на риск тромбоза шунта у больных на гемодиализе. Доля больных с тромбозом в группе плацебо составила 72%, а в группе, получавшей аспирин, — 32%. Мы уже убедились, что это различие статистически значимо. Однако мы не можем утверждать, что «аспирин снижает риск тром- боза на 40%», — правильнее будет указать доверительный интер- вал для снижения риска. Стандартную ошибку разности долей мы уже рассчитали в гл. 5, она составляет 0,15. Поэтому 95% до- верительный интервал для истинной разности долей имеет вид 0,40 – 1,96 × 0,15 < p п – p a < 0,40 + 1,96 × 0,15, то есть 0,11 < p п – p a < 0,69. Таким образом, в вероятностью 95% можно утверждать, что прием аспирина снижает риск тромбоза на величину от 11 до 69%. Отрицателен ли «отрицательный» результат? В гл. 6 мы познакомились со статьей Фреймана и соавт. Они рас- смотрели 71 медицинскую публикацию, в которых исследуемый метод лечения не дал статистически значимого снижения часто- ты неблагоприятных исходов (под неблагоприятным исходом в разных статьях понимали смерть, осложнения и т. п.). Фрейман и соавт. обнаружили, что в большинстве работ численность групп была слишком мала, чтобы обеспечить достаточную чувствитель- ность. Неужели столь огромный труд пропал даром? Попробуем получить из этих работ хоть какую-то информацию. На рис. 7.3 представлены 90% доверительные интервалы ве- личины эффекта (разность долей неблагоприятных исходов в кон- трольной и экспериментальной группах). Статистически зна- чимых различий не было выявлено ни в одном случае, поэтому все они содержат ноль. Посмотрим на верхнюю границу довери- тельных интервалов. Можно заметить, что во многих случаях она отличается от нуля всего на несколько процентов. Иными слова- ми, с вероятностью 90% мы можем утверждать, что эффект, если и существует, весьма незначителен. Дальнейшие исследования ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 210 Рис. 7.3. 90% доверительные интервалы величины эффекта в 71 клиническом испы- тании. Здесь величина эффекта — это разность долей больных с неблагоприятным исходом в контрольной и экспериментальной группах. Поскольку статистически зна- чимого эффекта не было выявлено ни в одном случае, все доверительные интерва- лы содержат ноль. Видно, что некоторые доверительные интервалы довольно силь- но смещены в сторону положительных значений — возможно, при большем числе больных различия достигли бы статистической значимости. В других случаях верх- няя граница интервала превышает ноль всего на несколько процентов. Можно сде- лать вывод, что если соответствующие методы лечения и дают эффект, то очень незначительный. ГЛАВА 7 211 Наблюдаемая доля – Истинная доля Стандартная ошибка долей z = * Как говорилось в гл. 5, для этого нужно, чтобы и пр и п(1 – р) были боль- ше 5 (здесь n — объем выборки, р — доля). соответствующих методов лечения вряд ли перспективны. Верх- няя граница некоторых интервалов простирается до 30% и даже до 40%. Напомним, что с вероятностью 90% мы можем утвер- ждать, что истинная величина находится внутри доверительного интервала, но где именно — определить невозможно. Поэтому не исключено, что соответствующие методы лечения все же эф- фективны и при большей численности групп это удалось бы до- казать. Если мы решим повторить испытание, то при его плани- ровании стоит учесть полученные оценки. Было бы неразумно, например, рассчитывать чувствительность и численность групп, полагая, что величина эффекта достигнет 50%. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ДОЛИ Если объем выборки достаточно велик, то доверительный ин- тервал для доли можно приближенно вычислить, используя нор- мальное распределение*. Когда выборка мала (а в медицинских исследованиях так оно обычно и бывает), приближение нормальным распределе- нием недопустимо. В таких случаях приходится вычислять точные значения доверительных интервалов, используя бино- миальное распределение. Чтобы не обременять читателя вы- числительными тонкостями, мы чуть позже приведем графи- ческий способ нахождения доверительных интервалов по ма- лым выборкам. Заметим, что при оценке долей по выборкам небольшого объема расчет доверительного интервала особен- но желателен. Причина в том, что, если выборка мала, измене- ние признака даже у одного из ее членов приведет к резкому изменению долей. Итак, при достаточно большом объеме выборки величина приближенно следует нормальному распределению (см. табл. 6.4). ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 212 Математическая запись для z: ˆ ˆ p p p z s − = Отсюда уже знакомым способом получаем формулу для 100(1 – α)-процентного доверительного интервала для истин- ной доли: ˆ ˆ ˆ ˆ p p p z s p p z s α α − < < − Доля статей, содержащих статистические ошибки Как видно из рис. 1.3, доля статей с ошибками в применении статистических методов за последние несколько десятков лет составляет 40—60%. Глядя на график, можно подумать, что доля эта с годами снижается. Однако рассмотрены были далеко не все статьи, поэтому точки — это всего лишь оценки истинной доли. Построим 95% доверительный интервал для последней точки — может быть, наше впечатление изменится. Последняя точка соответствует периоду с января по март 1976 г. Из оригинальных статей, опубликованных в этот период, С. Гор и соавт.* рассмотрели 77, статистические ошибки были обнару- жены в 32. Выборочная доля составляетˆp = 32/77 = 0,42, ее стандартная ошибка ( ) ˆ 0,42 1 0,42 0,056. 77 p s − = = Тогда 95% доверительный интервал имеет вид 0,42 – 1,96 × 0,056 < p < 0,42 + 1,96 × 0,056, то есть 0,31 < p < 0,53. В этот интервал попадают обе оценки, сделанные в 60-х го- * S. M. Gore, I. G. Jones, E. С. Rytter. Misuse of statistical methods: critical assessment of articles in BMJ from January to March 1976. Br. Med. J., l(6053):85–87, 1977. ГЛАВА 7 213 дах. Вряд ли это позволяет утверждать, что ситуация меняется к лучшему. Ошибки плодят ошибки. Авторы обзоров, опираясь на невер- ные данные оригинальных статей, делают неверные выводы, которые воспринимаются читателями как последнее слово меди- цинской науки. Насколько широко распространено это явление? На несостоятельные данные оригинальных статей опирались авторы 5 из 62 обзорных статей, рассмотренных Гор. Таким образом, ( ) ˆ 5 ˆ 0,081, 62 0,081 1 0,081 0,035. 62 p p s = = − = = Тогда 95% доверительный интервал для доли обзорных ста- тей, содержащих необоснованные выводы, имеет вид: 0,081 – 1,960 × 0,035 < p < 0,081 + 1,960 × 0,035. То есть это интервал от 1,2 до 15%. Точные доверительные интервалы для долей Часто объем выборки или наблюденная доля слишком малы, чтобы использовать приближение с помощью нормального рас- пределения*. В подобных случаях следует воспользоваться точ- ным распределением. Это так называемое биномиальное распре- деление. Оно чрезвычайно важно для медицинских исследова- * Причина, позволившая нам (в этой главе и гл. 5) использовать нор- мальное распределение вместо биномиального, состоит в том, что с ростом объема выборки биномиальное распределение стремится к нормальному. Это следует из сформулированной в гл. 2 централь- ной предельной теоремы. Более подробное изложение можно найти в: W. J. Dixon, F. J. Massey. Introduction to statistical analysis, McGraw- Нill, New York, 1983, sec. 13–5, Binomial distribution: proportion, и В. W. Broun, Jr., M. Hollander. Statistics: a biomedical introduction, Wiley, New York, 1977, Chap. 7, Statistical Inference for Dichotomous Variable. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 214 Рис. 7.4. 95% доверительные интервалы для долей, вычисленные на основании бино- миального распределения. Найдите на горизонтальной оси точку, соответствующую выборочной доле. Проведите через эту точку вертикальную линию. Границы довери- тельного интервала — это вертикальные координаты точек пересечения этой линии с парой кривых, соответствующих объему выборки n. ний, в которых часто приходится иметь дело с редкими события- ми и выборками малого объема. Сначала покажем, к чему приводит неправомерное использо- вание метода, основанного на нормальном распределении. Рас- смотрим пример, в котором пр < 5, то есть нарушено одно из условий применимости нормального распределения. Испытывая новый препарат, мы дали его 30 добровольцам, и, к счастью, ни у ГЛАВА 7 215 одного из них препарат не оказал побочного действия. Выбо- рочная оценка риска побочного действия 0 ˆ 0%. 30 p = = Вряд ли можно на этом основании гарантировать, что препа- рат никогда не окажет побочного действия. Чтобы получить бо- лее реалистичную оценку, вычислим 95% доверительный интер- вал для р. Какие результаты даст расчет, основанный на использовании нормального распределения? Имеем ˆ 0 p = , поэтому ( ) ( ) ˆ ˆ ˆ 1 0 1 0 0. 30 p p p s n − − = = = Тем самым, 95% доверительный интервал состоит из единст- венной точки — нуля. Возможно, это неплохо для рекламы ново- го препарата, но, увы, противоречит здравому смыслу. Обратимся теперь к рис. 7.4. Чтобы определить доверитель- ный интервал, основанный на биномиальном распределении, нужно сначала найти на горизонтальной оси точку, соответст- вующую выборочной доле ˆp. Затем нужно провести из нее пер- пендикуляр и посмотреть, где его пересекает пара кривых, по- меченных числом, равным объему выборки. Вертикальные ко- ординаты точек пересечения — это и есть границы 95% довери- тельного интервала. В нашем примере ˆp = 0 и п = 30. Нижняя граница доверительного интервала — 0, верхняя — около 0,1. Тем самым с вероятностью 95% мы можем утверждать, что риск побочного действия не превысит 10%. Предположим, что в одном случае из 30 препарат все-таки оказал побочное действие. Тогда ˆp = 1/30 = 0,033 и ( ) ˆ 0,033 1 0,033 0,033. 30 p s − = = Используя нормальное приближение, мы получили бы 0,033 – 1,96 × 0,033 < р < 0,033 + 1,96 × 0,033, то есть ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 216 –0,032 < р < 0,098. Понятно, что ни в каком случае доля не может быть отрица- тельной величиной, хотя величина интервала, как окажется, оп- ределена правильно. Какой интервал даст биномиальное распределение? По рис. 7.4 находим, что это интервал от 0 до примерно 0,13. Обратите вни- мание, что он не сильно отличается от интервала, найденного для ˆp = 0. Так и должно быть, ведь различие между отсутствием ос- ложнений и одним осложнением весьма незначительно. Заметьте, что чем меньше объем выборки, тем сильнее он влияет на величину доверительного интервала. Предположим, мы бы дали препарат не 30, а 10 добровольцам. Тогда нижний предел 95% доверительного интервала, конечно, остался бы ну- лем, но верхний был бы уже не 13, а 33%. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ЗНАЧЕНИЙ* До сих пор нас интересовали доверительные интервалы для тех или иных параметров распределения, например среднего µ или доли р. Нередко, однако, нужен доверительный интервал для самих значений измеряемого признака. Например, мы хотим оце- нить диапазон, в который будет попадать 95% всех значений. Особенно часто подобные задачи возникают при определении границ нормы какого-нибудь лабораторного показателя. Обыч- но доверительный интервал значений определяют как выбороч- ное среднее плюс-минус два стандартных отклонения. Если мы имеем дело с нормальным распределением и объем выборки достаточно велик (больше 100 человек), то правило двух стан- дартных отклонений дает верный результат. Как быть, если в нашем распоряжении не 100, а менее двух десятков человек, что довольно типично для клинических исследований? Разумеет- ся, об определении границ нормы по столь малой выборке нечего и думать. Тем не менее оценку доверительного интервала можно получить и тут. Однако от правила двух стандартных отклонений * Описанные ниже методы применимы только к данным, приближенно под- чиняющимся нормальному распределению. ГЛАВА 7 217 придется отказаться: при малых выборках интервал получается слишком узким. Рассмотрим пример. На рис. 2.6 представлены распределе- ние по росту всех 200 ныне живущих марсиан, а также три слу- чайные выборки по 10 марсиан в каждой. Рост 95% всех марси- ан лежит в пределах от 31 до 49 см. Средний рост марсианина — 40 см, стандартное отклонение — 5 см. Три выборки, изоб- раженные в нижней части рисунка, дают следующие оценки среднего роста: 41,5, 36 и 40 см. Выборочные стандартные от- клонения — соответственно 3,8, 5 и 5 см. Применим к этим вы- борочным оценкам правило двух стандартных отклонений. По- лученные доверительные интервалы изображены на рис. 7.5А. Как видим, в двух из трех случаев интервалы не покрывают 95% всех членов совокупности. Причина, в общем, понятна. Выборочное среднее и выбо- Рис. 7.5. 95% доверительные интервалы для роста марсиан, вычисленные по трем выборкам с рис. 2.6. А. В качестве доверительного интервала использо- вали среднюю величину плюс-минус два стандартных отклонения. Результат оставляет желать лучшего: два интервала из трех не покрывают истинного ин- тервала, заключающего 95% значений. Б. Доверительные интервалы опреде- лили как среднее плюс-минус произведение К 0,05 на стандартное отклонение. Ситуация улучшилась — теперь истинный интервал покрывают два интервала. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 218 рочное стандартное отклонение — не более чем оценки истинно- го среднего и стандартного отклонения. Точность этих оценок при малом объеме выборок невелика. Ошибка в оценке одного параметра накладывается на ошибку в оценке другого — в ре- зультате шансы получить правильный результат и вовсе низки. Рассмотрим выборку на рис. 2.6В. Нам повезло — оценка стан- дартного отклонения совпала с истинным его значением 5 см. Однако оценка среднего оказалась заниженной — 36 см вместо 40 см. Поэтому интервал смещен относительно истинного сред- него и накрывает менее 95% всех значений. Учитывая приблизительность оценок по выборкам небольшого объема, нужно брать интервал, более широкий, чем плюс-минус два стандартных отклонения (при выборках большого объема та- кая страховка не нужна). Этот интервал вычисляют по формуле , X K s X X K s α α − < < + где X — выборочное среднее, s — выборочное стандартное от- клонение, а К α — коэффициент, который зависит от доли f чле- нов совокупности, которые должны попасть в доверительный интервал, от вероятности того, что они действительно туда попа- ли 1 – α и от объема выборки п. Этот коэффициент играет при- мерно ту же роль, что t α или z α . Для вычисления 95% довери- тельного интервала нужно определить К 0,05 ; зависимость К 0,05 от объема выборки для различных значений f показана на рис. 7.6. Заметим, что К α больше, чем t α (как t α больше, чем z α ), по- скольку учитывает не только значение среднего, но и неопреде- ленность оценок среднего и стандартного отклонения*. При объеме выборки от 5 до 25, типичном для медицинских исследований, К α должен быть существенно больше двух. Если бы в рассматриваемом случае мы взяли интервал в плюс-минус два стандартных отклонения от среднего, то он покрыл бы за- метно менее 95% совокупности. На рис. 7.5Б изображены 95% доверительные интервалы для роста 95% членов совокупности * Вывод формулы для К α , показывающий его связь с доверительными ин- тервалами для среднего и стандартного отклонения, можно найти, на- пример, в работе: А. Е. Lewis, Biostatistics, Reinhold, New York, 1966, Chap. 12. Tolerance limits and indices of discrimination. ГЛАВА 7 219 марсиан, построенные по трем выборкам с рис. 2.6. Теперь все три интервала покрывают не менее 95% членов совокупности. Применение правила двух стандартных отклонений к выбор- кам небольшого объема приводит к зауживанию доверительно- го интервала значений. Упомянем еще об одной распространен- ной ошибке. Как говорилось в гл. 2, многие путают стандарт- ную ошибку среднего со стандартным отклонением. Найдя ин- тервал «выборочное среднее плюс-минус две стандартные ошиб- ки среднего», они уверены, что в него попадет 95% совокупно- сти (тогда как на самом деле 95% составляет вероятность, что в интервал попадет среднее по совокупности). В результате ин- тервал допустимых значений оказывается еще более зауженным. ЗАДАЧИ |