Глантз. Книга Primer of biostatistics fourth edition
Скачать 6.07 Mb.
|
Рис. 3.8. Минимальный уровень АД средн между началом анестезии и началом операции при галотановой (1-я группа) и морфиновой (2-я группа) анестезии. Можно ли на осно- вании этих данных отвергнуть нулевую гипотезу об отсутствии связи между выбором анестетика и артериальным давлением? СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ 72 Так как объем каждой выборки n равен 61 оценка дисперсии совокупности полученная на основе выборочных средних со ста- вит 2 2 2 меж 61 4,46 1213,4 X s ns = = × = И наконец 2 меж 2 вну 1213,4 6,81 178,1 s F s = = = Число степеней свободы ν меж = m – 1 = 2 – 1 = 1, ν вну = m (n – 1) = = 2 (61 – 1) = 120. В таблице 3.1 находим критическое значение F для 5% уровня значимости — 3,92. Поскольку у нас F = 6,81, то мы приходим к выводу, что различия статистически значи- мы. Мы можем заключить, что морфин в меньшей степени сни- жает артериальное давление, чем галотан. Каково клиническое значение этого результата? Мы вернемся к этому вопросу по- зднее. БЕГ И МЕНСТРУАЦИИ Врачам общей практики и гинекологам очень часто приходится искать причину нерегулярности менструации в частности их за- держки. Задержка менструации может быть признаком беремен- ности, менопаузы нередко она случается в начале приема перо- ральных контрацептивов. Задержка менструации может быть проявлением самых разных гинекологических эндокринных и даже психических заболевании. Среди последних особенно опас- на нервная анорексия — психическое расстройство, когда жен- щина, убежденная в своей полноте изнуряет себя голодом и клиз- мами, доходя до крайнего истощения. Без срочного и решитель- ного врачебного вмешательства нервная анорексия может приве- сти к смерти. Между тем есть еще одна вполне невинная при- чина, которая как полагают, может вызвать задержку менстру- ации – это занятия физкультурой и спортом. Чтобы проверить это предположение Дейл и соавт.* провели обсервационное * Е. Dale, D. H. Gerlach, A. L. Wilhite Menstrual dysfunction in distance runners Obs Gynecol 54 47 – 53 1979 ГЛАВА 3 73 исследование целью, которого было установить, есть та связь между занятиями спортом и частотой менструации. В исследо- вание вошли 78 молодых женщин разделенных на 3 группы по 26 человек в каждой. В первую — контрольную — группу вошли женщины, которые не занимались ни физкультурой, ни спортом. Вторая группа состояла из физкультурниц — они бегали трус- цой и за неделю пробегали от 8 до 48 км. Женщины третьей группы — спортсменки — тренировались всерьез за неделю они пробегали более 48 км. На рис. 3.9 представлено распределение числа менструации в год. В контрольной группе среднее число менструации в год рав- нялось 11,5, у физкультурниц — 10,1 и у спортсменок — 9,1. Можно ли отнести эти различия на счет случайности? Оценим дисперсию совокупности по среднему выборочных дисперсий: ( ) ( ) 2 2 2 2 2 2 2 вну 1 2 3 1 1 1,3 2,1 2, 4 3,95. 3 3 s s s s = + + = + + = Чтобы оценить дисперсию по разбросу выборочных сред- них нужно сначала оценить стандартную ошибку среднего для чего вычислить стандартное отклонение среднего трех выбо- рок. Так как среднее трех средних равно ( ) ( ) 1 2 2 1 1 11,5 10,1 9,1 10, 2 3 3 X X X X = + + = + + = , получаем следующую оценку стандартной ошибки: ( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 1 2 3 2 2 2 1 11,5 10,2 10,1 10,2 9,1 10,2 1,2 3 1 X X X X X X X s m − + − + − = = − − + − + − = = − Объем выборки n равен 26, поэтому оценка дисперсии по разбросу средних дает величину 2 2 2 меж 26 1,2 37,44. X s ns = = × = СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ 74 Наконец, 2 меж 2 вну 37,44 9,48. 3,95 s F s = = = Число степеней свободы ν меж = m – 1 = 3 – 1 = 2, ν вну = m (n – 1) = 3 (26 – 1) = 75. Критическое значение F при 1% уровне значимо- сти — 4,90. Итак, различия между группами статистически зна- Рис. 3.9. Число менструации в год у женщин которые не занимались ни физкуль- турой, ни спортом (1-я группа), физкультурниц (2-я группа) и спортсменок (3-я группа). Среднее число менструаций различно. Можно ли отнести эти различия за счет случайности. ГЛАВА 3 75 чимы — вероятность случайно получить такие различия не пре- вышает 1%. Похоже, услышав жалобы на задержку месячных, врач должен спросить «А не занимаетесь ли вы спортом?» Од- нако не будем спешить — решены еще далеко не все вопросы. Можно ли утверждать, что задержки менструаций свойственны как физкультурницам, так и спортсменкам? Есть ли связь меж- ду интенсивностью нагрузок и частотой менструаций? Ответы на эти вопросы мы отложим до гл. 4. ЗАДАЧИ 3.1. Если при родах шейка матки долго не раскрывается, то продолжительность родов увеличивается и может возникнуть не- обходимость кесарева сечения. Ч. О’Херлихи и Г. Мак-Дональд (С. O’Herlihy, H. MacDonaid. Influence of reproduction prostaglandin E 2 vaginal gel on cervical ripening and labor. Obstet. Gynесоl., 54: 708—710, 1979) решили выяснить, ускоряет ли гель с простаг- ландином Е 2 раскрытие шейки матки. В исследование вошло 2 группы рожениц. Роженицам первой группы вводили в шейку матки гель с простагландином Е 2 , роженицам второй группы вво- дили гель-плацебо. В обеих группах было по 21 роженице воз- раст, рост и сроки беременности были примерно одинаковы. Роды в группе, получавшей гель с простагландином Е 2 , длились в сред- нем 8,5 ч (стандартное отклонение 4,7 ч), в контрольной группе — 13,9 ч (стандартное отклонение — 4,1 ч). Можно ли утверж- дать, что гель с простагландином Е 2 сокращал продолжительность родов? 3.2. Курение считают основным фактором, предрасполагаю- щим к хроническим обструктивным заболеваниям легких. Что касается пассивного курения, оно таким фактором обычно не счи- тается. Дж. Уайт и Г. Фреб усомнились в безвредности пассив- ного курения и исследовали проходимость дыхательных путей у некурящих, пассивных и активных курильщиков (J. White, H. Froeb. Small-airways dysfunction in nonsmokers chronically exposed to tobacco smoke. N. Engl. J. Med., 302:720—723, 1980). Для ха- рактеристики состояния дыхательных путей взяли один из пока- зателей функции внешнего дыхания — максимальную объемную СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ 76 скорость середины выдоха которую измеряли во время профи- лактического осмотра сотрудников Калифорнийского универ- ситета в Сан-Диего. Уменьшение этого показателя — признак нарушения проходимости дыхательных путей. Данные обсле- дования представлены в таблице. Максимальная объемная скорость средины выдоха, л/с Число обсле- Стандартное Группа дованных Среднее отклонение Некурящие работающие в помещении, где не курят 200 3,17 0,74 работающие в накуренном помещении 200 2,72 0,71 Курящие выкуривающие небольшое число сигарет 200 2,63 0,73 выкуривающие среднее число сигарет 200 2,29 0,70 выкуривающие большое число сигарет 200 2,12 0,72 Можно ли считать максимальную объемную скорость сере- дины выдоха одинаковой во всех группах? 3.3. Низкий уровень холестерина липопротеидов высокой плотности (ХЛПВП) — фактор риска ишемической болезни сердца. Некоторые исследования свидетельствуют, что физичес- кая нагрузка может повысить уровень ХЛПВП. Дж. Хартунг и соавт. (G. Н. Hartung et al. Relation of diet to hidh-density liрoprotein cholesterol in middle-aged marathon runners, joggles, and inactive men. N. Engl. J. Med., 302:357—361, 1980) исследовали уровень ХЛПВП у бегунов-марафонцев, бегунов трусцой и лиц, не за- нимающихся спортом. Средний уровень ХЛПВП у лиц, не за- нимающихся спортом, составил 43,3 мг% (стандартное откло- ГЛАВА 3 77 нение 14,2 мг%), у бегунов трусцой — 58,0 мг% (стандартное отклонение 17,7 мг%) и у марафонцев — 64,8 мг% (стандарт- ное отклонение 14,3 мг%). Будем считать, что в каждой группе было по 70 человек. Оцените статистическую значимость раз- личий между группами. 3.4. Марихуана — наркотик, поэтому исследовать курение марихуаны на добровольцах невозможно. Исследования такого рода проводят на лабораторных животных. Г. Хубер и соавт. (G. Huber et al. Marijuana, tetrahydrocannabinol, and pulmonary arterial antibacterial defenses. Chest, 77:403—410, 1980) изучали влия- ние марихуаны на антибактериальную защиту у крыс. После ингаляционного введения бактерий крыс помещали в камеру, где специальная машина окуривала их сигаретами с марихуа- ной. Забив крыс, исследователи извлекали легкие и подсчиты- вали процент погибших бактерий, который и служил показате- лем состояния антибактериальной защиты. Чтобы установить, что именно влияет на антибактериальную защиту — тетрагид- роканнабинолы (вещества, которые обусловливают наркотичес- кое действие марихуаны) или просто дым одну из групп окури- вали сигаретами, из которых тетрагидроканнабинолы были уда- лены. В каждой группе было по 36 крыс. Являются ли различия статистически значимыми? Доля погибших бактерий, % Стандартная ошибка Число сигарет Среднее среднего 0 (контроль) 85,1 0,3 15 83,5 1,0 30 80,9 0,6 50 72,6 0,7 75 60 1,3 75 (тетрагидроканнабинота удалены) 73,5 0,7 150 63,8 2,6 3.5. Стремясь отделить действие тетрагидроканнабинолов от действия дыма, Г. Хубер и соавт. изучили их действие при вну- СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ 78 тривенном введении. После ингаляционного введения бактерий крысам вводили спиртовой раствор тетрагидроканнабинолов, контрольной группе вводили этиловый спирт. В обеих группах было по 36 животных. После введения тетрагидроканнабино- лов доля погибших бактерий составила в среднем 51,4%, в кон- трольной группе — 59,4%. Стандартные ошибки среднего со- ставили соответственно 3,2% и 3,9%. Позволяют ли эти данные утверждать, что тетрагидроканнабинолы ослабляют антибакте- риальную защиту? 3.6. Работа медицинской сестры сопряжена с постоянным на- пряжением и тяжелыми переживаниями. Груз ответственности, не уравновешенной правом принимать решения, рождает чув- ство усталости, раздражения и безысходности, интересная не- когда работа становится ненавистным бременем. Этот синдром не совсем точно называют опустошенностью. Считается, что его развитию особенно подвержены медицинские сестры, которые работают с наиболее тяжелыми больными. Чтобы проверить это предположение, Э. Кин и соавт. (A. Keane et al. Stress in ICU and non-ICU nurses. Nurs. Res., 34:231—236, 1985) провели опрос медицинских сестер с помощью специально разработанного оп- росника, позволяющего оценить опустошенность в баллах. Ме- дицинских сестер разделили на три группы в зависимости от тяжести состояния больных, с которыми они работали (1-я груп- па — наиболее тяжелые больные, 3-я — самые легкие). Далее каждую группу разделили на две — медицинские сестры хи- рургических и терапевтических отделений, таким образом, по- лучилось 6 групп по 16 медицинских сестер в каждой. Являют- ся ли различия между 6 группами статистически значимыми? Группа 1 2 3 Хир. Тер. Хир. Тер. Хир. Тер. Среднее 49,9 51,2 573 46,4 43,9 65,2 Стандартное отклонение 1,4,3 13,4 14,9 14,7 16,5 20,5 Объем выборки 16 16 16 16 16 16 3.7. Нитропруссид натрия и дофамин — препараты, которые широко используют при инфаркте миокарда (Инфаркт мио- ГЛАВА 3 79 карда развивается вследствие закупорки одной из коронарных артерий. Кровь перестает поступать к тому или иному участку миокарда, который в результате отмирает от недостатка кисло- рода). Считается, что нитропруссид натрия облегчает работу сер- дца и тем самым снижает потребность миокарда в кислороде; в результате устойчивость миокарда к недостаточному кровоснаб- жению повышается. Дофамин препятствует падению артериаль- ного давления и увеличивает поступление крови к пораженно- му участку через дополнительные сосуды (так называемые кол- латерали). К. Шатни и соавт. (C. Shatney et al. Effects of infusion of dopamine and nitroprusside on size of experimental myocardial infarction. Chest., 73:850—856, 1978) сравнили эффективность этих препаратов в опытах на собаках с инфарктом миокарда. Инфаркт миокарда вызывали перевязкой коронарной артерии, после чего вводили препарат (собакам контрольной группы вво- дили физиологический раствор). Через 6 часов собак забивали и взвешивали пораженный участок миокарда, результат выра- жали в процентах от веса левого желудочка. Препарат для каж- дой собаки выбирали случайным образом. Исследователь, взве- шивавший миокард, не знал, какой препарат вводили собаке. Полученные данные приведены в таблице: Вес пораженного участка миокарда (в процентах от веса левого желудочка) Число Стандартная ошибка Группа животных Среднее среднего Контроль 30 15 1 Дофамин низкая доза 13 15 2 высокая доза 20 9 2 Нитропруссид 20 7 1 Можно ли считать различия между группами статистически значимыми? (Формулы для дисперсионного анализа при нерав- ной численности групп найдите в прил. А). 3.8. Считается, что выработка тромбоцитов (форменных эле- ментов крови, играющих важную роль в ее свертывании) у но- СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ 80 ворожденных регулируется иначе чем у взрослых. Исследуя эту регуляцию X. Бесслер и соавт. (Н. Bessler et al. Thrombopoietic activity in newborn infants. Biol. Neonate, 49:61—65, 1986) опрe- делили содержание тромбоцитов в крови взрослых и грудных детей разного возраста. Можно ли говорить о существовании различии в количестве тромбоцитов? Число тромбоцитов, мкл –1 Число Стандартное Группа обследованных Среднее отклонение Взрослые 15 257 159 Дети в возрасте 4 суток 37 196 359 1 месяца 31 221 340 2 месяцев 13 280 263 4 месяцев 10 310 95 ГЛАВА 3 * А. R. Feinstein. Clinical biostatistics: a survey of statistical procedures in general medical journals. Clin. Phamacol. Ther., 15:97—107, 1974. Глава 4 Сравнение двух групп: критерий Стьюдента В предыдущей главе мы познакомились с дисперсионным анализом. Он позволяет проверить значимость различий не- скольких групп. В задачах к этой главе вы видели, что нередко нужно сравнить только две группы. В этом случае можно при- менить критерий Стьюдента. Сейчас мы изложим его сущность и покажем, что критерий Стьюдента — это частный случаи дис- персионного анализа. Критерий Стьюдента чрезвычайно популярен, он использует- ся более чем в половине медицинских публикаций*. Однако сле- дует помнить, что этот критерий предназначен для сравнения именно двух групп, а не нескольких групп попарно. На рис. 4.1 представлено использование критерия Стьюдента в статьях из журнала Circulation. Критерий был использован в 54% статей, и чаще всего неверно. Мы покажем, что ошибочное использова- ние критерия Стьюдента увеличивает вероятность «выявить» не- 82 существующие различия. Например, вместо того чтобы признать несколько методов лечения равно эффективными (или неэффек- тивными), один из них объявляют «лучшим». ПРИНЦИП МЕТОДА Предположим, что мы хотим испытать диуретическое действие нового препарата. Мы набираем десять добровольцев, случай- ным образом разделяем их на две группы — контрольную, кото- рая получает плацебо и экспериментальную, которая получает препарат, а затем определяем суточный диурез. Результаты пред- ГЛАВА 4 Рис. 4.1. Использование статистических методов в медицинских исследованиях. Рас- смотрено 142 статьи опубликованные в 56-м томе журнала Circulation (кроме обзоров, описаний случаев и работ по рентгенологии и патоморфологии). В 39% работ статисти- ческие методы не использовались вовсе, в 34% прааильно использовали критерий Стью- дента, дисперсионный анализ или другие методы. В 27% работ критерий Стьюдента использовали неправильно — для попарного сравнения нескольких групп (S. A. Glantz. How to detect correct and prevent errors in the med call teralure. Circulation, 61:1—7, 1980). 1 – не использовали статистических методов, 2 – правильно использовали критерий Стьюдента, 3 – правильно использовали дисперсионный анализ, 4 – правильно исполь- зовали другие методы, 5 – неправильно использовали критерий Стьюдента для попар- ного сравнения нескольких групп. 50 25 0 % ста тей 1 2 3 4 5 83 ставлены на рис. 4.2А. Средний диурез в экспериментальной группе на 240 мл больше чем в контрольной. Впрочем, подоб- ными данными мы вряд ли кого-нибудь убедим, что препарат — диуретик. Группы слишком малы. Повторим эксперимент, увеличив число участников. Теперь в обеих группах по 20 человек. Результаты представлены на рис. 4.2Б. Средние и стандартные отклонения примерно те же, что и в Рис. 4.2. Результаты испытаний предполагаемого диуретика. А. Диурез после при- ема плацебо и препарата. В обеих группах по 5 человек. Б. Теперь в обеих группах по 20 человек. Средние и стандартные отклонения остались прежними, однако до- верие к результату повысилось. СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА 84 эксперименте с меньшим числом участников. Кажется, однако, что результаты второго эксперимента заслуживают большего доверия. Почему? Вспомним, что точность выборочной оценки среднего харак- теризуется стандартной ошибкой среднего (см. гл. 2). , = X n σ σ где n — объем выборки, а σ — стандартное отклонение сово- купности, из которой извлечена выборка. С увеличением объема выборки стандартная ошибка сред- него уменьшается, следовательно уменьшается и неопределен- ность в оценке выборочных средних. Поэтому уменьшается и неопределенность в оценке их разности. Применительно к на- шему эксперименту, мы более уверены в диуретическом дей- ствии препарата. Точнее было бы сказать, мы менее уверены в справедливости гипотезы об отсутствии диуретического дей- ствия (Будь такая гипотеза верна, обе группы можно было бы считать двумя случайными выборками из нормально распреде- ленной совокупности). Чтобы формализовать приведенные рассуждения, рассмот- рим отношение: Разность выборочных средних Стандартная ошибка разности выборочных средних = t Для двух случайных выборок извлеченных из одной нормаль- но распределенной совокупности это отношение, как правило, будет близко к нулю. Чем меньше (по абсолютной величине) t, тем больше вероятность нулевой гипотезы. Чем больше t, тем больше оснований отвергнуть нулевую гипотезу и считать, что различия статистически значимы. Для нахождения величины t нужно знать разность выбороч- ных средних и ее ошибку. Вычислить разность выборочных сред- них нетрудно — просто вычтем из одного среднего другое. Слож- нее найти ошибку разности. Для этого обратимся к более об- щей задаче нахождения стандартного отклонения разности двух чисел, случайным образом извлеченных из одной совокупности. ГЛАВА 4 85 СТАНДАРТНОЕ ОТКЛОНЕНИЕ РАЗНОСТИ На рис. 4.ЗА представлена совокупность из 200 членов. Среднее равно 0, стандартное отклонение 1. Выберем наугад два члена совокупности и вычислим разность. Выбранные члены помече- ны на рис. 4.ЗА черными кружками, полученная разность пред- ставлена таким же кружком на рис. 4.ЗБ. Извлечем еще пять пар (на рисунках они различаются штриховкой), вычислим разность для каждой пары, результат снова поместим на рис. 4.ЗБ. Похо- же, что разброс разностей больше разброса исходных данных. Извлечем наугад из исходной совокупности еще 100 пар, для ка- |