Глантз. Книга Primer of biostatistics fourth edition
Скачать 6.07 Mb.
|
Таблица 10.1. Эксперимент с диуретиком Плацебо Препарат (контрольная группа) (экспериментальная группа) Суточный Суточный диурез, мл Ранг диурез, мл Ранг 1000 1 1400 6 1380 5 1600 7 1200 3 1180 2 1220 4 Т = 9 ГЛАВА 10 329 Таблица 10.2. Варианты разделения 7 рангов на две группы по 3 и 4 ранга Ранги Сумма 1 2 3 4 5 6 7 рангов ××××× ××××× ××××× 6 ××××× ××××× ××××× 7 ××××× ××××× ××××× 8 ××××× ××××× ××××× 9 ××××× ××××× ××××× 10 ××××× ××××× ××××× 8 ××××× ××××× ××××× 9 ××××× ××××× ××××× 10 ××××× ××××× ××××× 11 ××××× ××××× ××××× 10 ××××× ××××× ××××× 11 ××××× ××××× ××××× 12 ××××× ××××× ××××× 12 ××××× ××××× ××××× 13 ××××× ××××× ××××× 14 ××××× ××××× ××××× 9 ××××× ××××× ××××× 10 ××××× ××××× ××××× 11 ××××× ××××× ××××× 12 ××××× ××××× ××××× 11 ××××× ××××× ××××× 12 ××××× ××××× ××××× 13 ××××× ××××× ××××× 13 ××××× ××××× ××××× 14 ××××× ××××× ××××× 15 ××××× ××××× ××××× 12 ××××× ××××× ××××× 13 ××××× ××××× ××××× 14 ××××× ××××× ××××× 14 ××××× ××××× ××××× 15 ××××× ××××× ××××× 16 ××××× ××××× ××××× 15 ××××× ××××× ××××× 16 ××××× ××××× ××××× 17 ××××× ××××× ××××× 18 НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ 330 столбце для каждого из вариантов указана величина T — сумма рангов меньшей (контрольной) группы. Если нанести значения T на график, получится распределение, показанное на рис. 10.1. Если справедлива нулевая гипотеза, то все сочетания рангов рав- новероятны. Это значит, что если, например, Т = 12 в 5 вариан- тах из 35, то вероятность случайно получить значение T = 12 равна 5/35. Таким образом, на рис. 10.1 изображено распреде- ление значений T в случае справедливости нулевой гипотезы об отсутствии действия препарата. По форме оно напоминает распределение t (рис. 4.5). Однако есть и отличия. Действитель- но, распределение t непрерывно. Оно построено по бесконеч- ной совокупности значений, вычисленных для бесконечного числа выборок из бесконечной нормально распределенной совокупности. Напротив, распределение Т конечно и дискрет- но, то есть имеет ступенчатый вид, принимая значения лишь в конечном числе целочисленных точек. Глядя на рис. 10.1, легко определить вероятность получить то или иное значение Т при условии справедливости нулевой гипотезы. Например, значения T = 9 и Т = 15 наблюдаются в 3 вариантах, то есть вероятность появления каждой из этих сумм равна 3/15. Вероятность получить значение Т, равное 8 или 16, составляет 2/35 = 0,057. Будем считать эти значения T крити- ческими. В нашем опыте Т = 9, так что нулевую гипотезу отвер- гнуть мы не можем. Уровень значимости обычно принимают равным 5% или 1%. Можно ли установить такой уровень в нашем примере? Оказы- вается, нет. У нас есть всего 13 разных значений Т, поэтому уро- вень значимости может меняться только скачками. Назвав про- извольный уровень значимости α, мы скорее всего обнаружим, что нет такого значения Т, которому бы он соответствовал. В качестве критического берут то значение Т, которому соответ- Рис. 10.1. 35 возможных сумм рангов для меньшей из групп (см. табл. 10.2). ГЛАВА 10 331 ствует уровень значимости, наиболее близкий к 1 или 5%. В нашем примере ближе всего к 5% находится уровень значимос- ти 5,7%, соответствующий Т = 8. Критические значения критерия Манна— Уитни приведены в табл. 10.3. Столбец критических значений содержит пары чи- сел. Различия статистически значимы, если Т не больше перво- го из них или не меньше второго. Например, когда в одной группе 3 человека, а в другой 6, различия статистически значимы, если T ≤ 7 или T ≥ 23. Изложенный вариант критерия известен как T-критерий Ман- на—Уитни*. Порядок его вычисления таков. • Данные обеих групп объединяют и упорядочивают по возрас- танию. Ранг 1 присваивают наименьшему из всех значений, ранг 2 — следующему и так далее. Наибольший ранг присваи- вают самому большому среди значений в обеих группах. Если значения совпадают, им присваивают один и тот же средний ранг (например, если два значения поделили 3-е и 4-е места, обоим присваивают ранг 3,5). • Для меньшей группы вычисляют Т — сумму рангов ее чле- нов. Если численность групп одинакова, Т можно вычислить для любой из них. • Полученное значение T сравнивают с критическими значени- ями. Если Т меньше или равно первому из них либо больше или равно второму, то нулевая гипотеза отвергается (разли- чия статистически значимы). Что делать, если нужной численности групп в таблице не оказалось? Можно самому построить распределение Т. К сожале- нию, с ростом численности групп сделать это становится все труднее. Например, если объем каждой из групп равен 10, то * Существует еще U-критерий Манна—Уитни, в котором вместо Т вы- числяют U, при этом U = T – n м (n м + 1)/2, где n м — численность меньшей из групп. Об этом варианте критерия можно прочесть в книге S. Siegel, N. J. Castellan. Nonparametric Statistics for the Behavio- ral Sciences, 2nd ed. McGraw-Hill, N. Y., 1988. Подробный вывод Т- критерия и его связь с U-критерием приведены в книге F. Mosteller, R. Rourke. Sturdy Statistics: Nonparametrics and Order Statistics, Addison-Wesley, Reading, Mass., 1973. НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ 332 Таблица 10.3. Критические значения критерия (двусторонний вариант) Манна— Уитни Численность Приблизительный уровень значимости α группы 0,05 0,01 Точное Точное мень- боль- Критические значе- Критические значе- шей шей значения ние α значения ние α 3 4 6 18 0,057 5 6 21 0,036 5 7 20 0,071 6 7 23 0,048 6 24 0,024 7 7 26 0,033 6 27 0,017 7 8 25 0,067 8 8 28 0,042 6 30 0,012 4 4 11 25 0,057 10 26 0,026 5 11 29 0,032 10 30 0,016 5 12 28 0,063 6 12 32 0,038 10 34 0,010 7 13 35 0,042 10 38 0,012 8 14 38 0,048 11 41 0,008 8 12 40 0,016 5 5 17 38 0,032 15 40 0,008 5 18 37 0,056 16 39 0,016 6 19 41 0,052 16 44 0,010 7 20 45 0,048 17 48 0,010 8 21 49 0,045 18 52 0,011 6 6 26 52 0,041 23 55 0,009 6 24 54 0,015 7 28 56 0,051 24 60 0,008 7 25 59 0,014 8 29 61 0,043 25 65 0,008 8 30 60 0,059 26 64 0,013 7 7 37 68 0,053 33 72 0,011 8 39 73 0,054 34 78 0,009 8 8 49 87 0,050 44 92 0,010 ГЛАВА 10 333 число вариантов равно 184756. Поэтому лучше воспользовать- ся тем, что при численности групп, большей 8, распределение Т приближается к нормальному со средним ( ) м м б 1 2 T n n n + + µ = и стандартным отклонением ( ) м б м б 1 , 12 T n n n n + + σ = где n м и n б — объемы меньшей и большей выборок*. В таком случае величина T T T T z − µ = σ имеет стандартное нормальное распределение. Это позволяет сравнить z T с критическими значениями нормального распре- деления (последняя строка табл. 4.1). Более точный результат обеспечивает поправка Йейтса: 1 2 T T T T z − µ − = σ Роды по Лебуайе В последние десятилетия произошел коренной пересмотр взгля- дов на родовспоможение. Акушерская революция совершалась под лозунгом «Отец вместо седативных средств». Восторже- * Если некоторые значения совпадают, стандартное отклонение должно быть уменьшено согласно формуле: ( ) ( ) ( ) ( ) м б м б 2 1 1 1 , 12 12 1 T i i i n n N n n N N + σ = − τ − τ τ + − ∑ где N = n м и n б — общее число членов обеих выборок, τ i — число значений i-го ранга, а суммирование производится по всем совпадаю- щим рангам. НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ 334 ствовала точка зрения, согласно которой при нормальных родах следует прибегать к помощи психологических, а не лекарствен- ных средств. Что делать конкретно, мнения расходились. Мас- ла в огонь подлила книга Лебуайе «Рождение без насилия». Французский врач предлагал комплекс мер, призванных свести к минимуму потрясение, которое испытывает новорожденный при появлении на свет. Роды надлежит принимать в тихом затем- ненном помещении. Сразу после родов ребенка следует уложить на живот матери и не перерезать пуповину, пока та не переста- нет пульсировать. Затем, успокаивая младенца легким погла- живанием, нужно поместить его в теплую ванну, чтобы «вну- шить, что разрыв с организмом матери — не шок, но удоволь- ствие». Лебуайе указывал, что дети, рожденные по его методи- ке, здоровее и радостнее других. Многие врачи считали, что предложенная методика не только противоречит общепринятой практике, но и создает дополнительную опасность для матери и ребенка. Тем не менее у Лебуайе нашлись и сторонники. Как часто бывает в медицине, отсутствие достоверных дан- ных могло затянуть спор на многие годы. Пока Н. Нелсон и со- авт.* не провели клиническое испытание, материалы ограни- чивались «клиническим опытом» автора методики. В эксперименте Нелсон, проведенном в клинике канадского университета Макмастер, участвовали роженицы без показаний к искусственному родоразрешению, срок беременности кото- рых составлял не менее 36 недель и которые были согласны ро- жать как по обычной методике, так и по Лебуайе. Роженицы были случайным образом разделены на две группы. В контроль- ной роды проводились по общепринятой методике в нормально освещенном помещении с обычным уровнем шума; после рож- дения пуповина немедленно перерезалась, ребенка пеленали и отдавали матери. В экспериментальной группе роды принима- лись по методике Лебуайе. В обеих группах при родах присут- ствовали мужья, применение обезболивающих средств было ми- * N. Nelson, M. Enkin, S. Saigal, К. Bennett, R. Milner, D. Sackett. A randomized clinical trial of the Leboyer approach to childbirth. N. Engl. J. Med., 302: 655–660, 1980. ГЛАВА 10 335 нимальным. Тем самым, группы различались только в том, в чем методика Лебуайе не совпадает с общепринятой. То, в какую группу попала роженица, было известно самой роженице и всем, кто присутствовал при родах. На этом этапе эффект плацебо исключить было невозможно. Однако уже на этапе послеродового наблюдения одна из сторон, а именно вра- чи, которые оценивали состояние ребенка, не знали, по какой методике происходили роды. Таким образом исследование Нел- сон было простым слепым: условия знала только одна из сто- рон, наблюдателю же они были неизвестны. Для оценки развития детей была разработана специальная шкала. Из числа детей, рожденных по обычной методике, оцен- ку «отлично» по этой шкале получали примерно 30%. Изучив труды Лебуайе, Нелсон и соавт. пришли к выводу, что пред- лагаемый метод, судя по заявлениям автора, гарантирует оцен- ку «отлично» у 90% детей. Приняв уровень значимости α = 0,05, исследователи рассчитали, что для обеспечения 90% вероятности выявить такие различия в каждой из групп должно быть по 20 детей. Работа продолжалась целый год. За это время исследователи провели беседы с 187 потенциальными участницами, разъяс- няя им смысл предстоящего эксперимента. 34 женщины не по- дошли по состоянию здоровья, 97 отказались участвовать в эксперименте (из них 70 собирались рожать только по методике Лебуайе). Из оставшихся 56 женщин одна успела родить до рандомизации. В результате число участниц сократилось до 55. Их и разделили случайным образом на две группы. После того как из исследования выбыла одна из попавших в контрольную группу, в этой группе оказалось 26, а в экспериментальной 28 рожениц. Однако у 6 женщин в контрольной группе и у 8 в экспериментальной возникли осложнения, и их пришлось ис- ключить из участия в эксперименте. В итоге в каждой из групп оказалось по 20 женщин. Вы видите, насколько трудно обеспе- чить достаточную численность групп даже в простом исследо- вании*. Оценка по шкале развития производилось сразу после родов, * D. Sackett, M. Gent. Controversy in counting and attributing events in clinical trials. N. Engl. J. Med., 301:1410–1412, 1979. НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ 336 а также спустя несколько месяцев. Мы остановимся на одном из показателей — времени бодрствования в первый час жизни. Предполагалось, что чем лучше состояние новорожденного, тем более он активен. Значит, у младенцев, рожденных по Лебуайе, время бодрствования должно быть продолжительнее, чем у рож- денных по обычной методике. Из рис. 10.2 видно, что данные не подчиняются нормально- му распределению. Особенно это заметно в экспериментальной группе. Тем самым, параметрические методы, например крите- рий Стьюдента, к этим данным неприменимы. Поэтому вос- пользуемся непараметрическим критерием Манна—Уитни. Объединим данные, относящиеся к обеим группам, и упоря- дочим их по возрастанию. В табл. 10.4 кроме суммарного време- ни бодрствования указан также его ранг. Поскольку численность групп одинакова, сумму рангов Т можно вычислить для любой из них. Подсчитаем T для контрольной группы. Она равна 374. Размер групп достаточен, чтобы воспользоваться нормальным приближением для Т. Поэтому перейдем от Т к z T . Итак, полагая истинной нулевую гипотезу, вычисляем среднее всех возмож- ных значений Т ( ) ( ) м м б 1 20 20 20 1 410 2 2 T n n n + + + + µ = = = Рис. 10.2. Продолжительность бодрствования в первый час жизни после обычных ро- дов и родов по Лебуайе. Обратите внимание, что в обеих группах распределение асим- метрично — преобладают высокие значения. ГЛАВА 10 337 Таблица 10.4. Продолжительность бодрствования в первый час жизни, мин Роды по обычной Роды методике Ранг по Лебуайе Ранг 5,0 2 2,0 1 10,1 3 19,0 5 17,7 4 29,7 10 20,3 6 32,1 12 22,0 7 35,4 15 24,9 8 36,7 17 26,5 9 38,5 19 30,8 11 40,2 20 34,2 13 42,1 22 35,0 14 43,0 23 36,6 16 44,4 24 37,9 18 45,6 26 40,4 21 46,7 27 45,5 25 47,1 28 49,3 31 48,0 29 51,1 33 49,0 30 53,1 36 50,9 32 55,0 38 51,2 34 56,7 39 52,5 35 58,0 40 53,3 37 T = 374 и стандартное отклонение ( ) м б м б 1 20 20 41 36 97 12 12 T n n n n + + × × σ = = = , . Таким образом, с учетом поправки Йейтса, 1 1 374 410 2 2 0 962 36 9 T T T T z − µ − − − = = = σ , , В табл. 4.1 находим 5% критическое значение для бесконеч- НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ 338 ного числа степеней свободы. Найденное критическое значение равно 1,960, то есть больше полученного. Тем самым, имею- щиеся данные не позволяют отклонить гипотезу о том, что мла- денцы, рожденные по методике Лебуайе, по своей активности ничем не отличаются от остальных. Общая оценка развития также не показала существенной раз- ницы между двумя группами детей. Исследование Нелсон и со- авт. — пример тщательно спланированного и проведенного кли- нического испытания. На четко поставленный вопрос был по- лучен ответ. Сегодня мало кто помнит о родах по Лебуайе. Не беда — на смену идут роды под водой. Оценка их влияния на развитие ребенка, быть может, станет темой будущих исследо- ваний. СРАВНЕНИЕ НАБЛЮДЕНИЙ ДО И ПОСЛЕ ЛЕЧЕНИЯ: КРИТЕРИЙ УИЛКОКСОНА В гл. 9 было описано использование парного критерия Стью- дента для сравнения состояния больных до и после лечения. Однако для применения этого критерия необходимо, чтобы из- менения имели нормальное распределение. Существует крите- рий, основанный на рангах, не ограниченный этим условием, — это критерий Уилкоксона. Принцип критерия следующий. Для каждого больного вычисляют величину изменения призна- ка. Все изменения упорядочивают по абсолютной величине (без учета знака). Затем рангам приписывают знак изменения и сум- мируют эти «знаковые ранги» — в результате получается зна- чение критерия Уилкоксона W. Как видим, используется информация об абсолютной вели- чине изменения и его знаке (то есть уменьшении или увели- чении наблюдаемого признака). Метод основан на рангах, поэ- тому не нуждается в предположениях о типе распределения из- менений. Как в случае с критерием Манна— Уитни, здесь так- же можно перечислить все возможные величины W и найти кри- тическое значение. Обратите внимание, исходно ранга присваиваются в соот- ветствии с абсолютной величиной изменения. Так, например, ГЛАВА 10 339 величины 5,32 и –5,32 получат один и тот же ранг, а уже затем рангам будет присвоен знак изменения. Рассмотрим пример. Допустим, мы исследуем некий препа- рат, предположительно диуретик. Дадим его 6 добровольцам и сравним диурез до и после приема препарата. Результаты пред- ставлены в табл. 10.5. У 5 человек диурез увеличился. Значит ли это, что препарат является диуретиком? Упорядочим изменения диуреза по абсолютной величине и присвоим им ранги от 1 до 6. Затем, приписав рангу каждого изменения соответствующий изменению знак, перейдем к зна- ковым рангам (последний столбец табл. 10.5). Наконец, вычис- лим сумму знаковых рангов W = 13. Если препарат не оказывает действия, сумма рангов со зна- ком «+» должна быть примерно равна сумме рангов со знаком «–» и значение W окажется близким нулю. Напротив, если пре- парат увеличивает (или уменьшает) диурез, будут преобладать положительные (отрицательные) ранги и значение W будет от- личным от нуля. Чтобы найти критическое значение W, выпишем все 64 воз- можных исхода опыта (табл. 10.6 и рис. 10.3). В четырех случа- ях значение W no абсолютной величине равно или превосходит 19. Таким образом, отвергая нулевую гипотезу при |W| > 19, мы обеспечим уровень значимости 4/64 = 0,0625. Изменение диу- реза в нашем опыте надо признать статистически не значимым: |