Глантз. Книга Primer of biostatistics fourth edition
Скачать 6.07 Mb.
|
11.3. Основная причина детской смертности в Японии — онкологические заболевания. Позволяют ли современные ме- тоды лечения продлить жизнь детей? В. Аджики и соавт. (W. Ajiki et al. Survival rates of childhood cancer patients in Osaka, Japan, 1975–1984. Jpn. J. Cancer Res., 86:13–20, 1995) сравнили выживаемость (с момента постановки диагноза) детей с онко- логическими заболеваниями в период 1975—1979 гг. с выжива- емостью в период 1980—1984гг. ГЛАВА 11 401 1975–1979 гг. 1980–1984гг. Время, Умерли или Время, Умерли или мес выбыли мес выбыли 2 3 2 4 4 4 4 1 6 3 6 3 8 4 8 10 10+ 1 12 4 12 2 14 3 14 3 18+ 1 16+ 1 20+ 1 18 2 22 2 22+ 1 24 1 24 1 30 2 30 2 36 3 36 1 48 2 52+ 1 54+ 1 54 1 56 2 56 1 60 1 60 1 60+ 9 60+ 18 (а) Постройте кривые выживаемости и 95% доверитель- ные интервалы, (б) Найдите медианы выживаемости, (в) Оце- ните статистическую значимость различий выживаемости, (г) Определите чувствительность логрангового критерия с уровнем значимости α = 0,05, предполагая, что S(∞) = S(60). (д) Вычис- лите общее число смертей и численность групп, при которых чувствительность логрангового критерия составит 0,80 при усло- вии, что S( ∞) снизилась с 0,40 в период 1975—1979 гг. до 0,20 или 0,15 в 1980–1984 гг. АНАЛИЗ ВЫЖИВАЕМОСТИ Глава 12 Как построить исследование Мы познакомились со многими статистическими методами, уз- нали о принципах, лежащих в их основе, и получили некоторый навык в расчетах. Каждый метод основан на собственной мате- матической модели, и применение его тем успешнее, чем ближе эта модель к действительности. Чтобы правильно выбрать стати- стической метод, необходимо учитывать прежде всего характер интересующего нас признака (количественный, порядковый или качественный) и тип распределения (нормальное или нет). Ниже мы кратко суммируем все, что узнали о выборе статистического метода. Однако существует еще одно обстоятельство, о кото- ром мы упоминали лишь вскользь, но которое решающим обра- зом влияет на практическую ценность результата исследования. Это представительность выборки. Любой статистический ме- тод исходит из предположения, что выборка извлечена из со- вокупности случайно. Если это условие не выполняется (то есть если выборка непредставительна), никакой, даже самый изо- щренный статистический метод не даст правильного результата. 403 Далее, если выборка представительна, то какую совокупность она представляет? Как мы увидим, больные в крупных медицин- ских центрах, где обычно проводятся клинические испытания, мало напоминают тех, с которыми встречается врач общей прак- тики. И наконец, мы еще раз напомним об опасности эффекта множественных сравнений. Интересно, что этот многоликий враг исследователей в наибольшей степени угрожает самым лю- бознательным из них. КАКИМ КРИТЕРИЕМ ВОСПОЛЬЗОВАТЬСЯ В этой книге мы не стремились охватить все статистические методы: многие из них остались вне поля зрения. Так, не были рассмотрены многофакторные методы, в которых исследуют- ся результаты одновременного использования нескольких спо- собов лечения или две группы сравниваются по нескольким показателям. Однако мы выстроили костяк из статистических методов, во- круг которого естественным образом наращиваются более об- щие. Охватив широкий круг типов задач, внутри каждого типа мы рассмотрели простейшую модель. Встретившись с более сло- жной задачей того же или сходного типа, вы без труда сами под- берете подходящий метод. Тем не менее освоенные нами мето- ды открывают достаточно большие возможности для решения практических задач. С помощью табл. 12.1 вы легко найдете, каким критерием сле- дует воспользоваться в зависимости от вида исследования и изу- чавшегося признака (количественный, порядковый или ка- чественный). Виду исследования (применялись ли сравниваемые методы лечения к общей группе больных или каждый испы- тывался на отдельной группе, равно ли число сравниваемых ме- тодов двум и т. д.) соответствуют столбцы таблицы. Строки таб- лицы определяют, какие признаки изучались — числовые, по- рядковые или качественные. Данные о выживаемости мы выде- лили в отдельный тип, поэтому получилось четыре типа данных. Выбор статистического критерия в случае числовых признаков требует пояснения. Если известно, что распределение признака КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ 404 * Если сов ок упно сть имеет ино е распределение , примените ана логичные непарамет риче ские мет од ы ГЛАВА 12 Т аб лица 12.1. К аким критерием в оспо льзов аться Иссле дов ание Одна гр уппа , не с- О дна гр уппа до и ко льк о видов ле - Признак Д ве гр уппы Б олее дв ух групп по сле ле чения чения Св язь признак ов К оличе ств енный Критерий Дисперсионный Парный критерий Дисперсионный Линейная регре с- (распре деление Стью дента ( гл . 4) анализ ( гл . 3) С тью дента ( гл . 9) ана лиз пов торных сия , к орреляция нор ма льно е*) из мерений ( гл . 9) или мет од Блэн - да –Алтм ана (гл . 8) К аче ственный Критерий χ 2 Критерий χ 2 Критерий Мак - Критерий Ко к- К оэф фициент (гл . 5) (гл . 5) Ним ара ( гл . 9) рена ( в нашем сопряж енно сти ( в курс е рассмот рен нашем к урс е рас - не был ) смо трен не был ) Порядк овый Критерий Критерий Кр ус - Критерий К ритерий К оэф фициент Манна – ка ла –У оллис а У илк ок сона Фридмана ( гл . 10) ранг ов ой к орре - У итни ( гл . 10) (гл . 10) (гл . 10) ляции Спир мена (гл . 8) Выживаемо сть Критерий Г ех ана (гл . 1 1) 405 в совокупности нормально, можно использовать параметричес- кий метод, указанный в таблице (иногда необходимы дополни- тельные условия, например, в случае дисперсионного анализа требуется равенство дисперсий). Если распределение далеко от нормального, или если у вас нет желания использовать парамет- рические методы, следует воспользоваться их непараметричес- кими аналогами. Табл. 12.1 — это своего рода путеводитель по статистическим критериям. Но прежде чем им воспользоваться, примите во вни- мание три вещи. Во-первых, обнаружив, что нулевая гипотеза об отсутствии эффекта не может быть отвергнута, выясните почему. Для этого определите чувствительность критерия (гл. 6). Если чувствительность мала, причиной может быть малый объем вы- борки. Но если чувствительность велика, то эффект действительно отсутствует. Во-вторых, обнаружив статистически значимый эффект, не забудьте вычислить его величину и доверительные интервалы (гл. 7 и 8), по которым можно судить о его клиничес- кой значимости. И, наконец, в-третьих, обязательно попытайтесь понять, в самом ли деле процедура получения данных обеспечи- вает их представительность, в противном случае все последующие выкладки потеряют смысл. Тема представительности данных зас- луживает более подробного рассмотрения. РАНДОМИЗАЦИЯ И СЛЕПОЙ МЕТОД Все статистические методы исходят из предположения, что дан- ные извлечены из совокупности случайно. Что значит «извле- чены случайно»? Это значит, что вероятность оказаться выбран- ным одинакова для всех членов совокупности. Например, если групп две (экспериментальная и контрольная) и их размеры рав- ны, то любой член совокупности может равновероятно по- пасть в любую из групп. Обеспечить равную вероятность попадания в любую из групп совсем не так просто, как кажется на первый взгляд. (Предна- значенные для этого методы называются рандомизацией, с этим понятием мы встречались в гл. 3.) Прежде всего необходимо ис- ключить всякое влияние человека, что довольно сложно. Врачи, КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ 406 участвующие в исследовании, изобретательны и хитроумны. Любой недочет в системе рандомизации они обязательно используют, чтобы повлиять на формирование групп. При этом они, скорее всего, будут исходить из самых добрых побужде- ний; тем не менее такое вмешательство неизбежно приведет к нарушению сопоставимости групп и к искажению результатов исследования. Следует тщательно продумать, как сделать такое влияние невозможным для всех участников исследования, и прежде всего для себя самого. Задача рандомизации — обеспечить такой подбор больных, чтобы контрольная группа ни в чем не отличалась от эксперимен- тальной, кроме метода лечения. Однако этого мало. На этапе оценки результатов вновь появляется пристрастный исследова- тель. Велика и роль больного, его веры в новый способ лечения. Обоих следует лишить возможности влиять на результаты. Для этого предназначен слепой метод. В идеале это двойной слепой метод: ни больной, ни наблюдающий его врач не знают, какой из способов лечения был применен. Двойной слепой метод не всегда осуществим, поэтому используют также простой слепой (примененный способ лечения известен врачу, но не больному или наоборот) и частично слепой (и врач, и больной располага- ют лишь частью информации) методы. В любом случае информа- цию, которой располагают участники исследования, следует свести к минимуму. Строго говоря, применение рандомизации и слепого мето- да — две разные проблемы, однако они настолько тесно связаны, что примеры, которые мы рассмотрим, приложимы к обеим. Перевязка внутренней грудной артерии при стенокардии Идея этой операции возникла еще в 30-е годы. При ишемичес- кой болезни сердца сосуды, питающие миокард, частично заку- пориваются атеросклеротическими бляшками. Миокард не по- лучает достаточно кислорода, и при физической нагрузке, когда потребность в кислороде увеличена, возникает приступ стено- кардии. Если перевязать внутренние грудные артерии, то кровь, которая раньше текла по ним, устремится (по крайней мере час- тично) в коронарные сосуды — примерно так рассуждали авторы ГЛАВА 12 407 метода. Кровоснабжение миокарда улучшится, приступы стено- кардии прекратятся.Сама же операция достаточно проста, ее можно выполнить под местной анестезией. Идея была осущест- влена, и в 1958 г. Р. Митчелл и соавт.* опубликовали результа- ты. Операция была проведена 50 больным. Продолжительность послеоперационного наблюдения составляла от 2 до 6 месяцев. У 34 больных (68% общего числа) состояние улучшилось (у 18 приступы стенокардии прекратились полностью, у 16 стали ре- же). У 11 больных (22%) состояние осталось прежним, умерли 5 больных (10%). На первый взгляд, превосходные результаты. Еще до публикации работы Митчелла на страницах журнала «Ридерс Дайджест» появилась восторженная статья «Хирург спасает сердце», принесшая этому способу лечения больше известности, чем все публикации в медицинских журналах. Однако в наши дни мало кто слышал о перевязке внутренних грудных артерий. Что стало с этим многообещающим методом лечения? В 1959 г. Л. Кобб и соавт.** опубликовали результаты проверки эффективности двусторонней перевязки внутренних грудных артерий, полученные двойным слепым методом. Ни больной, ни врач, оценивавший результат операции, не знали, были ли перевязаны внутренние грудные артерии или нет. Боль- ному делали надрезы и выделяли сосуды. Затем вскрывали кон- верт, в котором говорилось, нужно ли выполнить перевязку. К какой группе — экспериментальной или контрольной — при- надлежал больной, покинувший операционную, знал только опе- рировавший его хирург. По данным послеоперационного на- блюдения группы не различались ни по частоте приступов, ни по переносимости физической нагрузки. Чем было обусловле- но обнаруженное Митчеллом улучшение состояния — отбором для операции наиболее легких больных, их энтузиазмом в отноше- нии разрекламированного метода лечения или пристрастностью * J. Mitchell, R. Glover, R. Kyle. Bilateral internal mammary arteryligation for angina pectoris: preliminary clinical considerations. Am. J. Cardiol; 1:46–50, 1958. ** L. Cobb, G. Thomas, D. Dillard, K. Merendino, R. Bruce. An evaluation of internal-mammary-artery ligation by a double-blind technic. N. Engl. J. Med., 260:1115–1118, 1959. КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ 408 оценки результатов — судить трудно. Вывод же прост: результа- ты исследования без контрольной группы, без применения сле- пого метода несостоятельны. Портокавальное шунтирование при циррозе печени При алкоголизме часто развивается цирроз печени. Одно из его проявлений — портальная гипертензия: повышение давления в воротной вене из-за затруднения кровотока через печень. Повы- шение давления в воротной вене приводит к варикозному рас- ширению вен пищевода. Это чрезвычайно опасное состояние: из- за разрыва варикозно расширенных вен в любой момент может возникнуть смертельное кровотечение. Для снижения давления в воротной вене применяют портокавальное шунтирование: во- ротную и нижнюю полую вены соединяют в обход печени. Ранние работы по оценке результатов этой операции отно- сятся к концу 40-х годов. Типичный план исследования в ту эпоху предусматривал набор определенного числа оперированных и подсчет доли выживших, каковая и рассматривалась в качестве результата. То обстоятельство, что больной мог бы выжить и без операции (а также умереть в результате операции), во вни- мание не принималось. Контрольные группы больных, не подвергавшихся портокавальному шунтированию, использова- лись редко. В 1966 г., через двадцать лет после первой операции, Н. Грейс и соавт.* провели анализ полусотни исследований эффективно- сти этого метода. Предметом анализа была связь между нали- чием контрольной группы и применением рандомизации, с од- ной стороны, и оценкой эффективности — с другой. Табл. 12.2 показывает, как распределились исследования по этим призна- кам. Проявилась любопытная закономерность. Если исследова- ние выполнялось без контрольной группы или последняя фор- мировалась не случайно, метод, как правило, получал высокую оценку. В тех немногих исследованиях, где использовалась кон- трольная группа и больные равновероятно распределялись меж- ду нею и экспериментальной, метод оценивался невысоко. * N. Grace, Н. Muench, Т. Chalmers. The present status of shunts for portal hypertension in cirrhosis. Gastroenterohgy, 50:684—691, 1966. ГЛАВА 12 409 Таблица 12.2. Оценки эффективности портокавального шун- тирования (по результатам 51 исследования) Оценка Исследование высокая средняя низкая Без контрольной группы 24 7 1 С нерандомизированной контрольной группой 10 3 2 С рандомизированной контрольной группой 0 1 3 Причина высоких оценок в исследованиях без контрольной группы ясна, ведь само суждение об эффективности метода здесь совершенно произвольно. Сложнее с оценками, основанными на использовании нерандомизированных групп. Даже при ка- жущейся беспристрастности отбора сама возможность влиять на него толкает исследователя на построение неравноценных групп. В результате в одну группу попадают более тяжелые боль- ные, в другую — более легкие. Исследователь редко стремится обмануть других, но легко становится жертвой самообмана. При этом форма самообмана может быть весьма изощрённой. Рассмотрим такой пример: больных, госпитализированных по нечетным дням месяца, оп- ределяют в экспериментальную группу, по четным — в кон- трольную. Можно ли считать такую рандомизацию достаточ- ной? Разумеется, нет. Врач может влиять на срок госпитализа- ции, следовательно, состав групп будет неслучайным. Если у кого-либо из участников исследования есть возмож- ность влиять на построение групп, эта возможность будет использована. Для рандомизации недостаточно, чтобы выбор не зависел от исследователя. Он должен быть независим и от самих подопыт- ных. Приведем пример из области лабораторных исследований. Двадцать крыс, сидящих в клетке, нужно разделить на две груп- пы. Выпустим из клетки десять крыс и назовем их контрольной группой. Представительна ли она? Скорее всего, нет. Вероятно, первыми из клетки выбегут самые сильные и агрессивные особи. Есть только один способ получить случайную выборку — воспользоваться для этого достоверно случайным процессом, на- КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ 410 пример бросанием игральной кости или таблицей (генератором) случайных чисел. Мы видели, что среди всех исследований эффективности портокавального шунтирования лишь те, в которых применя- лась рандомизация, показали истинную степень его эффектив- ности. Остальные приводили к оценкам, смещенным в пользу операции. Общим правилом является следующее. Чем лучше проведено исследование, тем менее вероятно его результат смещен в пользу исследуемого метода. Влияние качества рандомизации на результаты клинических испытаний исследовали К. Шульц и соавт*. Рассмотрев 250 кон- тролируемых клинических испытаний, они разделили их на хо- рошо и плохо рандомизированные. Хорошо рандомизирован- ным считалось испытание, в котором распределение по груп- пам основывалось на использовании случайных чисел. В осталь- ных случаях участники исследования могли влиять на распре- деление по группам и испытание считалось плохо рандомизи- рованным. Так, плохо рандомизированным считалось распре- деление, зависящее от момента включения в исследование. Шульц обнаружил, что доля методов лечения, признанных по итогам испытания эффективными, оказалась в плохо рандоми- зированных испытаниях на 41% выше, чем в хорошо рандоми- зированных. Некачественная рандомизация привела к почти полуторному завышению числа эффективных методов! Этична ли рандомизация? Итак, только рандомизация позволяет надежно оценить эффек- тивность нового метода лечения. Но этична ли она, когда речь идет о жизни и здоровье людей? В гл. 3 мы уже говорили о психо- логических трудностях, связанных с рандомизацией. Рандоми- зация лишает права выбора и врача-экспериментатора, и само- го больного. Простое решение состоит том, что если достовер- но не известно, какой метод лучше, то лечить можно любым. * К. F. Schuiz, I. Chalmers, R. J. Hayes, D. G. Altman. Empirical evidence of bias: dimensions of methodological quality associated with estimates of treatment effects in controlled trials. JAMA, 273:408–412, 1995. ГЛАВА 12 411 К сожалению, на деле все не так просто. У любого метода найдутся сторонники и противники (иначе кто бы взялся за проверку.) Не будем говорить о мнении авторов метода. Но свои воззрения есть и у привлеченного к эксперименту врача, чело- века обычно просвещенного и не чуждого гуманизма. Почему, нередко спрашивает врач, я должен, подобно язычнику, слепо следовать воле неких случайных чисел, требующих лишить боль- ного лучшего лечения? Этично ли в глазах поборников перевяз- ки грудных артерий было использование Коббом рандомизиро- ванной контрольной группы? Однако, как мы видели, неэтич- ной оказалась скорее не рандомизация, а операция. Слыша мне- ния о нецелесообразности рандомизированных испытаний, за- дайте вопрос: на чем, кроме веры и интуиции, основано убеж- дение в достоинствах одного и недостатках другого метода? Ведь сравнительная проверка еще только предстоит. Мы привели примеры неэффективных методов, которые ус- пели стать достоянием практической медицины, но все же не превратились в общепринятые. К сожалению, опровергнуть уко- ренившийся метод почти так же невозможно, как невозможно опровергнуть традицию. Самое тщательное доказательство не- эффективности давно прижившегося метода в лучшем случае ускорит его естественное отмирание. Так невозможно доказать отсутствие лечебного действия пиявок, этих священных коров практической медицины. Мы уже говорили о том, что не следует путать достоверность и статистическую значимость. Именно в совершенно недосто- верных работах уровень значимости, как правило, не оставляет желать лучшего. Нередко приходится слышать о «высоко досто- верных результатах, Р < 0,01», тогда как речь идет о нерандомизи- рованном исследовании, применительно к которому, как мы по- казали, вообще бессмысленно говорить о значении Р. И наобо- рот, если в результате правильно проведенного исследования мы получили значение Р < 0,1, то это значит, что вероятность оши- бочно признать существование различий не превышает 10% — и это утверждение истинно. Какой практический вывод сделать из этого истинного утверждения, каждый может решить сам. Счи- тать ли вероятность ошибки 10% слишком большой — это вооб- ще не вопрос статистики. Многое тут зависит от того, чем мы КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ 412 рискуем, признав или отвергнув предлагаемый метод лечения. Меньше всего следует фетишизировать уровень значимости и придавать ему смысл критерия истинности. В конце концов, различие между 5 и 10% чисто количественное. Гораздо важнее тщательно продумывать, какую совокупность должна представ- лять ваша выборка, как обеспечить случайность формирования групп и уберечься от невольного самообмана при оценке резуль- татов. |