Глантз. Книга Primer of biostatistics fourth edition
Скачать 6.07 Mb.
|
Статистика и клиническая практика Когда-то мне казалось, что медицинские журналы приходят к нам из идеального мира. В этом мире, недоступном простым смертным, авторы публикаций в совершенстве владеют статис- тическими методами, а строгие редакторы ни за что не пропус- тят работу со статистическими ошибками. Однако очень скоро я понял, как легко опубликовать ошибочную и просто бессмыс- ленную статью, как невысок барьер на пути несостоятельной работы к читателю. Авторы и редакторы медицинских журна- лов живут в том же мире, что и мы и имеют о статистике при- мерно такое же представление, что и остальные его обитатели. В этом суровом мире существует, помимо прочего, такая непри- ятная вещь, как ограничение финансирования. ОГРАНИЧЕНИЕ ФИНАНСИРОВАНИЯ И СТАТИСТИКА Медицина вступает в новую эру. Вплоть до середины XX века лечение мало влияло на сроки, да и сам факт выздоровления. Введение в клиническую практику инсулина, пенициллина, кор- 18 тикостероидов, витамина В 12 радикально изменило ситуацию. Победа над ранее неизлечимыми болезнями породила веру во всесилие науки и стимулировала дальнейшие исследования. Разрабатывались все новые противоопухолевые психотропные гипотензивные и антиаритмические средства. Безграничный оп- тимизм породил почти столь же безграничное финансирование. В США расходы на медицину в 1991 г составили 752 миллиар- да долларов или 13,2% валового национального продукта. Рас- ходы росли как абсолютно, так и в процентах от валового наци- онального продукта (рис 1.1). В результате ограничение расхо- дов на медицину сегодня превратилось в одну из первостепен- ных задач. На протяжении всего этого периода, который похоже закан- чивается, врачи и исследователи получали в свое распоряжение практически неограниченные и не обусловленные конкретны- ми целями ресурсы. Помощь больному едва ли не выпала из числа показателей «хорошей медицины». Характерно, что даже для по настоящему действенных методов лечения отсутствуют Рис. 1.1. Ежегоднье раоходы на здравоохранение (США 1960 – 1990 гг.). А. Абсолютнье (в миллиардах долларов). Б. Относительные (в процентах от валового национального продукта). ГЛАВА 1 Млр д. до лл 1960 1970 1980 1990 700 600 500 400 300 200 100 0 14 12 10 8 6 4 2 0 1960 1970 1980 1990 Проценты от в аловог о национальног о про дук та 19 достоверные оценки того, как часто и насколько эффективно они помогают*. Сложившийся подход означал не просто выбрасы- вание денег на ветер. Больные регулярно принимали сильно дей- ствующие препараты или подвергались хирургическому вмеша- тельству без серьезных оснований, но с риском серьезных ос- ложнений. Однако при чем тут статистика? Когда поток не связанных с конкретными задачами средств умерит свои рост, медицинским работникам придется взглянуть на используемые ими средства с точки зрения их реальной от- дачи. Потребуются строгие доказательства эффективности ме- тодов диагностики и лечения. Мало того, что придется уяснить эффективно ли лечение, — придется выяснить также какому про- центу больных оно помогает, и в какой степени. Но эти данные без помощи статистики не получишь. Естественная биологичес- кая изменчивость, психотерапевтический эффект**, субъектив- ность оценок — все эти факторы делают прямое суждение об эффективности лечения ненадежным. Перевести клинический опыт на язык количественных оценок — задача медицинской статистики. Статистическому анализу может быть подвергнута не толь- ко эффективность нового метода лечения, но и эффективность работы самого врача. Так в одном исследовании*** было пока- зано, что больные с пиелонефритом выписываются из стацио- нара в среднем на 2 дня раньше, если их лечение проводилось в * A. L. Cockrane. Effectiveness and Efficiency Random Reflections on Health Services, Nuffield Provincial Hospital Trust, London 1972. ** Эффект самого факта лечения не связанным с его физиологическим дей- ствием. Чтобы выявить психотерапевтический эффект, в клинических ис- следованиях применяют плацебо — неактивный препарат (например фи- зиологический раствор, сахарная пилюля) либо — в случае хирургичес- кого лечения — ложную операцию. В некоторых случаях, например при болях, плацебо «помогает» каждому третьему больному. ***D. Е. Knapp, D. A. Knapp, M. К. Speedie, D. M. Yager, С. I. Baker. Relationship of Inappropriate Drug Prescribing to Increased Length of Hospital Slay. Am. J. Hasp. Pharm., 36:1134–1137, 1979. Эту работу мы подробно обсудим в гл. 9. СТАТИСТИКА И КЛИНИЧЕСКАЯ ПРАКТИКА 20 строгом соответствии с рекомендациями «Настольного спра- вочника врача» («Phvsicians’ desk reference»). Расходы на пре- бывание в стационаре составляют значительную часть всех ме- дицинских расходов, поэтому сокращение сроков госпитализа- ции (разумеется, не в ущерб больному) позволило бы сэконо- мить значительные средства. Считается, что бесконечному мно- гообразию случаев должно соответствовать бесконечное мно- гообразие методов лечения. Данное исследование – сильный, хотя и не бесспорный, довод в пользу большей стандартизации. Поиск новых методов диагностики и лечения выбор наилуч- шего из уже принятых – везде статистические соображения иг- рают не последнюю роль. Чтобы принять полноправное учас- тие в обсуждении этих вопросов, врач должен быть знаком с принципами и основными методами статистики. До сих пор медики редко участвовали в обсуждении статис- тических вопросов, на первый взгляд далеких от врачебной прак- тики и носящих сугубо технический характер. Однако по мере ужесточения требований к использованию ресурсов медикам следует научиться проверять обоснованность претензий на эф- фективность и с большим пониманием участвовать в распреде- лении средств. И основой для этого служит статистика. ДОСТОВЕРНОСТЬ И СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ Рассмотрим типичный пример применения статистических мето- дов в медицине. Создатели препарата предполагают, что он увели- чивает диурез пропорционально принятой дозе. Для проверки этого предположения они назначают пяти добровольцам разные дозы препарата. По результатам наблюдений строят график зависимос- ти диуреза от дозы (рис. 1.2А). Зависимость видна невооружен- ным глазом. Исследователи поздравляют друг друга с открытием, а мир — с новым диуретиком. На самом деле данные позволяют достоверно утверждать лишь то, что зависимость диуреза от дозы наблюдалась у этих пяти добровольцев. То, что эта зависимость проявится у всех людей, которые будут принимать препарат, — не более чем предполо- ГЛАВА 1 21 жение. Нельзя сказать, что оно беспочвенно – иначе, зачем ста- вить эксперименты? Но вот препарат поступил в продажу. Все больше людей при- нимают его в надежде увеличить свой диурез. И что же мы ви- дим? Мы видим рис 1.2Б, который свидетельствует об отсут- ствии какой либо связи между дозой препарата и диурезом. Чер- ными кружками отмечены данные первоначального исследова- ния. Статистика располагает методами, позволяющими оценить вероятность получения столь «непредставительной», более того, сбивающей с толку выборки. Оказывается в отсутствие связи между диурезом и дозой препарата полученная «зависимость» наблюдалась бы примерно в 5 из 1000 экспериментов. Итак, в данном случае исследователям просто не повезло. Если бы они применили даже самые совершенные статистические методы, это все равно не спасло бы их от ошибки. Этот вымышленный, но совсем не далекий от реальности пример, мы привели не для того, чтобы указать на бесполез- Рис. 1.2. А. У 5 добровольцев измерили суточный диурез после приема разных доз препарата (предполагаемого диуретика). Зависимость диуреза от дозы казалась бы на- лицо, чем больше доза – тем больше диурез. Можно ли считать диуретический эффект препарата доказанным? Б. Такую картину мы увидели бы, если бы могли исследовать связь дозы и диуреза у всех людей: зависимости нет в помине. Пять человек, вошедших в первоначальное исследование, помечены черным. В данном случае мнимая зависи- мость порождена случайностью. С помощью статистических методов можно оценить вероятность подобной ошибки. Доза Доза Сут оч н ы й ди ур ез Сут оч н ы й ди ур ез Б А СТАТИСТИКА И КЛИНИЧЕСКАЯ ПРАКТИКА 22 ность статистики. Он говорит о другом, о вероятностном харак- тере ее выводов. В результате применения статистического ме- тода мы получаем не истину в последней инстанции, а всего лишь оценку вероятности того или иного предположения. Кро- ме того, каждый статистический метод основан на собственной математической модели и результаты его правильны настолько насколько эта модель соответствует действительности. ДОВЕРЯЙ, НО ПРОВЕРЯЙ О новых методах диагностики и лечения врачи узнают глав- ным образом из публикации в медицинских журналах. Позна- ния читателей в статистике обычно скромны, поэтому выводы авторов им приходится принимать на веру. Это было бы не так страшно, если бы публикации предшествовала серьезная про- верка результатов. К сожалению, проводится она далеко не все- гда. На рис. 1.3 суммированы результаты четырех исследовании использования статистических методов в статьях опубликован- ных в медицинских журналах с 1950 по 1976 г *. Разумеется, ис- * О. Б. Росс мл. (О. В. Ross, Jr. Use of controls in medical research. JAMA, 145:72–75, 1951) рассмотрел 100 статей, опубликованных в Journal of the Amencan Medical Association, American Journal of Medicine, Annals of Internal Medicine, Archives of Neurology and Psychiatry и American Journal of Medical Sciences в 1950 г. Р. Бэдгли (R. F. Badgley. An assessment of research methods reported in 103 scietific articles from two Canadian medical journals. Can. M. A. J., 85:256–260, 1961) рассмотрел 103 статьи опубликованные в журналах Canadian Medical Association Journal и Canadian Journal of Public Health в 1960 г. С. Шор и И. Картен (S. Schor, I. Karten Statistical evaluation of medical journal manuscripts, JAMA 195:1123–1128, 1966) рас- смотрели 295 статей, опубликованных в журналах Annals of Internal Medicine, New England Journal of Medicine, Archives of Surgery, American Journal of Medicine, Journal of Clinical Investigation, Amencan Archives of Neurology, Archives of Pathology и Archives of Internal Medicine в 1964 г. С. Гор, И. Джонс и Э. Ритгер (S. Gore, I. G. Jones, Е. С. Rytter Misuses of statistical methods critical assessment of articles in В M J from January to March, 1976, Br. Med. J., 1 (6053):85–87, 1977) рас- ГЛАВА 1 23 следования могли охватить лишь часть напечатанного, поэтому выявленная в исследованиях доля статей содержащих статис- тические ошибки служит лишь приближенной оценкой истин- ной доли. Вертикальные черточки на рис. 1.3 указывают диапа- зон называемый доверительным интервалом, в который с высо- кой вероятностью попадает истинная доля статей с ошибками. Вычисление доверительных интервалов — один из разделов ста- тистики, с которым нам предстоит познакомиться. Как мы ви- смотрели 77 статей, опубликованных в журнале British Medical Journal в 1976 г. Сравнительно недавнее изучение более ограниченной подборки журналов показало, что проблема статистических ошибок в медицинских публикациях не потеряла своей значимости (См. J. Davies, A critical survey of scientific methods in two psychiatry journals, Aust. N. Z. J. Psych., 21:367– 373, 1987; D. F. Cruess. Review of the use of statistics in the American Journal of Tropical Medicine and Hygiene for January–December 1988. Am. J. Trop. Med. Hyg.,41:619–626, 1990) Рис. 1.3. Доля медицинских статей, содержащих статистические ошибки. Невозможно рассмотреть все статьи, публикуемые в медицинских журналах, поэтому долю опреде- ляли по некоторой случайной выборке. В результате появляется оценка истинной доли статей с ошибками, на рисунке эти оценки показаны кружками. Вертикальные отрезки — это доверительный интервал, то есть пределы в которых, скорее всего, находится истинная доля статей с ошибками. 1950 Дол я ст ат ей с ош иб ка ми , % 80 60 40 20 0 1960 1970 1980 СТАТИСТИКА И КЛИНИЧЕСКАЯ ПРАКТИКА 24 дим, статистические ошибки встречаются примерно в полови- не статей. Однако дальнейшие исследования показали, что жур- налам, в которых взяли за правило обращать внимание не толь- ко на медицинскую, но и статистическую сторону дела удалось существенно снизить долю ошибочных статей. Эта доля нима- ло не изменилась в тех журналах, которые так и не ввели стати- стического рецензирования. Врачам известно множество методов диагностики и лечения, эффективность которых была «доказана» статистическими ме- тодами и которые, тем не менее, канули в Лету, не выдержав проверки практикой. А сколь часто приходится читать статьи, в которых статистические манипуляции с одними и теми же дан- ными приводят к прямо противоположным выводам. Все это наводит читателя на мысль, что статистические методы либо ненадежны, либо слишком трудны для понимания, либо вооб- ще не более чем инструмент недобросовестного исследователя. Между тем даже начального знакомства со статистикой в соче- тании со здравым смыслом обычно достаточно чтобы понять, что предлагает нам автор в качестве «доказательств». По иро- нии судьбы ошибки редко связаны с тонкими статистическими вопросами. Как правило, это простейшие ошибки такие, как от- сутствие контрольной группы использование неслучайных вы- борок или пренебрежение статистической проверкой гипотез. По неизвестным науке причинам такие ошибки неизменно сме- щают результаты исследования в пользу предлагаемого автором метода. Вред, приносимый ошибками такого рода, очевиден. Иссле- дователь заявляет о «статистически достоверном» эффекте ле- чения, редактор помещает статью в журнал, врач неспособный критически оценить публикацию, применяет неэффективный метод лечения. В конце этой цепи находится больной, который и расплачивается за все, подвергаясь ненужному риску и не по- лучая действительно эффективного лечения. Не следует сбра- сывать со счетов и ущерб от самого факта проведения бессмыс- ленных исследований. Деньги и подопытные животные прино- сятся в жертву науке, больные рискуют ради сбора ошибочно интерпретируемых данных. Сегодня грамотная проверка эффективности лечения стано- ГЛАВА 1 25 вится первоочередной задачей. Исследования должны тщатель- но планироваться, а результаты правильно интерпретироваться. ОШИБКИ ВЕЧНЫ? Поскольку описанные ошибки совершаются в массовом поряд- ке, ничто не побуждает исследователей корректно использовать статистические методы. Редко кому приходилось слышать кри- тические замечания, на сей счет. Наоборот, исследователи час- то опасаются, что их коллеги, а особенно рецензенты, сочтут грамотно и полно изложенную статистическую процедуру вы- сокомерной теоретизацией. Журналы призваны быть оплотом качества научных иссле- довании. В некоторых редакциях действительно осознали, что их рецензенты не слишком сведущи в использовании элемен- тарной статистики, и изменили саму процедуру рецензирова- ния. Теперь перед тем как направить рукопись на рецензию, ее тщательно проверяют на предмет правильности использования статистических методов. Результатом этого нередко становится пересмотр используемых в статье статистических методов, а иногда и самих выводов* . Но большинство редакторов, похоже, убеждены, что каждый рецензент рассматривает статистическую сторону работы столь же тщательно, сколь и собственно медицинскую. Неясно, одна- ко, как он может это сделать — ведь даже авторы ведущих ме- дицинских журналов, упоминая статистическую проверку ги- потез, редко затрудняют себя указанием, какой именно крите- рий был использован. Коротко говоря, для грамотного чтения медицинской лите- ратуры необходимо научиться понимать и оценивать правиль- ность применения статистических методов, используемых для анализа результатов. К счастью, основные идеи, которыми необ- * Подробнее о существующей в редакциях практике работы с рукописями см. М. J. Gardner, J. Bond An exploratory study of statistical assessment of papers published in the British Medical Journal. JAMA, 263:1355–1357, 1990, a тaкжe S. А. Glantz It is all in the numbers. J. Am. Coll. Cardiol., 21:835–837, 1993. СТАТИСТИКА И КЛИНИЧЕСКАЯ ПРАКТИКА 26 ходимо овладеть вдумчивому читателю (и, конечно, вдумчиво- му исследователю), довольно просты. В следующей главе мы приступим к их обсуждению. ГЛАВА 1 Глава 2 Как описать данные В этой книге мы встретимся с двумя типами задач. Первый тип задач, — как сжато, описать данные. Этими задачами занимает- ся так называемая описательная статистика. Задачи второго типа связаны с оценкой статистической значимости различий и во- обще с проверкой гипотез. В этой главе мы рассмотрим задачи первого типа — как наилучшим образом описать данные. Если значения интересующего нас признака у большинства объектов близки к их среднему и с равной вероятностью откло- няются от него в большую или меньшую сторону, лучшими ха- рактеристиками совокупности будут само среднее значение и стандартное отклонение. Напротив, когда значения признака распределены несимметрично относительно среднего, совокуп- ность лучше описать с помощью медианы и процентилей. Возможно, сказанное давно вам известно. Тогда смело пере- ходите к следующей главе. Тех же, для кого термины вроде про- центиля звучат туманно, мы приглашаем приступить к изуче- нию марсиан. 28 Поначалу займемся, каким-нибудь количественным призна- ком, например ростом. Чтобы попусту не фантазировать слета- ем на Марс и измерим всех марсиан благо их всего две сотни. Результаты приведены на рис. 2.1 (мы округлили рост до целого числа сантиметров). Каждому марсианину соответствует кру- жок так, что, например два кружка над числом 30 означают, что имеются два марсианина ростом 30 см. Рис 2.1 это распределе- ние марсиан по росту. Мы видим, что рост большинства марси- ан — от 35 до 45 см. Коротышек (ниже 30 см) совсем немного — всего трое, и столько же великанов (выше 50 см). Окрыленные успехом марсианского проекта мы решаем из- мерить венецианцев. Легко находим деньги на путешествие и, вооружившись линейками, измеряем всех 150 обитателей Ве- неры. Научный отчет об экспедиции будет звучать так: «Редко встретишь венерианца ниже 10 см или выше 20 см, а чаше по- падаются 15-сантиметровые, см. рис. 2.2». Но вот остались позади нелегкие межпланетные перелеты. Настала пора скрупулезного анализа данных. Сравним рис. 2.1 и 2.2. Мы видим, что венерианцы ниже марсиан и что интервал, в |