Государственный научноисследовательский центр профилактической медицины основы доказательной
Скачать 1.39 Mb.
|
ГЛАВА 3. Диагностические тесты. Скрининг Поэтому существует ряд общепризнанных способов борьбы с системати- ческими ошибками, характерных для разных этапов исследования. Например, на этапе отбора в группу контроля и основную группу исследования для умень- шения роли таких ошибок используется рандомизация, стратификация, под- бор пар и другие аналогичные методы. На этапе вмешательства или воздей- ствия эффективным методом борьбы является плацебо-контроль. При этом, понизить систематические ошибки на этапе оценки результатов лечения у от- дельного больного призваны различные способы «маскирования» участников исследования: например, слепой перекрестный или двойной слепой метод назначения препарата и плацебо. Что касается случайной ошибки измерений (другое ее наименование – разброс), то она характеризуется одинаковой вероятностью завышенной или заниженной оценки показателя. Величина случайной ошибки измерения кон- кретного показателя зависит от объема выборки, а сама ошибка может быть оценена на этапе анализа результатов. Стандартная ошибка среднего значения как мера точности Как известно, в качестве характеристики «положения» изучаемого показа- теля можно использовать среднее арифметическое значение (Mean, которое часто обозначают прописной латинской буквой M), а также медиану распре- деления (Me), моду распределения (Mo) и другие параметры распределения. Аналогично, в качестве меры случайного разброса индивидуальных значе- ний некоторого показателя относительно параметра «положения» (например, относительно среднего значения) можно использовать среднее квадрати- ческое отклонение или среднее абсолютное отклонение, а также стандарт- ную ошибку среднего значения (Standard Error of Mean, которую часто обоз- начают строчной латинской буквой m) и другие статистические параметры разброса. При этом стандартную ошибку среднего значения (вычисляемую как ре- зультат деления среднего квадратического отклонения на квадратный корень из числа измерений) можно использовать в качестве меры точности сред- него значения показателя. Разумеется, здесь имеются в виду показатели, характер статистического распределения которых можно считать близким к нормальному. Очевидно, что после вычисления среднего значения показателя иссле- дователь может сохранить в представляемом итоговом результате больше или меньше значащих цифр. Как узнать, сколько их нужно оставить, чтобы не «затемнять» реальную точность оценки среднего значения? Учебники по биостатистике предлагают использовать для этого ошибку среднего значения (т. е. величину m). Она непосредственно зависит от объ- ема выборки, т. е. уменьшается при увеличении числа отдельных измерений, так что величина этой ошибки позволяет решить, какие цифры в записи ве- личины среднего значения являются верными, а какие – сомнительными или просто бессмысленными. 52 ОСНОВЫ ДОКАЗАТЕЛЬНОЙ МЕДИЦИНЫ Приведем наглядный пример. Пусть при измерении уровня систолического артериального давления в некоторой группе мужчин в возрасте 50-59 лет было получено приблизительно нормальное распределение показателя со средним значением M = 146,718… мм рт.ст. Какие же цифры нужно оставить в итого- вой записи этого среднего результата, а какие следует отбросить? Если, например, ошибка среднего значения равна m = 0,0267… мм рт.ст., то, будучи округленной до старшей значащей цифры (т. е. до сотых долей) она составит m = 0,03 мм рт.ст. Таким образом, ошибка среднего проявляется в разряде сотых долей. Поэтому и среднее значение нужно округлить до сотых, т. е. записать итого- вое значение M±m в виде 146,72±0,03 мм рт.ст. При этом нужно понимать, что в записи среднего значения цифры 1, 4, 6, 7 являются верными, а цифра 2 – сомнительной, потому что именно в этом десятичном разряде (в сотых долях) проявляется ошибка m. Если же, например, ошибка среднего m оказалась в десять раз больше и равна 0,267… (т. е. после округления будет m = 0,3), то в записи средне- го значения сомнительная цифра появляется уже в разряде десятых долей. Тогда правильная итоговая запись будет иметь вид M±m = 146,7±0,3 мм рт. ст. А если ошибка среднего m оказалась еще больше (что часто бывает, если число измерений невелико) и равна 2,67… (т. е. после округления будет m = 3 мм рт.ст.), то в записи среднего значения сомнительная цифра появляется уже в разряде целых единиц. Тогда правильная итоговая запись будет иметь вид M±m = 147±3 мм рт.ст. (причем в записи среднего значения 147 послед- няя цифра 7 – сомнительная). Таким образом, если автор публикации приводит результат M±m в виде 146,72±2,67 мм рт.ст., то он тем самым как бы скрывает невысокую точность измерения, оставляя в записи среднего значения не только сомнительную цифру единиц, но и совершенно бессмысленные цифры в разрядах десятых и сотых долей. С другой стороны, если результат M±m приведен в виде 147±0,03 мм рт. ст., то это также неправильно, поскольку ошибка среднего значения появля- ется только в разряде сотых долей, и значение M оказалось слишком «загруб- лено». Если же на практике получилось так, что в подобном случае значение M при вычислениях точно равно 147 мм рт.ст., то правильной формой записи будет 147,00±0,03 мм рт.ст. Такая запись укажет, что в среднем значении по- казателя имеется верная значащая цифра и после запятой. Разумеется, различные типы клинических исследований предоставля- ют разные возможности для контроля за систематическими и случайными ошибками, т.е., фактически, за точностью итоговых результатов измерений показателей. В частности, рандомизированное контролируемое исследование (Randomized Controlled Trial) – при правильной его организации – позволяет свести к минимуму систематические ошибки и учесть величины случайных 53 ГЛАВА 3. Диагностические тесты. Скрининг ошибок. Этот тип клинических исследований наиболее близок к классическо- му экспериментальному исследованию, для которого характерны, так назы- ваемые, эталонные методы тестирования. Если же проводимое клиническое исследование относится не к типу ран- домизированных контролируемых исследований, а является проспективным когортным исследованием (Cohort Study), то для него характерны некоторые дополнительные источники систематических ошибок (например, на этапе формирования когорт, а также вследствие миграции пациентов в течение ис- следования). Тем не менее, проспективное когортное исследование считает- ся лучшим видом клинических исследований для таких ситуаций, когда клас- сический эксперимент невозможен (например, при исследовании факторов риска, а также прогноза заболевания). Разумеется, для изучения редких исходов заболевания в когортных иссле- дованиях потребовалось бы наблюдать в течение очень длительного времени большие группы обследованных. Общеизвестный пример – Фремингемское исследование, проведенное в США для установления связи ряда факторов риска с развитием ИБС, когда в течение 30 лет наблюдали когорту, состоя- щую более чем из 5 тысяч человек. Если же клиническое исследование относится к типу «случай-контроль» (Case-control study), то особенности его организации (прежде всего, несколь- ко «искусственный» подбор групп сравнения, а также ретроспективный ха- рактер исследования, не позволяющий достоверно регистрировать точные временные интервалы между событиями) определяют и возникновение не- которых характерных ошибок, для учета которых приходится применять спе- циальные методы. Тем не менее, такой тип исследования хорошо подходит для изучения редких событий, тогда как в случае рандомизированного конт- ролируемого исследования или проспективного когортного исследования это потребовало бы гораздо больших временных и финансовых затрат. Разумеется, после определения того типа клинического исследования, ко- торый будет принят в конкретном случае, организатору потребуется выяснить, сколько (минимально) пациентов должно быть включено в группы сравнения, чтобы по завершении исследования можно было рассчитывать на статисти- чески значимые результаты. Более того, потребуется выбрать одну из проце- дур рандомизации (стратификации), чтобы обеспечить одинаковую структуру групп сравнения по ряду важных признаков (с учетом их комбинаций). Рассмотрим вышеназванные задачи более подробно и на наглядных примерах. Планирование необходимых размеров групп сравнения Несомненно, каждому исследователю еще на этапе планирования кли- нического исследования полезно использовать некоторые простые методы расчета требуемого объема групп сравнения, при котором обеспечивается получение статистически значимых различий между частотами ожидаемых событий (в контрольной и основной группах соответственно). 54 ОСНОВЫ ДОКАЗАТЕЛЬНОЙ МЕДИЦИНЫ В частности, если планируется сделать обе группы сравнения одинаковы- ми (по N обследованных в каждой из двух групп), а частота изучаемого по- казателя (например, исхода заболевания или наличия фактора риска) пред- полагается равной P 1 % одной группе сравнения и P 2 % в другой, то для полу- чения значимого различия между указанными частотами P 1 % и P 2 % нужно, чтобы число N обследованных в каждой из двух групп было не меньше, чем результат вычисления по следующей формуле: N = 0,5 * χ 2 * (P 1 + P 2 ) * (200 – P 1 – P 2 ) / (P 1 – P 2 ) 2 Здесь χ 2 – это значение «Хи-квадрат» критерия Пирсона, которое равно 3,84 для случая статистической значимости различий на уровне 95% (т. е. p < 0,05). Если же исследователь хочет добиться значимости различия этих же частот P 1 % и P 2 % на более высоком уровне 99% (т. е. при p < 0,01), то он должен подставить в вышеприведенную формулу более высокое значение χ 2 , равное 6,64. А чтобы те же самые P 1 % и P 2 % различались на уровне значи- мости 99,9% (т. е. при p < 0,001), в качестве значения χ 2 в эту же самую фор- мулу следует подставить число 10,84. Приведем пример использования указанной формулы для расчета требу- емого числа обследованных в каждой из двух групп сравнения для некото- рых конкретных частот изучаемого показателя. Пусть, скажем, планируется за счет изучаемого воздействия на фоне лечения снизить частоту некоторых неблагоприятных исходов течения заболевания с 35% в контрольной груп- пе до 20% в основной группе. Таким образом, P 1 = 35%, а P 2 = 20%. Тогда для того, чтобы подобное снижение оказалось статистически значимым при p < 0,05, в каждую из двух групп сравнения нужно включить более, чем N = 0,5 * 3,84 * (35 + 20) * (200 – 35 – 20) / (35 – 20) 2 = 69 человек. Если нужно, чтобы эти же самые частоты P 1 = 35% и P 2 = 20% различались более значимо (например, на уровне p < 0,01), то необходимое число N обсле- дованных в каждой из двух групп сравнения должно превышать: N = 0,5 * 6,64 * (35 + 20) * (200 – 35 – 20) / (35 – 20) 2 = 118 человек. А если включить в каждую из двух групп сравнения больше больных, чем N = 0,5 * 10,84 * (35 + 20) * (200 – 35 – 20) / (35 – 20) 2 = 192 человека, то те же самые ожидаемые частоты неблагоприятных исходов течения за- болевания (35% и 20%) будут различаться уже на уровне p < 0,001. Получаемые с помощью приведенной формулы необходимые размеры групп сравнения для клинического исследования указывают то значение N, меньше которого исследователь не должен включать в контрольную и основ- ную группы сравнения, если он хочет, чтобы ожидаемые частоты P 1 % и P 2 % различались статистически значимо. Разумеется, для надежности всегда луч- ше несколько увеличить реальный объем каждой группы сравнения, хотя это может и не понадобиться, если фактические значения P 1 и P 2 окажутся бо- лее «благоприятными» для получения достоверных различий: например, они составят не 35% и 20%, а 37% и 19%, т. е. фактические различия окажутся более серьезными, чем это ожидалось до начала исследования. 55 ГЛАВА 3. Диагностические тесты. Скрининг Необходимость рандомизации (стратификации) исходного материала исследования Однако совершенно неверно было бы думать, что само по себе включение в группы сравнения достаточного числа больных сделает правомерным срав- нение результатов, полученных в этих группах. Необходимо обеспечить оди- наковую структуру сравниваемых групп не только по отдельным существен- ным показателям, но и по различным комбинациям таких показателей. Под существенными показателями следует понимать такие, которые способны оказать выраженное самостоятельное влияние на изучаемое явление (осо- бенно в сочетании с другими наличествующими факторами), т. е. исказить результаты сравнения контрольной и основной группы, если статистические характеристики (например, частоты выявления, средние значения и т. п.) этих показателей значительно различаются в сравниваемых группах больных. Именно такие показатели должны быть включены в список рандомизиру- ющих (стратифицирующих) факторов и участвовать в соответствующей ран- домизационной схеме еще на этапе формирования групп больных, сравнение которых планируется по результатам исследования. Если, например, изучается динамика течения и прогноз острого инфаркта миокарда в двух группах больных, получающих разные бета-адреноблока- торы, то такие дополнительные факторы, как наличие выраженного стено- за коронарных артерий и наличие нарушений свертывания крови (высокая свертываемость и связанная с этим наклонность к спонтанному тромбооб- разованию) могут потенцировать влияние друг друга при их одновременном наличии, что приведет к увеличению риска повторного ИМ. Поэтому при сопоставлении исходного состояния больных в сравнива- емых группах совершенно недостаточно указывать, что частота каждого из этих двух факторов по отдельности была совершенно одинаковой в обеих группах. Ведь при этом могло оказаться так, что в одной из групп было много боль- ных с сочетанием обоих неблагоприятных факторов, тогда как в другой груп- пе все случаи высокой свертываемости крови имели место только у больных без выраженного стеноза коронарных артерий, а все случаи выраженного стеноза сочетались с нормальными данными системы свертывания крови (результатами тромбоэластографии, коагулографии и др.). Тогда межгрупповые различия в частоте случаев повторного инфаркта миокарда нельзя было бы ассоциировать с применением разных методов ле- чения, поскольку серьезное неконтролируемое влияние на прогноз течения заболевания могло оказать кумулятивное воздействие выраженного стеноза коронарных артерий и повышенной склонности к тромбообразованию в од- ной из групп больных. Иными словами, для проведения адекватного сопоставления разных групп больных в динамике необходимо было заранее (еще на этапе формирования сравниваемых групп больных) гарантировать то, что не будет различаться структура групп по различным комбинациям неблагоприятных факторов. 56 ОСНОВЫ ДОКАЗАТЕЛЬНОЙ МЕДИЦИНЫ Более того, даже при недоучете одного-единственного важного фактора результаты исследования может оказаться невозможно интерпретировать однозначно. Пример структурной несогласованности материала при отсутствии рандомизации Проиллюстрируем подобную несогласованность, которой можно было бы легко избежать, применяя подходящую рандомизационную схему на этапе формирования сравниваемых групп больных. Например, в одной группе из 2000 больных АГ оценивалась эффектив- ность некоторого давно применяемого антигипертензивного препарата, а в другой группе, также включавшей 2000 больных АГ – эффективность нового препарата. Получилось так, что у больных с большей давностью заболевания (и, соот- ветственно, с несколько большей выраженностью АГ) намного чаще назнача- ли известный препарат, тогда как у больных с недавно выявленной АГ имелся противоположный «перекос»: там чаще назначали новый препарат. Подобная несогласованность могла быть следствием того, что исследо- ватели «пошли на поводу» больных, которые давно уже лечились известным препаратом, демонстрировали приверженность к нему и тем самым повлияли на решение организаторов включить их именно в ту группу больных («кон- трольную»), где им назначили этот традиционный препарат. А «недавним» больным АГ легче удавалось назначать незнакомый им препарат, так что для формирования равных по объему групп больных (т. е. на каждом из двух пре- паратов) организаторам пришлось у таких больных пойти на противополож- ный структурный перекос. И хотя критерии эффективности лечения были вполне адекватными (они учитывали разные целевые значения АД при наличии или отсутствии са- харного диабета, а также включали регистрацию полной и частичной нор- мализации АД на фоне лечения и пр.), полученные результаты оказались противоречивыми. Вот конкретные цифры (округленные для наглядности): 1). «Традиционный» препарат получали 1600 больных с более длительным заболеванием в анамнезе и всего 400 человек, у которых АГ была выявлена недавно. Новый препарат, наоборот, получали только 400 больных с более длительным заболеванием и 1600 человек, у которых АГ была выявлена не- давно. Таким образом, обе группы больных включали по 2000 человек, однако структура каждой группы по давности заболевания АГ оказалась совершенно разной. 2). При «давней» АГ эффективное лечение традиционным препаратом от- мечено у 400 больных из 1600 (25%), а лечение новым препаратом оказалось эффективно у 80 из 400 больных (20%, что значимо меньше, чем для тради- ционного препарата, при p < 0,05). 3). При «недавней» АГ эффективное лечение традиционным препаратом 57 ГЛАВА 3. Диагностические тесты. Скрининг отмечено у 200 больных из 400 (50%), тогда как лечение новым препаратом оказалось эффективно у 720 из 1600 больных (45%, что также значимо мень- ше, чем для традиционного препарата, при p < 0,05). 4). Таким образом, вроде бы можно было констатировать, что новый пре- парат достоверно менее эффективен, чем традиционно применяемый, как у больных с более давней АГ, так и в группе, где заболевание было выявлено недавно. При этом больные с большей давностью заболевания в целом ха- рактеризовались меньшей эффективностью лечения, чем больные с недавно выявленной АГ. 5). Однако, если посмотреть суммарные цифры эффективности лечения обоими препаратами, то оказывается, что из 2000 больных, получавших тра- диционный препарат, гипотензивный эффект отмечали у 600 больных (выше- указанные 400 случаев эффективного лечения среди лиц с давней АГ и 200 случаев среди больных с недавней АГ). А вот из 2000 больных, получавших новый препарат, эффективное лечение имело место у 800 больных (т.е, со- ответственно, 80 случаев среди лиц с давней АГ и еще 720 случаев среди больных с недавней АГ). Получается, что в целом (без учета давности заболевания) эффективность антигипертензивного лечения новым препаратом составляла 40%, а анало- гичная эффективность традиционного лечения – только 30% (различия зна- чимы при p < 0,001, т. е. новый препарат не менее, а более эффективен, чем традиционно применяемый). Конечно, вышеописанный пример для наглядности сильно упрощен, но он ясно демонстрирует, что при формировании групп сравнения больных не- разумно обходиться без рандомизации (стратификации), обеспечивающей идентичность этих сравниваемых групп – с учетом комбинаций таких до- полнительных важных факторов, которые оказывают собственное влияние на ожидаемые результаты исследования. Пример рандомизационной (стратификационной) схемы Приведем один из примеров схемы рандомизации (или стратификации), которая призвана обеспечить формирование двух равных по численности групп больных (контрольной и основной), на материале которых предпола- гается сравнить эффективность программы обучения больных АГ по борьбе с такими факторами риска, как наличие абдоминального ожирения и гипер- холестеринемия. Соответственно, в каждую из двух групп сравнения будут включаться больные АГ (1-й или 2-й степени), обязательно имеющие на мо- мент включения абдоминальное ожирение (но разный уровень общего индек- са массы тела) и уровень общего холестерина не менее 4,5 ммоль/л. В качестве рандомизирующих факторов можно выбрать, например, сте- пень АГ (1-я или 2-я), индекс массы тела – как показатель наличия или от- сутствия общего ожирения (т. е. ИМТ менее 30 кг/м 2 – или, наоборот, ИМТ = 30 кг/м 2 и более), а также уровень ОХС (менее 6 ммоль/л – или, наоборот, 6 ммоль/л и более). 58 ОСНОВЫ ДОКАЗАТЕЛЬНОЙ МЕДИЦИНЫ Таким образом, три вышеописанных фактора обеспечивают наличие вось- ми различных комбинаций – т. е. восьми «виртуальных» рандомизационных групп, различающихся хотя бы по одному из трех факторов. Виртуальными их можно назвать потому, что фактически эти восемь групп будут сущест- вовать только «на бумаге», обеспечивая при этом по ходу набора больных в исследование процесс адекватного формирования всего двух групп боль- ных – контрольной и основной (однако – с учетом трех выбранных рандоми- зирующих факторов). Как это осуществляется на практике? Достаточно заготовить 8 чистых лис- тов бумаги (или, соответственно, 8 листов таблицы в программе Excel) и озаг- лавить эти листы с учетом комбинации рандомизирующих факторов. Тогда заголовком 1-го листа будет: «Группа 1: больные АГ 1-й степени, с ИМТ менее 30 кг/м 2 и при уровне общего холестерина менее 6 ммоль/л (од- нако не менее 4,5 ммоль/л, поскольку такой уровень был выбран в качестве обязательного для включения больных в исследование). Заголовок 2-го листа: «Группа 2: больные АГ 1-й степени, с ИМТ менее 30 кг/м 2 и при уровне общего холестерина 6 ммоль/л и более (т. е. 2-я рандо- мизационная группа отличается от первой только исходным уровнем общего холестерина). Заголовок 3-го листа: «Группа 3: больные АГ 1-й степени, с ИМТ 30 кг/м 2 и более, но при уровне общего холестерина менее 6 ммоль/л (т. е. 3-я рандо- мизационная группа отличается от первой только исходным уровнем ИМТ). Заголовок 4-го листа: «Группа 4: больные АГ 1-й степени, с ИМТ 30 кг/м 2 и более, при уровне общего холестерина 6 ммоль/л и более (т. е. 4-я рандо- мизационная группа отличается от первой и уровнем ИМТ, и уровнем общего холестерина). Оставшиеся четыре рандомизационные группы формируются по ана- логичной схеме, но для больных с АГ 2-й степени на момент включения в исследование. Таким образом, последняя, 8-я «виртуальная» рандомизационная группа будет иметь заголовок: «Группа 8: больные АГ 2-й степени, с ИМТ 30 кг/м 2 и более, при уровне общего холестерина 6 ммоль/л и более (т. е. 8-я рандо- мизационная группа отличается от 1-й группы и степенью АГ, и уровнем ИМТ, и уровнем общего холестерина). Каким же образом будут использоваться эти восемь виртуальных групп при наборе больных АГ в исследование? Очень просто: первый же больной, попадающий по комбинации своего холестерина, ИМТ и степени АГ в любую конкретную рандомизационную группу, автоматически должен быть включен в контрольную группу общего исследования. Но как только в эту же рандо- мизационную группу попадет второй человек, он должен быть включен в ос- новную группу исследования. Через некоторое время по мере прихода боль- ных (попадающих в другие рандомизационные группы по такому же прави- лу) в эту же конкретную рандомизационную группу попадет третий по счету больной – снова «контрольный». Четвертый больной с тем же набором трех |