Главная страница
Навигация по странице:

  • Галотан и морфин при операциях на открытом сердце

  • Таблица 4.2.

  • Плацебо Тестостерон Эстрадиол 45 40 35 30 25 Ро ст , см

  • Бег и менструации. Продолжение анализа

  • Глантз. Книга Primer of biostatistics fourth edition


    Скачать 6.07 Mb.
    НазваниеКнига Primer of biostatistics fourth edition
    АнкорГлантз
    Дата30.04.2023
    Размер6.07 Mb.
    Формат файлаpdf
    Имя файлаglantz.pdf
    ТипКнига
    #1099022
    страница9 из 37
    1   ...   5   6   7   8   9   10   11   12   ...   37
    Позволяет ли правильное лечение сократить срок
    госпитализации?
    Обратимся к рис. 3.7. Средняя продолжительность госпитализации
    36 больных пиелонефритом, получавших правильное (соответ- ствующее официальным рекомендациям) лечение, составила
    4,51 сут, а 36 больных, получавших неправильное лечение 6,28
    сут. Стандартные отклонения для этих групп — соответственно
    1,98 сут и 2,54 сут. Так как численность групп одна и та же,
    объединенная оценка дисперсии
    (
    )
    2 2
    2 1 1,98 2,54 5,18.
    2
    =
    +
    =
    s
    Под- ставив эту величину в выражение для t, получим
    4,51 6,28 3,30.
    5,18 5,18 36 36

    =
    = −
    +
    t
    Число степеней свободы
    ν = 2 (n – 1) = 2 (36 – 1) = 70. По таблице 4.1 находим, что для 1% уровня значимости критичес- кое значение t составляет 2,648, то есть меньше чем мы получи- ли (по абсолютной величине). Следовательно, если бы наши группы представляли собой две случайные выборки из одной совокупности, то вероятность получить наблюдаемые различия,
    была бы меньше 1%. Итак различия в сроках госпитализации статистически значимы.
    Галотан и морфин при операциях на открытом сердце
    В исследовании Конахана и соавт. (рис. 3.8) минимальное
    АД
    средн между началом анестезии и началом операции составляло в среднем: при галотановои анестезии 66,9 мм. рт. ст., при морфино-
    СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА

    98
    вой — 73,2 мм. рт. ст. Стандартные отклонения составляли со- ответственно 12,2 и 14,4 мм. рт. ст. В каждой группе был 61
    больной.
    Вычислим объединенную оценку дисперсии:
    (
    )
    2 2
    2 1
    12, 2 14, 4 178,1,
    2
    =
    +
    =
    s
    тогда
    66,9 73,2 2,607.
    178,1 178,1 61 61

    =
    = −
    +
    t
    Число степеней свободы
    ν = 2(n – 1) = 2(61 – 1) = 120. По таблице 4.1 находим, что для 5% уровня значимости критичес- кое значение t составляет 1,980, то есть меньше, чем мы полу- чили. Заключаем, что морфин меньше снижает артериальное давление, чем галотан.
    Конахан и соавт. измеряли еще один параметр гемодинамики
    — минутный объем сердца (объем крови, который левый желу- дочек перекачивает за минуту). Поскольку этот объем зависит
    ГЛАВА 4
    Галотан (n = 9)
    Морфин (n = 16)
    Показатель
    Среднее
    Стандартное отклонение
    Среднее
    Стандартное отклонение
    Наилучший сердечный индекс 2,08 1,05 1,75 0,88
    Среднее артериальное давление при наилучшем сердечном индексе, мм рт. ст. 76,8 13,8 91,4 19,6
    Общее периферическое сосудистое сопротивление при наилучшем сердечном индексе, дин с см
    -5 2210 1200 2830 1130
    Таблица 4.2. Показатели гемодинамики при галотановой и мор- финовой анестезии.
    T. J. Conahan et al. A prospective random comparison of halothane and morphine for open- heart anesthesia one year experience. Anesthesiology, 38:528—535, 1973.

    99
    от размеров тела, деятельность сердца (которая и интересовала исследователей) лучше характеризуется сердечным индексом
    отношением минутного объема сердца к площади поверхности тела. В группе галотана сердечный индекс определили у 9 боль- ных (табл. 4.2), он составил в среднем 2,08 л/мин/м
    2
    (стандарт- ное отклонение 1,05 л/мин/м
    2
    ), у 16 больных в группе морфина
    — 1,75 л/мин/м
    2
    (стандартное отклонение 0,88 л/мин/м
    2
    ). Явля- ется ли это различие статистически значимым?
    Найдем объединенную оценку дисперсии
    (
    )
    (
    )
    2 2
    2 9 1 1,05 16 1 0,88 0,89,
    9 16 2

    +

    =
    =
    + −
    s
    и поэтому
    2,08 1,75 0,84.
    0,89 0,89 9
    16

    =
    =
    +
    t
    Число степеней свободы
    ν = 9 + 16 – 2 = 23. Критическое значение t при 5% уровне значимости составляет 2,069, что боль- ше полученного нами. Итак, статистически значимых различий не найдено. Можно ли утверждать, что различий нет? Ответ на этот вопрос мы узнаем в гл. 6.
    КРИТЕРИЙ СТЬЮДЕНТА С ТОЧКИ ЗРЕНИЯ
    ДИСПЕРСИОННОГО АНАЛИЗА*
    Хотя критерий Стьюдента является просто вариантом диспер- сионного анализа, этот факт осознается очень немногими. По- кажем, что в случае двух групп справедливо равенство F = t
    2
    Рассмотрим две выборки равного объема n и со средними
    1
    X
    и
    2
    X
    и стандартными отклонениями s
    1
    и s
    2
    Как вы помните, отношение F есть отношение двух оценок дисперсии. Первая, внутригрупповая оценка есть среднее вы- борочных дисперсий:
    * Этот раздел посвящен сугубо математической стороне дела, и его можно пропустить без ущерба для понимания дальнейшего изложения.
    СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА

    100
    (
    )
    2 2
    2
    вну
    1 2
    1 2
    s
    s
    s
    =
    +
    Вторая межгрупповая оценка вычисляется по выборочным средним:
    (
    ) (
    )
    2 2
    1 2
    ,
    2 1

    +

    =

    X
    X
    X
    X
    X
    s
    следовательно,
    (
    ) (
    )
    2 2
    2 1
    2
    ,
    =

    +

    X
    s
    X
    X
    X
    X
    где X — среднее двух выборочных средних:
    (
    )
    1 2
    1 2
    =
    +
    X
    X
    X
    Исключим X из формулы для
    2
    :
    X
    s
    (
    )
    (
    )
    2 2
    2 1
    1 2
    2 1
    2 2
    2 1
    2 2
    1 1
    1 2
    2 1
    1 1
    1 2
    2 2
    2




    =

    +
    +

    +
    =












    =

    +









    X
    s
    X
    X
    X
    X
    X
    X
    X
    X
    X
    X
    Если разность возводится в квадрат все равно, что из чего вычитать (а – b)
    2
    = (b – а)
    2
    . Поэтому
    (
    )
    (
    )
    2 2
    2 1
    2 1
    2 2
    2 1
    2 1
    2 1
    1 1
    1 2
    2 2
    2 1
    1 2
    2 2




    =

    +

    =










    =

    =





    X
    s
    X
    X
    X
    X
    X
    X
    X
    X
    Таким образом, межгрупповая оценка дисперсии
    (
    )
    2 2
    2
    меж
    1 2
    2
    X
    n
    s
    ns
    X
    X
    =
    =

    F есть отношение межгрупповой оценки к внутригрупповой и равно
    ГЛАВА 4

    101
    (
    )
    (
    )
    (
    )
    2 2
    2 1
    2 1
    2
    меж
    2 2
    2 2
    2 1
    2
    вну
    1 2
    2 1
    2 2
    2 1
    2 2
    1 2
    n
    X
    X
    X
    X
    s
    F
    s
    s
    s
    s
    s
    n
    n
    X
    X
    s
    s
    n
    n


    =
    =
    =
    =
    +
    +







    =


    +






    Но величина в скобках есть не что иное, как t. Тем самым,
    F = t
    2
    Межгрупповое число степеней свободы в F равно числу групп минус единица, то есть 2 – 1 = 1. Внутригрупповое число степе- ней свободы равно произведению числа групп на число равное численности каждой группы минус единица, то есть 2(n – 1).
    Но это как раз число степеней свободы в критерии Стьюдента.
    Таким образом, можно сказать, что в случае сравнения двух групп критерии Стьюдента и дисперсионный анализ — вариан- ты одного критерия. Конечно, если групп больше двух диспер- сионный анализ в форме критерия Стьюдента неприменим и нужно воспользоваться общим вариантом дисперсионного ана- лиза изложенным в гл. 3.
    ОШИБКИ В ИСПОЛЬЗОВАНИИ КРИТЕРИЯ СТЬЮДЕНТА
    Критерий Стьюдента предназначен для сравнения двух групп.
    Однако на практике он широко (и неправильно — см. рис. 4.1)
    используется для оценки различии большего числа групп по- средством попарного их сравнения. При этом вступает в силу
    эффект множественных сравнений который нам еще неоднок- ратно встретится в разнообразных обличиях.
    Рассмотрим пример. Исследуют влияние препаратов А и Б на уровень глюкозы плазмы. Исследование проводят на трех груп- пах — получавших препарат А, получавших препарат Б и полу- чавших плацебо В. С помощью критерия Стьюдента проводят
    СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА

    102 3 парных сравнения: группу А сравнивают с группой В, груп- пу Б — с группой В и наконец А с Б. Получив достаточно вы- сокое значение t в каком либо из трех сравнении сообщают что
    «P < 0,05». Это означает, что вероятность ошибочного заклю- чения о существовании различии не превышает 5%. Но это неверно: вероятность ошибки значительно превышает 5%.
    Разберемся подробнее. В исследовании был принят 5% уро- вень значимости. Значит вероятность ошибиться при сравнении групп А и В — 5%. Казалось бы все правильно. Но точно также мы ошибемся в 5% случаев при сравнении групп Б и В. И нако- нец при сравнении групп А и Б ошибка возможна также в 5%
    случаев. Следовательно, вероятность ошибиться хотя бы в од-
    ном из трех сравнении составит не 5%, а значительно больше. В
    общем случае эта вероятность равна
    (
    )
    1 1 0,05 ,
    ′ = − −
    k
    P
    где k — число сравнений.
    При небольшом числе сравнений можно использовать при- ближенную формулу
    0,05 ,
    ′ =
    P
    k
    то есть вероятность ошибиться хотя бы в одном из сравнений примерно равна вероятности ошибиться в одном, помноженной на число сравнений.
    Итак, в нашем исследовании вероятность ошибиться хотя бы в одном из сравнений составляет примерно 15%. При сравнении четырех групп число пар и соответственно возможных попарных сравнений равно 6. Поэтому при уровне значимости в каждом из сравнении 0,05 вероятность ошибочно обнаружить различие хотя бы в одном равна уже не 0,05, а примерно 6
    × 0,05 = 0,30. И когда исследователь, выявив таким способом «эффективный» препа- рат будет говорить про 5% вероятность ошибки, на самом деле эта вероятность равна 30%.
    Вернемся на минуту к нашим марсианам. Рассматривая в гл.
    2 случайные выборки из населения этой планеты мы убедились,
    что у разных выборок из одной совокупности могут быть за- метно разные средние значения и стандартные отклонения —
    ГЛАВА 4

    103
    взять хоть три случайные выборки на рис. 2.6. Представим себе что это — результаты исследования влияния гормонов человека на рост марсиан. Одной группе дали тестостерон другой — эс- традиол, а третьей — плацебо. Как известно гормоны человека не оказывают на марсиан никакого действия, поэтому три экс- периментальные группы — это просто три случайные выборки из одной совокупности как мы это и знали с самого начала. Что хорошо известно нам то неизвестно исследователям. На рис. 4.6
    результаты исследования представлены в виде принятом в ме- дицинских публикациях. Столбиками изображены выборочные средние. Вертикальные черточки задают интервалы в плюс-ми- нус одну стандартную ошибку среднего. Засучив рукава наши исследователи приступают к попарному сравнению групп с по- мощью критерия Стьюдента и получают такие значения t пла- цебо—тестостерон — 2,39, плацебо—эстрадиол — 0,93 и тес- тостерон—эстрадиол — 1,34. Так как в каждом сравнении уча- ствуют 2 группы по 10 марсиан в каждой число степеней свобо- ды равно 2(10 – 1) = 18. По таблице 4.1 находим, что при 5%
    уровне значимости критическое значение t равно 2,101. Таким образом, пришлось бы заключить что марсиане, получавшие тестостерон стали меньше ростом чем марсиане, получавшие плацебо, в то время как эстрадиол по влиянию на рост суще- ственно не отличается от плацебо, а тестостерон от эстрадиола.
    Задумайтесь над этим результатом. Что в нем не так?
    Если тестостерон дал результаты не отличающиеся от эстра- диола, а эстрадиол действует неотличимо от плацебо то как те- стостерон оказался отличным от плацебо? Столь странный вы- вод обычно не смущает исследователей, а лишь вдохновляет их на создание изощренного «Обсуждения».
    Дисперсионный анализ приведенных данных дает значение
    F = 2,74. Число степеней свободы
    ν
    меж
    = m – 1 = 3 – 1 = 2 и
    ν
    вну
    =
    m (n – 1) = 3 (10 – 1) = 27. Критическое значение F для 5% уровня значимости равно 3,35, то есть превышает полученное нами.
    Итак, дисперсионный анализ говорит об отсутствии различий между группами.
    В заключение приведем три правила:
    • Критерий Стьюдента может быть использован для проверки гипотезы о различии средних только для двух групп.
    СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА

    104
    • Если схема эксперимента предполагает большее число групп,
    воспользуйтесь дисперсионным анализом.
    • Если критерии Стьюдента был использован для проверки раз- личий между несколькими группами, то истинный уровень значимости можно получить, умножив уровень значимости,
    приводимый авторами на число возможных сравнений.
    КРИТЕРИЙ СТЬЮДЕНТА ДЛЯ МНОЖЕСТВЕННЫХ
    СРАВНЕНИЙ
    Только что мы познакомились со злостным вредителем науч- ных исследований — эффектом множественных сравнений. Он состоит в том, что при многократном применении критерия ве- роятность ошибочно найти различия там, где их нет возрастает.
    Если исследуемых групп больше двух, то следует восполь- зоваться дисперсионным анализом. Однако дисперсионный ана-
    ГЛАВА 4
    Рис. 4.6. Влияние гормонов человека на рост марсиан. Именно в таком виде результаты исследования увидели бы свет в каком-нибудь медицинском журнале. Высота столби- ков соответствует средним, вертикальная черта на верхушке у каждого столбика соот- ветствует интервалу плюс-минус одна стандартная ошибка среднего (а не стандартное отклонение).
    Плацебо
    Тестостерон
    Эстрадиол
    45
    40
    35
    30
    25
    Ро
    ст
    , см

    105
    лиз позволяет проверить лишь гипотезу о равенстве всех сред- них. Но если гипотеза не подтверждается, нельзя узнать какая именно группа отличается от других.
    Это позволяют сделать методы множественного сравнения.
    Все они основаны на критерии Стьюдента, но учитывают, что сравнивается более одной пары средних. Сразу поясним, когда на наш взгляд следует использовать эти методы. Наш подход состоит в том, чтобы в первую очередь с помощью дисперсион- ного анализа проверить нулевую гипотезу о равенстве всех сред- них, а уже затем если нулевая гипотеза отвергнута выделить среди них отличные от остальных, используя для этого методы множественного сравнения*. Простейший из методов множе- ственного сравнения — введение поправки Бонферрони.
    Как было показано в предыдущем разделе при трехкратном применении критерия Стьюдента, с 5% уровнем значимости, ве- роятность обнаружить различия там, где их нет, составляет не
    5%, а почти 3
    × 5 = 15%. Этот результат является частным слу- чаем неравенства Бонферрони, если k раз применить критерии с уровнем значимости
    α, то вероятность хотя бы в одном случае найти различие там, где его нет не превышает произведения k
    на
    α. Неравенство Бонферрони выглядит так:
    ,
    ′ < k
    α
    α
    где
    α′ — вероятность хотя бы один раз ошибочно выявить раз- личия.
    Можно сказать, что
    α′ собственно и является истинным уров- нем значимости многократно примененного критерия. Из нера- венства Бонферрони следует, что если мы хотим обеспечить вероятность ошибки
    α′, то в каждом из сравнений мы должны принять уровень значимости
    α′
    /
    k — это и есть поправка Бон- феррони. Например, при трехкратном сравнении уровень зна- чимости должен быть 0,05/3 = 1,7%.
    * Некоторые авторы считают этап дисперсионного анализа излишним и предлагают сразу применить методы множественного сравнения.
    Этот подход изложен в В. W. Broun, Jr., M. Hollander. Statistics: a biomedical introduction. Wiley, NewYork, 1977, chap. 10. Analysis of K- samples problems.
    СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА

    106
    Поправка Бонферрони хорошо работает, если число сравне- ний невелико. Если оно превышает 8, метод становится слиш- ком «строгим и даже весьма большие различия приходится при- знавать статистически незначимыми*. Существуют не столь же- сткие методы множественного сравнения, например критерии
    Ньюмена-Кейлса (его мы рассмотрим в следующем разделе). Все методы множественного сравнения схожи с поправкой Бонфер- рони в том что, будучи модификацией критерия Стьюдента, учи- тывают многократность сравнений.
    Один из способов смягчить строгость поправки Бонферро- ни состоит в том, чтобы увеличить число степеней свободы, вос- пользовавшись знакомой из дисперсионного анализа внутри- групповой оценкой дисперсии. Вспомним что
    1 2
    2 2
    1 2
    ,

    =
    +
    X
    X
    t
    s
    s
    n
    n
    где s
    2
    – объединенная оценка дисперсии совокупности.
    Используя в качестве такой оценки внутригрупповую дис- персию
    2
    вну
    s (гл. 3), получим:
    1 2
    2 2
    вну вну
    1 2
    X
    X
    t
    s
    s
    n
    n

    =
    +
    Если объемы выборок одинаковы то
    1 2
    2
    вну
    2
    X
    X
    t
    s
    n

    =
    Число степеней свободы
    ν = m(n – 1). Если число групп m
    больше 2, то число степеней свободы при таком расчете будет
    * Способность критерия выявлять различия называется чувствительностью,
    она обсуждается в гл. 6.
    ГЛАВА 4

    107
    больше 2(n – 1) благодаря чему критическое значение t умень- шится.
    Бег и менструации. Продолжение анализа
    В предыдущей главе мы выяснили, что различия в ежегодном числе менструальных циклов в группах спортсменок физкуль- турниц и в контрольной группе статистически значимы. Одна- ко осталось неясным, отличаются ли от контрольной группы и спортсменки и физкультурницы или только спортсменки? От- личаются ли спортсменки от физкультурниц? Способа опреде- лить межгрупповые различия у нас не было. Теперь, используя критерий Стьюдента с поправкой Бонферрони, мы можем по- парно сравнить все три группы.
    Внутригрупповая оценка дисперсии
    2
    вну
    s = 3,95. Число групп
    m = 3, численность каждой группы n = 26. Следовательно, чис- ло степеней свободы
    ν = m(n – 1) = 3(26 – 1) = 75. (Если бы мы оценивали дисперсию по двум группам, число степеней свобо- ды было бы 2(n – 1) = 2(26 – 1) = 50). Произведем попарное срав- нение трех групп.
    При сравнении контрольной группы и группы физкультур- ниц имеем:
    2 1
    2
    вну
    10,1 11,5 2,54,
    2 3,95 2
    26
    X
    X
    t
    s
    n


    =
    =
    = −
    ×
    при сравнении контрольной группы и группы спортсменок:
    3 1
    2
    вну
    9,1 11,5 4,35,
    2 3,95 2
    26
    X
    X
    t
    s
    n


    =
    =
    = −
    ×
    и при сравнении группы физкультурниц и группы спортсменок:
    2 3
    2
    вну
    10,1 9,1 1,81.
    2 3,95 2
    26
    X
    X
    t
    s
    n


    =
    =
    =
    ×
    Мы провели 3 сравнения, поэтому уровень значимости в каж-
    СРАВНЕНИЕ ДВУХ ГРУПП: КРИТЕРИЙ СТЬЮДЕНТА

    108
    дом должен быть 0,05/3, то есть примерно 0,017. По таблице 4.1
    находим*, что при 75 степенях свободы критическое значение составляет примерно 2,45.
    Таким образом, мы можем заключить, что и у спортсменок и у физкультурниц частота менструации ниже, чем в контрольной группе при этом у спортсменок и физкультурниц она не отлича- ется.
    КРИТЕРИЙ НЬЮМЕНА-КЕЙЛСА**
    При большом числе сравнении поправка Бонферрони делает критерии Стьюдента излишне жестким. Более изощренный кри-
    терий Ньюмена–Кейлса дает более точную оценку вероятности
    α′; чувствительность его выше, чем критерия Стьюдента с по- правкой. Бонферрони.
    Сначала нужно с помощью дисперсионного анализа прове- рить нулевую гипотезу о равенстве всех средних. Если она от- вергается, все средние упорядочивают по возрастанию и срав- нивают попарно, каждый раз вычисляя значение критерия Нью- мена–Кейлса:
    2
    вну
    ,
    1 1
    2
    A
    B
    A
    B
    X
    X
    q
    s
    n
    n

    =


    +




    * Собственно говоря, значения для
    α = 0,017 в таблице нет. В таких случаях можно либо использовать ближайшее меньшее значение (в нашем при- мере это 0,01) либо приблизительно рассчитать нужное критическое зна- чение по соседним. Если нужное нам значение
    α
    н находится между
    α
    1
    и
    α
    2
    , которым соответствуют критические значения t
    1
    и t
    2
    то
    (
    )(
    )
    (
    )
    1 1
    2 1
    1
    ,
    н н
    2

    = +


    t
    t
    t
    t
    α α
    α α
    где t
    н
    — критическое значение для уровня значимости a н
    ** Этот раздел важен для тех, кто использует нашу книгу как руководство по анализу данных. Его можно опустить без ущерба для пони мания осталь- ного материала.
    ГЛАВА 4

    109
    где
    A
    X
    и
    B
    X
    — сравниваемые средние,
    2
    вну
    s — внутригрупповая дисперсия, а n
    A
    и n
    B
    численность групп.
    Вычисленное значение q сравнивается с критическим значе- нием (табл. 4.3). Критическое значение зависит от
    α′ (вероятность ошибочно обнаружить различия хотя бы в одной из всех сравни- ваемых пар, то есть истинный уровень значимости) числа степе- ней свободы
    ν = Nm (где N – сумма численностей всех групп, m
    – число групп) и величины l, которая называется интервалом срав- нения. Интервал сравнения определятся так. Если сравниваются средние стоящие соответственно на j-м и i-м месте в упорядочен- ном ряду, то интервал сравнения l = j – i + 1. Например, при срав- нении 4-го и 1-го членов этого ряда l = 4 – 1 + 1 = 4, при сравнении 2-го и 1-го l = 2 – 1 + 1 = 2.
    Результат применения критерия Ньюмена-Кейлса зависит от очередности сравнений, поэтому их следует проводить в опре- деленном порядке. Этот порядок задается двумя правилами.
    1. Если мы расположили средние от меньшего к большему
    (от 1 до m), то сначала нужно сравнить наибольшее с наимень- шим, то есть m-оe с 1-ым, затем m-ое со 2-ым, 3-м и так далее вплоть до m – 1-го. Затем предпоследнее (m – 1-е) тем же поряд- ком сравниваем с 1-м, 2-м и так далее до m – 2-го. Продолжаем эти «стягивающие сравнения» пока не переберем все пары. На- пример, в случае 4 групп порядок сравнений такой: 4 – 1, 4 – 2,
    4 – 3, 3 – 1, 3 – 2, 2 – 1.
    2. Перебирать все пары впрочем, приходится не всегда. Если какие-либо средние не различаются, то все средние лежащие между ними тоже не различаются. Например, если не выявлено различий между 3-м и 1-м средним, не нужно сравнивать ни 3-е со 2-м, ни 2-е с 1-м.
    1   ...   5   6   7   8   9   10   11   12   ...   37


    написать администратору сайта