Главная страница
Навигация по странице:

  • Сравнение нескольких групп: дисперсионный анализ

  • Глантз. Книга Primer of biostatistics fourth edition


    Скачать 6.07 Mb.
    НазваниеКнига Primer of biostatistics fourth edition
    АнкорГлантз
    Дата30.04.2023
    Размер6.07 Mb.
    Формат файлаpdf
    Имя файлаglantz.pdf
    ТипКнига
    #1099022
    страница4 из 37
    1   2   3   4   5   6   7   8   9   ...   37
    Рис. 2.8. С увеличением объема выборки возрастает точность оценки параметров распределения. Выборочное среднее
    X
    стремится к среднему в совокупности
    µ вы- борочное стандартное отклонение s стремится к стандартному отклонению в сово- купности
    σ, а стандартная ошибка среднего стремится к нулю.
    КАК ОПИСАТЬ ДАННЫЕ

    44
    ния. Тем самым, из статьи видно, что почти у всех обследованных сердечный индекс составил от 3 до 7 л/мин. Такие сведения весь- ма полезны, их легко использовать во врачебной практике.
    Увы, приведенный пример далек от реальности. Скорее ав- тор укажет не стандартное отклонение, а стандартную ошибку среднего. Тогда из статьи вы узнаете, что «сердечный выброс составил 5,0 ± 0,22 л/мин». И если бы мы спутали стандартную ошибку среднего со стандартным отклонением, то пребывали бы в уверенности, что 95% совокупности заключено в интервал от 4,56 до 5,44 л/мин. На самом деле в этом интервале (с вероят- ностью 95%) находится среднее значение сердечного выброса.
    (В гл. 7 мы поговорим о доверительных интервалах более под- робно). Впрочем, стандартное отклонение можно рассчитать самому — для этого нужно умножить стандартную ошибку сред- него на квадратный корень из объема выборки (численности группы). Правда, для этого нужно знать, что же именно приво- дит автор — стандартное отклонение или стандартную ошибку среднего.
    ВЫВОДЫ
    Когда совокупность подчиняется нормальному распределению,
    она исчерпывающе описывается параметрами распределения
    средним и стандартным отклонением. Когда же распределение сильно отличается от нормального, более информативны медиа- на и процентили.
    Так как наблюдать всю совокупность удается редко, мы оце-
    ниваем параметры распределения по выборке, случайным об- разом извлеченной из совокупности. Стандартная ошибка сред- него служит мерой точности, с которой выборочное среднее яв- ляется оценкой среднего по совокупности.
    Эти величины полезны не только для описания совокупнос- ти или выборки. Их можно также использовать для проверки статистических гипотез, в частности о различиях между груп- пами.
    Этому и будет посвящена следующая глава.
    ГЛАВА 2

    45
    ЗАДАЧИ
    2.1. Найдите среднее, стандартное отклонение, медиану, 25- й и 75-й процентили для следующей выборки 0; 0; 0; 1; 1; 1; 1;
    1; 1; 1; 1; 1; 1; 1; 2; 2; 2; 2; 3; 3; 3; 3; 4; 4; 5; 5; 5; 5; 6; 7; 9; 10; 11.
    Можно ли считать, что выборка извлечена из совокупности с нормальным распределением? Обоснуйте свой ответ. (Приве- денные числа — клинические оценки тяжести серповиднокле- точной анемии. Подробный анализ этого исследования см. в за- даче 8.9. Данные заимствованы из работы: R. Hebbel et al. Erythro- cyte adherence to endothelium in sickle-cell anemia: a possible determinant of disease seventy. N. Engl. J. Med., 302, 992–995, 1980).
    2.2. Найдите среднее, стандартное отклонение, медиану, 25- й и 75-й процентили для следующих данных 289, 203, 359, 243,
    232, 210, 251, 246, 224, 239, 220, 211. Можно ли считать, что выборка извлечена из совокупности с нормальным распределе- нием? Обоснуйте свой ответ. (Эти числа — продолжительность
    (в секундах) физической нагрузки до развития приступа стено- кардии у 12 человек с ишемической болезнью сердца. Данные заимствованы из работы: W. Aronow. Effect of nonnicotine ciga- retts and carbon monoxide on angina. Circulation, 61:262–265, 1979.
    Более подробно эта работа описана в задаче 9.5.)
    2.3. Найдите среднее, стандартное отклонение, медиану, 25- й и 75-й процентили для следующих данных 1,2; 1,4; 1,6; 1,7;
    1,7; 1,8; 2,2; 2,3; 2,4; 6,4; 19,0; 23,6. Можно ли считать, что это
    — выборка из совокупности с нормальным распределением?
    Обоснуйте свой ответ. (Приведены результаты оценки прони- цаемости сосудов сетчатки из работы: G. A. Fishman et al. Blood- retinal barrier function in patients with cone or cone-rod dystrophy.
    Arch . Ophthalmol., 104:545–548, 1986.)
    2.4. Опишите распределение числа очков, выпадающих при бросании игральной кости. Найдите среднее число очков.
    2.5. Бросьте одновременно две игральные кости, посмотри- те, сколько очков выпало на каждой из них, и рассчитайте сред- нее. Повторите опыт 20 раз и постройте распределение сред- них, найденных после каждого броска. Что это за распределе- ние? Вычислите его среднее и стандартное отклонение. Что они характеризуют?
    КАК ОПИСАТЬ ДАННЫЕ

    46
    2.6. Р. Флетчер и С. Флетчер (R. Fletcher, S. Fletcher. Clinical research in general medical journals: a 30-year perspective. N. Engl.
    J. Med., 301:180–183, 1979) изучили библиографические харак- теристики 612 случайно выбранных статей, опубликованных в журналах Journal of American Medical Association, New England
    Journal of Medicine и Lancet с 1946 г. Одним из показателей было число авторов статьи. Было установлено следующее:
    Нарисуйте график среднего числа авторов по годам. Может ли распределение статей по числу авторов быть нормальным?
    Почему?
    Год
    Число обследо-
    Среднее число
    Стандартное ванных статей авторов отклонение
    1946 151 2,0 1,4 1956 149 2,3 1,6 1966 157 2,8 1,2 1976 155 4,9 7,3
    ГЛАВА 2

    Глава 3
    Сравнение нескольких групп:
    дисперсионный анализ
    Статистические методы используют для описания данных и для оценки статистической значимости результатов опыта. В
    предыдущей главе мы занимались описанием данных. Мы ввели понятия среднего, стандартного отклонения, медианы и процентилей. Мы узнали, как оценивать эти показатели по выборке. Мы разобрались, как определить, насколько точна выборочная оценка среднего. Перейдем теперь к методам оценки статистической значимости различий (их называют
    критериями значимости, или просто критериями*). Мето- дов этих существует множество, но все они построены по одному принципу. Сначала мы формулируем нулевую ги-
    потезу, то есть, предполагаем, что исследуемые факторы не оказывают никакого влияния на исследуемую величину и по- лученные различия случайны. Затем мы определяем, какова вероятность получить наблюдаемые (или более сильные) раз- личия при условии справедливости нулевой гипотезы. Если
    * Критерием называют и сам метод, и ту величину, которая получается в результате его применения.

    48
    эта вероятность мала*, то мы отвергаем нулевую гипотезу и зак- лючаем что результаты эксперимента статистически значимы.
    Это, разумеется, еще не означает что мы доказали действие имен- но изучаемых факторов (это вопрос прежде всего планирова- ния эксперимента), но, во всяком случае, маловероятно, что ре- зультат обусловлен случайностью.
    Дисперсионный анализ был разработан в 20-х годах нашего столетия английским математиком и генетиком Рональдом Фи- шером. На дисперсионном анализе основан широкий класс кри- териев значимости, со многими из которых мы познакомимся в этой книге. Сейчас мы постараемся понять общий принцип этого метода.
    СЛУЧАЙНЫЕ ВЫБОРКИ ИЗ НОРМАЛЬНО
    РАСПРЕДЕЛЕННОИ СОВОКУПНОСТИ
    Однажды в небольшом городке (200 жителей) ученые исследова- ли влияние диеты на сердечный выброс. Случайным образом ото- брали 28 человек, каждый из которых согласился участвовать в исследовании. После этого они опять таки случайным образом были разделены на 4 группы по 7 человеке каждой. Члены пер- вой (контрольной) группы продолжали питаться как обычно, чле- ны второй группы стали есть только макароны, третьей группы
    — мясо, четвертой — фрукты. Через месяц у всех участников эксперимента измерили сердечный выброс. Результаты представ- лены на рис. 3.2.
    Анализ данных мы начинаем с формулировки нулевой гипо- тезы. В данном случае она заключается в том, что ни одна из диет не влияет на сердечный выброс. Откроем маленький секрет, —
    дело обстоит именно так. На рис. 3.1 показано распределение сердечного выброса для всех жителей городка, каждый житель представлен кружком. Члены наших экспериментальных групп изображены заштрихованными кружками. Все четыре группы
    * Максимальную приемлемую вероятность отвергнуть верную нуле- вую гипотезу называют уровнем значимости и обозначают
    α. Обычно принимают
    α = 0,05.
    ГЛАВА 3

    49
    представляют собой просто случайные выборки из нормально распределенной совокупности.
    Однако как убедиться в этом, располагая только результата- ми эксперимента (рис. 3.2)? Как видно из рисунка 3.2, группы все же различаются по средней величине сердечного выброса.
    Вопрос можно поставить так: какова вероятность получить та- кие различия, извлекая случайные выборки из нормально рас- пределенной совокупности? Прежде чем ответить на этот воп- рос нам надо получить показатель, характеризующий величину различий.
    Оставим на время наш эксперимент и зададимся вопросом,
    что заставляет нас, взглянув на несколько выборок думать, что различия между ними не случайны.
    Попробуем (исключительно в учебных целях) так изменить наши данные, чтобы читатель поверил во влияние диеты на сер- дечный выброс. Результат этой подтасовки представлен на рис.
    3.3. Взаимное расположение точек в группах осталось прежним,
    но сами группы значительно раздвинуты по горизонтальной оси. Сравнив рис. 3.2 и 3.3 всякий скажет, что четыре вы-
    Рис. 3.1. Распределение жителей городка по величине сердечного выброса. Диета не влияет на сердечный выброс, и экспериментальные группы представляют собой просто четыре случайные выборки из нормально распределенной совокупности.
    СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ

    50
    борки на рис. 3.2 «не различаются», а выборки на рис. 3.3. —
    «различаются». Почему? Сравним разброс значений внутри вы- борок с разбросом выборочных средних. Разброс выборочных средних на рис. 3.2. значительно меньше разброса значений в каж- дой из выборок. На рис. 3.3 картина обратная — разброс выбо- рочных средних превышает разброс в каждой из выборок. То же самое можно сказать и о данных на рис. 3.4, хотя здесь три выборочных
    Рис. 3.2. Исследователь не может наблюдать совокупность, все, чем он располагает
    – это его экспериментальные группы. На этом рисунке данные с рис. 3.1 представ- лены такими, какими их видит исследователь. Результаты в разных группах несколько различаются. Вызваны эти различия диетой или просто случайностью? Внизу ри- сунка показаны средние значения сердечного выброса в четырех группах (выбороч- ные средние) а также среднее и стандартное отклонение этих четырех средних.
    ГЛАВА 3

    51
    средних близки друг другу и заметно отличается от них только одна.
    Итак, чтобы оценить величину различий, нужно каким-то об- разом сравнить разброс выборочных средних с разбросом зна- чений внутри групп. Сейчас мы покажем, как это можно сде- лать с помощью дисперсии (как мы выяснили в предыдущей главе, этот показатель характеризует именно разброс), но преж- де сделаем несколько замечаний.
    Дисперсия правильно характеризует разброс только в том случае,
    если совокупность имеет нормальное распределение (вспомните
    Рис. 3.3. Те же группы что на предыдущих рисунках; теперь они раздвинуты по гори- зонтальной оси. Вряд ли такие различия можно отнести на счет случайности — влия- ние диеты налицо! Обратите внимание, что разброс выборочных средних превышает разброс внутри групп. На предыдущем рисунке картина была иной, — разброс выбо- рочных средних был меньше разброса внутри групп.
    СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ

    52
    обследование юпитериан, чуть было не приведшее к ошибоч- ным заключениям). Поэтому и критерий, основанный на дис- персии, применим только для нормально распределенных совокупностей.
    Вообще, все критерии, основанные на оценке парамет- ров распределения (они называются параметрическими),
    применимы только в случае, если данные подчиняются со- ответствующему распределению (чаще всего речь идет о нормальном распределении). Если распределение отличается от нормального, следует пользоваться так называемыми не- параметрическими критериями. Эти критерии не основаны на оценке параметров распределения и вообще не требуют,
    чтобы данные подчинялись какому-то определенному типу
    Рис. 3.4. Еще один возможный исход эксперимента с диетой. В трех группах сред- ние примерно равны и только в группе макаронной диеты сердечный выброс явно повысился. Такой результат, как и предыдущий никто не отнесет на счет случайно- сти. И снова разброс выборочных средних превышает разброс внутри групп.
    ГЛАВА 3

    53
    распределения. Более подробно мы рассмотрим непараметри- ческие критерии в гл. 5, 8 и 10. Непараметрические критерии дают более грубые оценки, чем параметрические. Параметри- ческие методы более точны, но лишь в случае, если правильно определено распределение совокупности.
    ДВЕ ОЦЕНКИ ДИСПЕРСИИ
    Мы уже выяснили, что чем больше разброс средних и чем мень- ше разброс значений внутри групп, тем меньше вероятность того, что наши группы — это случайные выборки из одной со- вокупности. Осталось только оформить это суждение количе- ственно.
    Дисперсию совокупности можно оценить двумя способами.
    Во-первых, дисперсия, вычисленная для каждой группы, — это
    Рис. 3.5. Еще один набор из четырех случайных выборок по семь человек в каждой,
    извлеченых из совокупности в 200 человек (население городка, где изучали влияние диеты на сердечный выброс).
    СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ

    54
    оценка дисперсии совокупности. Поэтому дисперсию совокуп- ности можно оценить на основании групповых дисперсий. Та- кая оценка не будет зависеть от различий групповых средних.
    Например, для данных на рис. 3.2 и 3.3 она будет одинаковой.
    Во-вторых, разброс выборочных средних тоже позволяет оце- нить дисперсию совокупности. Понятно, что такая оценка дис- персии зависит от различий выборочных средних.
    Если экспериментальные группы — это четыре случайные выборки из одной и той же нормально распределенной сово- купности (применительно к нашему эксперименту это значило бы, что диета не влияет на сердечный выброс), то обе оценки дисперсии совокупности дали бы примерно одинаковые резуль- таты. Поэтому, если эти оценки оказываются близки, то мы не можем отвергнуть нулевую гипотезу. В противном случае мы отвергаем нулевую гипотезу, то есть, заключаем маловероятно,
    что мы получили бы такие различия между группами, если бы они были просто четырьмя случайными выборками из одной нормально распределенной совокупности.
    Перейдем к вычислениям. Как оценить дисперсию совокуп- ности по четырем выборочным дисперсиям? Если верна гипо- теза о том, что диета не влияет на величину сердечного выбро- са, то любая из них дает одинаково хорошую оценку. Поэтому в качестве оценки дисперсии совокупности возьмем среднее вы- борочных дисперсий. Эта оценка называется внутригрупповой дисперсией; обозначим ее
    2
    вну
    s .
    (
    )
    2 2
    2 2
    2
    вну кон мак мяс фру
    1
    ,
    4
    s
    s
    s
    s
    s
    =
    +
    +
    +
    где
    2
    кон
    s ,
    2
    мак
    s ,
    2
    мяс
    s ,
    2
    фру
    s
    — выборочные оценки дисперсии в груп- пах, питавшихся как обычно (контроль), макаронами, мясом и фруктами. Дисперсия внутри каждой группы вычисляется от- носительно среднего для группы. Поэтому внутригрупповая дис- персия не зависит от того, насколько различаются эти средние.
    Оценим теперь дисперсию совокупности по выборочным сред- ним. Так как мы предположили, что все четыре выборки извлече- ны из одной совокупности, стандартное отклонение четырех выборочных средних служит оценкой ошибки среднего. На-
    ГЛАВА 3

    55
    помним, что стандартная ошибка среднего
    X
    σ связана со стан- дартным отклонением совокупности
    σ и объемом выборки n сле- дующим соотношением:
    X
    n
    σ
    σ =
    Тем самым, дисперсию совокупности
    σ
    2
    можно рассчитать следующим образом:
    2 2
    X
    n
    σ
    σ
    =
    Воспользуемся этим, чтобы оценить дисперсию совокупно- сти по разбросу значений выборочных средних. Эта оценка на- зывается межгрупповой дисперсией, обозначим ее
    2
    меж
    s
    2 2
    меж
    X
    s
    ns
    =
    ,
    где
    2
    X
    s — оценка стандартного отклонения выборки из четырех средних.
    Если верна нулевая гипотеза, то как внутригрупповая, так и межгрупповая дисперсии служат оценками одной и той же дис- персии и должны быть приближенно равны. Исходя из этого,
    вычислим критерий F:
    Дисперсия совокупности,
    оцененная по выборочным средним
    ,
    Дисперсия совокупности, оцененная по выборочным дисперсиям
    F
    =
    или
    2
    меж
    2
    вну
    s
    F
    s
    =
    И числитель, и знаменатель этого отношения — это оценки одной и той же величины — дисперсии совокупности
    σ
    2
    , по- этому значение F должно были близко к 1. Для четырех групп,
    представленных на рис. 3.2, значение F действительно близко к единице. Теперь наши исследователи влияния диеты на сер- дечный выброс могут сделать определенные выводы. Получен-
    СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ

    56
    ные в эксперименте данные не противоречат нулевой гипотезе,
    следовательно, нет оснований, считать, что диета влияет на сердечный выброс. Что касается данных, которые мы специально сконструировали, чтобы убедить читателя в таком «влиянии»
    (рис. 3.3), то для них F = 68,0. Для данных, изображенных на рис. 3.4, F = 24,5. Как видим, величина F хорошо согласуется с впечатлением, которое складывается при взгляде на рисунок.
    Итак, если F значительно превышает 1, нулевую гипотезу следует отвергнуть. Если же значение F близко к 1, нулевую гипотезу следует принять. Осталось понять, начиная с какой именно величины F следует отвергать нулевую гипотезу.
    КРИТИЧЕСКОЕ ЗНАЧЕНИЕ F
    Если извлекать случайные выборки из нормально распределен- ной совокупности, значение F будет меняться от опыта к опыту.
    Например, на рис. 3.5 представлен еще один набор из четырех случайных выборок по семь человек в каждой, извлеченных из нашей совокупности в 200 человек. На этот раз F = 0,5. Поло- жим, что нам удалось повторить эксперимент с жителями того же городка, скажем, 200 раз. Каждый раз мы заново набирали по четыре группы, и каждый раз вычисляли F. На рис. З.6А при- ведены результаты этого многократного эксперимента. Значе- ния F округлены до одного знака после запятой и изображены кружками. Два черных кружка соответствуют данным с рис. 3.2
    и 3.5. Как и следовало ожидать, большинство значений F близко к единице (попадая в интервал от 0 до 2), только в 10 из 200 опы- тов (то есть в 5% случаев) мы получили значение F, большее или равное З. (На рис. 3.6Б эти 10 значений показаны черными круж- ками). Значит, отвергая нулевую гипотезу при F
    ≥ 3, мы будем ошибаться в 5% случаев. Если такой процент ошибок не чрезме- рен, то будем считать «большими» те значения F, которые боль- ше или равны 3. Значение критерия, начиная с которого мы от- вергаем нулевую гипотезу, называется критическим значением.
    Вероятность ошибочно отвергнуть верную нулевую гипотезу,
    то есть найти различия там, где их нет, обозначается Р. Как прави- ло, считают достаточным, чтобы эта вероятность не превышала
    ГЛАВА 3

    57 5%. (Максимальная приемлемая вероятность ошибочно отверг- нуть нулевую гипотезу называется уровнем значимости и обо- значается
    α). Почему бы не повысить критическое значение F
    тем самым, уменьшая эту вероятность? Однако в этом случае возрастет риск ошибочно принять неверную нулевую гипотезу
    (то есть не найти различий там, где они есть). Подробнее мы поговорим об этом в гл. 6.
    Итак, мы решили, приняв допустимой 5% вероятность ошиб- ки, отвергать нулевую гипотезу при F > 3. Однако критическое значение F следовало бы выбрать на основе не 200, а всех 10 42
    экспериментов, которые можно провести на совокупности из
    200 человек. Предположим, что нам удалось провести все эти эксперименты. По их результатам мы вычислили соответству- ющие значения F и нанесли их на график (рис. 3.6В). Здесь каж- дое значение F изображено «песчинкой». На долю темных пес- чинок в правой части горки приходится 5% всех значений. Кар- тина, в общем, похожа на ту, что мы видели рис. 3.6Б. На прак- тике совокупности гораздо больше, чем население нашего го- родка, а число возможных значений F несравненно больше 10 42
    Если мысленно увеличить объем совокупности до бесконечно- сти, то песчинки сольются, и получится гладкая кривая, изобра- женная на рис. 3.6Г. Площади под кривой аналогичны долям от общего числа кружков или песчинок на рис. 3.6А, Б и В. Зашт- рихованная область на рис. 3.6Г составляет 5% всей площади под кривой. Эта область начинается от F = 3,01, это и есть кри- тическое значение F.
    В нашем примере число групп равнялось 4, в каждую группу входило 7 человек. Если бы число групп или число членов в каж- дой группе было другим, кривая пошла бы по-другому и крити- ческое значение F тоже было бы другим. Вообще, критическое значение F однозначно определяется уровнем значимости (обычно
    0,05 или 0,01) и еще двумя параметрами, которые называются внутригрупповым и межгрупповым числом степеней свободы и обозначаются греческой буквой
    ν («ню»). Оставим в стороне воп- рос о происхождении этих названии и просто укажем, как их оп- ределять. Межгрупповое число степеней свободы — это число групп минус единица
    ν
    меж
    = m – 1. Внутригрупповое число степе- ней свободы — это произведение числа групп на численность
    СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП: ДИСПЕРСИОННЫЙ АНАЛИЗ

    58
    каждой из групп минус единица
    ν
    вну
    = m (n – 1). В примере с ис- следованием диеты межгрупповое число степеней свободы равно
    4 – 1 = 3, а внутригрупповое 4 (7 – 1) = 24. Вычислить критичес- кое значение F довольно сложно, поэтому пользуются таблицами критических значений F для разных
    α, ν
    меж и
    ν
    вну.
    (табл. 3.1).
    Математическая модель, на которой основано вычисление критических значений F предполагает следующее.
    • Каждая выборка независима от остальных выборок.
    • Каждая выборка случайным образом извлечена из исследуе- мой совокупности.
    1   2   3   4   5   6   7   8   9   ...   37


    написать администратору сайта