Глантз. Книга Primer of biostatistics fourth edition
Скачать 6.07 Mb.
|
7.1. По данным из задачи 2.6 найдите 90 и 95% доверитель- ные интервалы для среднего числа авторов статей, опублико- ванных в медицинских журналах за 1946, 1956, 1966 и 1976 гг. 7.2. Ранее (задача 3.1) мы познакомились с исследованием Рис. 7.6. Коэффициент К 0,05 зависит от объема выборки и от доли членов совокупности f, которые должны попадать в 95% доверительный интервал. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 220 Ч. О’Херлихи и Г. Мак-Дональда (С. O’Herlihy, H. MacDonald. Influence of preinduction prostaglandin E 2 vaginal gel on cervical ripening and labor. Obstet. Gynecol., 54:708—710, 1979). Как выяснилось, гель с простагландином Е 2 сокращает продолжи- тельность родов. Позволяет ли он избежать кесарева сечения? В группе, получавшей гель с простагландином Е 2 , кесарево се- чение потребовалось 15% женщин, в контрольной группе — 23,9%. В обеих группах было по 21 женщине. Найдите 95 % доверительные интервалы для доли рожениц, которым требу- ется кесарево сечение в обеих группах. Найдите 95% довери- тельный интервал для разности долей. Можно ли утверждать, что простагландин снижает вероятность кесарева сечения? 7.3. По данным задачи 3.1 найдите 95% доверительный ин- тервал для разности средней продолжительности родов у полу- чавших гель с простагландином Е 2 и получавших плацебо. Поз- воляет ли вычисленный доверительный интервал утверждать, что различия статистически значимы? 7.4. По данным задачи 5.1 найдите 95% доверительные интер- валы для долей больных, которые не чувствовали боли при вклю- ченном и выключенном приборе. Можно ли по этим интервалам оценить статистическую значимость различий? 7.5. Поданным задачи 3.2 найдите 95% доверительные интер- валы для каждой из групп. В чем заключаются различия между группами? 7.6. По данным задачи 5.6 найдите 95% доверительные интер- валы для доли работ, где данные были получены до планиро- вания исследования. 7.7. По данным задачи 2.2 найдите 95% доверительные интер- валы для 90 и 95% значений. Результаты представьте на одном рисунке с исходными данными. ГЛАВА 7 Глава 8 Анализ зависимостей Самый первый из рассмотренных нами примеров (рис. 1.2) был посвящен вопросу об эффективности диуретика. Пяти людям дали разные дозы препарата, измерили диурез и увидели, что чем больше доза, тем больше диурез. В дальнейшем оказалось, что этот результат не отражает реальной картины и что никакой связи между дозой и диурезом на самом деле нет. Тогда мы еще не знали о методах анализа зависимостей. Им посвящена эта глава. Мы узнаем, как с помощью уравнения регрессии выра- зить связь между дозой диуретика и диурезом (так называемый регрессионный анализ) и как с помощью коэффициента корре- ляции измерить силу этой связи. Подобно тому как мы поступали в предыдущих главах, рас- смотрим сначала уравнение регрессии для совокупности, а затем выясним, как оценивать его параметры по выборке. В гл. 3 и 4 мы брали нормально распределенную совокупность, находили па- раметры распределения (среднее µ и стандартное отклонение α), затем находили выборочные оценки этих параметров (X и s)и 222 использовали их для оценки значимости различий между группа- ми, например получавших препарат и не получавших. Теперь мы также будем иметь дело с нормально распределенной совокуп- ностью, но группа будет только одна. Интересовать же нас будет связь между двумя количественными признаками, характеризую- щими членов этой группы, например между дозой препарата и эффектом, ростом и весом. Мы ограничимся случаем линейной зависимости двух переменных*. Сколько весит марсианин? Итак, начнем с совокупности. Совокупность марсиан нами уже достаточно хорошо изучена, особенно что касается роста. Но ведь мы их еще и взвешивали! Разберемся, как связаны вес и рост. Вы, конечно, помните, что на Марсе живет 200 марсиан. В гл. 2 мы обнаружили, что их рост подчиняется нормальному распределению со средним µ = 40 см и стандартным отклоне- нием σ = 5 см. Оказывается, что вес марсиан тоже подчиняется нормальному распределению с параметрами µ = 12г и σ =2,5г. Но самое замечательное, что отчетливо видно на рис. 8.1, — это зависимость веса от роста. Как правило, чем больше рост марсиани- на, тем больше вес, причем эта зависимость линейна. Посмотрим, сколько весят марсиане, чей рост равен 32 см. Таких марсиан четверо, а их вес равен соответственно 7,1; 7,8; 8,3 и 8,8 г. Таким образом, средний вес марсиан ростом 32 см равен 8 г. Восемь марсиан ростом 46 см весят 13,7; 14,5; 14,8; 15,0; 15,1; 15,2; 15,3 и 15,8 г. Их средний вес 15 г. Если для каж- дого значения роста мы подсчитаем соответствующий ему сред- ний вес, то окажется, что найденные значения лежат на прямой линии, как изображено на рис. 8.2. Теперь, выбрав какой-то рост, мы всегда сможем примерно определить вес марсианина этого роста. Точнее, мы сможем оп- * Линейная зависимость у от х определяется формулой у = α + βх. Воз- можна нелинейная зависимость, например у = α + βх 2 . Возможна и мно- жественная зависимость, когда определяющих признаков более одно- го, например у = α + βх + γz. Она рассматривается в книге S. Glantz, В. Slinker. Primer of applied regression and analysis of variance. McGraw- Нill, New York, 1990. ГЛАВА 8 223 Рис. 8.1. Рост и вес марсиан. Как известно, число обитателей Марса составляет 200; каждый из них был измерен и взвешен, результат нанесен на график в виде кружка. Распределение марсиан по росту и по весу нормально. Более того, средний вес марсиан определенного роста связан с ростом линейной зависимостью; разброс значений веса для всех ростов одинаков. Чтобы к совокупности можно было применить регрессион- ный анализ, она должна обладать всеми этими свойствами. АНАЛИЗ ЗАВИСИМОСТЕЙ 224 Рис. 8.2. Если рассчитать средний вес марсиан разного роста и нанести полученные значения на график, окажется, что они образуют прямую линию. Иначе говоря, средний вес марсиан линейно зависит от роста. ГЛАВА 8 225 ределить средний вес марсиан этого роста, поскольку для каждо- го роста существует определенный разброс веса. Разброс этот, кстати, можно оценить, рассчитав стандартное отклонение веса для каждого роста. Оказывается, какой бы рост мы ни взяли, стандартное отклонение веса составит 1 г, что заметно меньше стандартного отклонения веса для всей, не разделенной по ве- сам, совокупности марсиан. УРАВНЕНИЕ РЕГРЕССИИ Прежде чем перейти к обобщению этих закономерностей, да- дим несколько определений. В уравнении регрессии одна из переменных, х, называется независимой переменной, а другая, у, — зависимой. Набор значений у, соответствующих определенно- му значению х, обозначим у|х. В примере с марсианами рост мы будем рассматривать как независимую переменную, а вес — как зависимую. Понятно, что это не означает, что одна переменная действительно определяет другую. Просто по значению одного признака мы предсказываем значение второго. В условиях эксперимента мы произвольно ме- няем независимую переменную и смотрим, как меняется зави- симая. При этом речь действительно идет о зависимости, то есть о причинной связи. В прочих же случаях выявление статисти- ческой связи двух переменных указывает на возможность причин- ной связи, но не доказывает ее. Разобраться в причинах и следст- виях вообще невозможно чисто статистическими методами. Не- обходимо, в частности, найти биологический механизм, порож- дающий выявленную связь. Например, эпидемиологические дан- ные о связи пассивного курения с заболеваемостью ишемичес- кой болезнью сердца еще не доказывают, что пассивное курение способствует развитию ИБС. Может быть, и то и другое — след- ствие какой-либо неизвестной причины, например нервной об- становки в рабочем коллективе. Однако экспериментальные дан- ные* о том, что пассивное курение и отдельные компоненты та- * О том, как анализировать совокупность эпидемиологических и экс- периментальных данных для выявления причинных связей, можно прочесть в работах: S. A. Glantz, W. W. Parmley. Passive smoking and АНАЛИЗ ЗАВИСИМОСТЕЙ 226 бачного дыма вызывают поражение сердца у лабораторных жи- вотных, говорят в пользу именно причинной связи. Вернемся к нашим марсианам. Для каждого значения неза- висимой переменной х (в нашем примере это рост) рассчитаем среднее значение зависимой переменной у (вес). Это среднее в точке х обозначим µ y|x . Тогда обнаруженная нами линейная за- висимость описывается уравнением µ y|x = α + βx. Здесь α — значение у в точке х = 0 (коэффициент сдвига), β — коэффициент наклона*. В нашем примере при увеличении роста на 1 см средний вес увеличивается на 0,5 г, поэтому β =0,5. Хотя представить марсиан весом –8 г не легче, чем ростом 0 см, тем не менее для прямой с рис. 8.2 имеем α = –8 г. Таким образом, пря- мая средних (для каждого роста) весов задается формулой µ y|x = –8 + 0,5x. Теперь посмотрим, как распределены веса марсиан одного роста. В данном случае это нормальное распределение со сред- ним µ y|x и стандартным отклонением σ y|x . Но этого еще недоста- точно для применения методов, которые мы рассмотрим ниже. Помимо нормальности распределения требуется, чтобы σ y|x было одинаковым для разных х. Иначе говоря разброс значений зависи- мой случайной переменной у должен быть неизменным при лю- бом значении независимой переменной х. В нашем примере это условие выполняется. Итак, значения переменных должны удовлетворять следую- щим условиям. • Среднее значение µ y|x линейно зависит от х. • Для любого значения х значения у|х распределены нормально. • Стандартное отклонение σ y|x одинаково при всех значениях х. Функция, задающая зависимость µ y|x от х, определяется па- heart disease: epidemiology, physiology, and biochemistry. Circulation, 83:1—12,1991 и S. A. Glantz, W. W. Parmley. Passive smoking and heart disease: mechanisms and risk. JAMA, 273:1047—1053, 1995. * Эти обозначения совпадают с обозначениями ошибок I и II рода. Будем надеятся. что это не породит путаницы. ГЛАВА 8 227 раметрами α и β. Разброс значений у|х в точке х задается стандартным отклонением σ y|x . Оценим эти параметры. ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕСИИ ПО ВЫБОРКЕ В реальной жизни редко удается получить данные обо всей сово- купности, и исследователю приходится довольствоваться вы- борками. Допустим, мы располагали бы данными не о всех мар- сианах, а только о десяти. На рис. 8.ЗА они показаны черными кружками среди 190 своих собратьев. На рис. 8.3Б данные пока- заны так, как их видит исследователь, изучивший эту выборку. Что можно сказать о совокупности, основываясь на этих выбо- рочных данных? Похоже, что в этом случае исследователю повезло. Зависи- мость веса от роста в выборке выглядит примерно так же, как и в совокупности в целом. Но ведь выборка может вводить в заблуждение. Вспомним пример с рис. 1.2. В выборке из 5 чело- век диурез отчетливо увеличивался с ростом дозы препарата (рис 1.2А), тогда как на самом деле никакой зависимости не было (рис 1.2Б). Какова вероятность ошибочного заключения? Как мы скоро увидим, эта задача сводится к оценке параметров урав- нения регрессии α и β по выборке. Метод наименьших квадратов Сейчас нам предстоит оценить параметры уравнения регрессии α и β. Обозначим их выборочные оценки соответственно а и b. Найти наилучшие оценки этих параметров — это то же самое, что провести наилучшую прямую через имеющиеся точки, по- скольку у =а + bх — это уравнение прямой. Какую прямую счи- тать наилучшей? Посмотрим на рис. 8.4. На нем изображены 4 прямые. Прямая I явно не годится — все точки оказались по одну сторону от нее. Прямая II немного лучше, она хотя бы пересекает область, где находятся наши точки. Однако она слишком круто устремляется вверх. Какая из прямых III и IV является лучшей, сказать трудно. Почему прямая II кажется лучше прямой I, а прямая III — лучше прямой II? Очевидно, прямая тем лучше, АНАЛИЗ ЗАВИСИМОСТЕЙ 228 Рис. 8.3. А. Случайная выборка объемом 10 из совокупности марсиан. ГЛАВА 8 229 Рис. 8.3. Б. Такой эта выборка представляется исследователю, который не может на- блюдать всю совокупность. АНАЛИЗ ЗАВИСИМОСТЕЙ 230 чем ближе она ко всем точкам выборки. Иными словами, лучше та прямая, относительно которой разброс точек минимален. С оценкой разброса мы уже сталкивались в гл. 2. Там мы использовали средний квадрат отклонения от среднего. Посту- пим аналогичным образом. Определим расстояние по вертика- ли от каждой точки до прямой (рис. 8.5). Возведем полученные величины в квадрат и сложим. Возведение в квадрат потребова- лось, чтобы отклонения, равные по абсолютной величине, но разные по знаку, вносили один и тот же вклад. Сумма квадратов отклонений от прямой IV меньше, чем от прямой III. Следовательно, прямая IV лучше представляет зави- симость у от х. Более того, можно доказать, что для прямой IV сумма квадратов отклонений выборочных значений зависимой переменной минимальна. Способ нахождения линии, сумма квад- ратов расстояний от которой до всех точек выборки минимальна, называется методом наименьших квадратов, саму линию мы будем называть прямой регрессии. Здесь мы не будем останавли- ваться на выводе формул* и сообщим сразу результат. Напомним, что мы ищем параметры уравнения регрессии: ˆ y a bx = + Тогда коэффициент сдвига ( ) ( ) ( )( ) ( ) ( ) 2 2 2 Y X X XY a n X X − = − ∑ ∑ ∑ ∑ ∑ ∑ и коэффициент наклона ( ) ( )( ) ( ) ( ) 2 2 , n XY X Y b n X X − = − ∑ ∑ ∑ ∑ ∑ где X и Y — значения независимой и зависимой переменных у п членов выборки**. * Интересующихся выводом этих формул отсылаем к книге: S. A. Glantz. Mathematics for biomedical applications. University of California Press, Berkely, 1979, pp. 322–325. ** Вычисления можно упростить, если сначала вычислить b, а уже потом найти а по формуле a Y bX = − , где Y и X — выборочные средние для переменных у и х. ГЛАВА 8 231 Рис. 8.4. Провести прямую через десять точек можно по-разному. Прямые I и II явно не годятся, прямые III и IV выглядят лучше. АНАЛИЗ ЗАВИСИМОСТЕЙ 232 Рис. 8.5. Найдем расстояние по вертикали от каждой точки до прямой III (А) и IV (Б). Сумма квадратов расстояний до прямой IV меньше, чем до прямой III. Рядом с прямой IV серым цветом показана линия средних с рис. 8.2. Как видим, прямые достаточно близки. ГЛАВА 8 233 Рис. 8.5. Окончание АНАЛИЗ ЗАВИСИМОСТЕЙ 234 Таблица. 8.1. Расчет параметров уравнения регрессии X Y Х 2 XY 31 7,8 961 241,8 32 8,3 1024 265,6 33 7,6 1089 250,8 34 9,1 1156 309,4 35 9,6 1225 336,0 35 9,8 1225 343,0 40 11,8 1600 472,0 41 12,1 1681 496,1 42 14,7 1764 617,4 46 13,0 2116 598,0 369 103,8 13841 3930,1 Рассчитаем параметры уравнения регрессии для нашей вы- борки из 10 марсиан. Вспомогательные величины для вычисле- ний приведены в табл. 8.1. Объем выборки п = 10, ΣX = 369, ΣY = 103,8, ΣX 2 =13841 и ΣXY = 3930,1. Подставим эти числа в формулы для коэффициентов регрессии: 2 103,8 13841 369 3930,1 6,0 10 13841 369 a × − × = = − × − и 2 10 3930,1 369 103,8 0,44. 10 13841 369 b × − × = = × − Таким образом, прямая регрессии имеет вид: ˆ 6,0 0, 44 . y x = − + Именно это уравнение задает прямую IV. Разброс значений вокруг прямой регрессии Мы получили а и b — оценки коэффициентов регрессии α и β. Хорошо бы получить также оценку разброса значений вокруг прямой регрессии. При каждом значении X стандартное откло- нение постоянно и равно σ y|x . Выборочной оценкой σ y|x служит ГЛАВА 8 235 ( ) 2 | , 2 y x Y a bX s n − + = − ∑ где а + bХ — значение уравнения регрессии в точке X, Y – (а + bХ) — расстояние от точки до прямой регрессии, Σ обоз- начает суммирование квадратов этих расстояний. Не будем объ- яснять, почему сумма квадратов отклонений должна быть поде- лена на п – 2, а не на п или п – 1. Скажем только, что причина аналогична той, по которой в оценке стандартного отклонения делитель равен п – 1. Величина s y|x называется остаточным стандартным откло- нением (соответственно 2 | y x s , называется остаточной диспер- сией). Связь s y|x со стандартными отклонениями S Y и s X зависи- мой и независимой переменных определяется формулой ( ) 2 2 2 | 1 2 y x Y X n s s b s n − = − − Для рассмотренной нами выборки s X = 5,0, s Y = 2,4. Тогда ( ) 2 2 2 | 9 2,4 0,44 5,0 1,02. 8 y x s = − × = Как видим, оценка s y|x оказалась близкой к истинному зна- чению σ y|x , равному 1,0 г. |