Глантз. Книга Primer of biostatistics fourth edition
Скачать 6.07 Mb.
|
Стандартные ошибки коэффициентов регрессии Подобно тому как выборочное среднее — это оценка истинного среднего (среднего по совокупности), так и выборочные пара- метры уравнения регрессии a и b — не более чем оценки истин- ных коэффициентов регрессии α и β. Разные выборки дают раз- ные оценки среднего — точно так же разные выборки будут да- вать разные оценки коэффициентов регрессии. Для выборки с рис. 8.3 мы получили значения а = –6,0 и b = 0,44. Рассмотрим другую выборку из той же совокупности (рис. 8.6А). На рис. 8.6Б эта выборка показана такой, какой ее видит исследователь. Об- щая закономерность осталась прежней — высокие марсиане ве- АНАЛИЗ ЗАВИСИМОСТЕЙ 236 Рис. 8.6. А. Еще одна случайная выборка объемом 10 из совокупности марсиан. Марси- ане, попавшие в выборку, помечены точками. ГЛАВА 8 237 Рис. 8.6. Б. Линия регрессии, рассчитанная по этой выборке, несколько отличается от полученной ранее (см. рис. 8.5Б). Серым показана линия средних с рис. 8.2. АНАЛИЗ ЗАВИСИМОСТЕЙ 238 сят больше низкорослых. Однако, рассчитав коэффициенты ре- грессии, получим а = –4,0 г и b = 0,38 г/см. Если построить все возможные выборки по 10 марсиан в каж- дой, получится совокупность всех значений а и b. Их средние равны α и β, а стандартные отклонения — σ α и σ β . Эти стандарт- ные отклонения называются стандартными ошибками коэффи- циентов регрессии. Стандартные ошибки коэффициентов рег- рессии, подобно стандартной ошибке среднего или доли, ис- пользуются при проверке гипотез и вычислении доверительных интервалов. Выборочные оценки для σ α и σ β обозначаются со- ответственно s a и s b и вычисляются по следующим формулам*: ( ) 2 | 2 1 1 a y x X X s s n n s = + − и | 1 1 y x b X s s s n = − Для выборки с рис. 8.3Б имеем: ( ) 2 2 1 36,9 1,02 2,53 10 10 1 5,0 a s = + = − и 1 1,02 0,068. 5,0 10 1 b s = = − Стандартные ошибки коэффициентов регрессии использу- ются аналогично стандартной ошибке среднего — для нахожде- ния доверительных интервалов и проверки гипотез. * Вывод формул для стандартных ошибок коэффициентов регрессии мож- но найти в большинстве учебников статистики. См., например, J. Neter and W. Wasserman. Applied statistical models. Irwin, Home-wood, III., 1974, chap. 3, «Inferences in regression analysis». ГЛАВА 8 239 Есть ли зависимость? Помня о досадном недоразумении с «диуретиком» из гл. 1 (см. рис. 1.2), исследователь вправе спросить: как убедиться, что за- висимость действительно существует? Иными словами, как по выборочным данным определить вероятность Р нулевой гипоте- зы о том, что коэффициент наклона β = 0*? Совокупность всех выборочных значений коэффициента на- клона b приближенно подчиняется нормальному распределению. Поэтому можно воспользоваться критерием Стьюдента, анало- гично тому, как мы пользовались им в гл. 4 для проверки гипоте- зы относительно среднего. В общем виде критерий Стьюдента можно определить как: Выборочная оценка Истинная величина Стандартная ошибка выборочной оценки t − = Для оценки коэффициента наклона: b b t s − β = Оценить вероятность гипотезы о равенстве β = 0 можно дву- мя способами. Приравняв β к нулю, имеем b b t s = Теперь по табл. 4.1 найдем t α — критическое значение t для вы- бранного уровня значимости α и числа степеней свободы ν = п – 2. Если полученное значение t по абсолютной величине превосхо- дит t α , то Р < α, то есть зависимость статистически значима. Потренируемся на марсианах. Для выборки с рис. 8.3Б мы на- шли b = 0,44 и s b = 0,068 Тогда t = 0,44/0,068 = 6,47. Объем выбор- ки равен 10. Положим уровень значимости равным 0,001. В табл. 4.1 для этого уровня значимости и числа степеней свободы * Речь идет исключительно о линейной зависимости. Как мы вскоре уви- дим, зависимость может быть и нелинейной; в таком случае излагаемый способ даст неправильный результат. АНАЛИЗ ЗАВИСИМОСТЕЙ 240 ν = 10 – 2 = 8 находим критическое значение t α = 5,041. По- скольку t > t α , гипотезу об отсутствии зависимости веса от рос- та следует отвергнуть. Конечно, как и всегда при проверке гипотез, это заключение может оказаться ложным (опять-таки вспоминается злополуч- ный диуретик из гл. 1). Но вероятность совершить эту ошибку не превышает 0,001. Второй способ основан на использовании доверительных ин- тервалов. 100(1 – α)-процентный доверительный интервал для β имеет вид b b b t s b t s α α − < β < + Рассчитаем 95% доверительный интервал. Число степеней свободы ν = 10 – 2 = 8. По таблице 4.1 находим t 0,05 = 2,306. Выборочные значения b = 0,44 и s b = 0,068. Следовательно, доверительный интервал для β: 0,44 2,306 0,068 0,44 2,306 0,068, 0,28 0,60. − × < β < + × < β < Поскольку ноль в этот интервал не попадает, вероятность то- го, что β = 0, меньше 5%. Если рассчитать 99,9% доверительный интервал, можно убе- диться, что и он не содержит нуля. Вывод, полученный выше при использовании критерия Стьюдента, как и следовало ожи- дать, совпадает с полученным с помощью доверительного ин- тервала. Заметим, что истинное значение β = 0,5 попадает в доверительный интервал. Можно вычислить доверительный интервал и для коэффици- ента α. Например, 95% доверительный интервал имеет вид: 0,05 0,05 , a a a t s a t s − < α < + то есть 6,0 2,306 2,53 6,0 2,306 2,53, 11,8 0,17. − − × < α < − + × − < α < − Интервал покрывает истинное значение α = –8 г. ГЛАВА 8 241 Следующим этапом будет построение доверительной области для линии регрессии и значений зависимой переменной. Доверительная область для линии регрессии Обычно мы не знаем истинных величин коэффициентов регрес- сии α и β. Нам известны только их оценки а и b. Иначе говоря, истинная прямая регрессии может пройти выше или ниже, быть более крутой или пологой, чем построенная по выборочным данным. Мы вычислили доверительные интервалы для коэффи- циентов регрессии. Можно вычислить доверительную область и для самой линии регрессии. На рис. 8.7А показана 95% довери- тельная область для выборки с рис. 8.3. Как видим, это доволь- но узкая полоса, которая несколько расширяется при крайних значениях х. Мы знаем, что при любом значении независимой перемен- ной х соответствующие значения зависимой переменной у рас- пределены нормально. Средним является значение уравнения регрессии ˆy . Неопределенность его оценки характеризуется стандартной ошибкой регрессии: ( ) ( ) 2 ˆ | 2 1 1 y y x X x X s s n n s − = + − В отличие от стандартных ошибок, с которыми мы имели дело до сих пор, ˆy s при разных х принимает разные значения: чем дальше х от выборочного среднего X , тем она больше. Теперь можно вычислить 100(1 – α)-процентный доверитель- ный интервал для значения уравнения регрессии в точке х: ˆ ˆ ˆ ˆ , y y y t s y y t s α α − < < + где t α — критическое значение с ν = n – 2 степенями свободы, а ˆy — значение уравнения регрессии в точке х: ˆ y a bx = + Итак, мы получили уравнение для кривых, ограничивающих доверительную область линии регрессии (см. рис. 8.3). С задан- ной вероятностью, обычно 95%, можно утверждать, что истин- АНАЛИЗ ЗАВИСИМОСТЕЙ 242 ная линия находится где-то внутри этой области. Обратите вни- мание, что три точки из десяти оказались вне доверительной области. Это совершенно естественно, поскольку речь идет о доверительной области линии регресии, а не самих значений (доверительная область для значений гораздо шире). Авторы медицинских публикаций нередко приводят довери- тельную область линии регрессии и говорят о ней так, как будто это — доверительная область значений. Это примерно то же са- мое, что выдавать стандартную ошибку среднего за характеристику разброса значений, путая ее со стандартным отклонением. Напри- мер, из рис. 8.7А видно, что средний вес марсиан ростом 40 см с вероятностью 95% окажется между 11,0 и 12,5 г — из этого Рис. 8.7. А. 95% доверительная область для линии регрессии (по выборке с рис. 8.3). ГЛАВА 8 243 вовсе не следует, что в этих пределах окажется вес 95% марси- ан такого роста. Теперь займемся доверительной областью для значений зави- симой переменной. Доверительная область для значений Разброс значений складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой ли- нии. Характеристикой разброса значений вокруг линии регрессии является остаточное стандартное отклонение s y|x , а неопределен- Рис. 8.7. Б. 95% доверительная область для значений. Если мы хотим определить вес марсианина по его росту, нам следует воспользоваться именно этой доверительной областью. АНАЛИЗ ЗАВИСИМОСТЕЙ 244 ности положения линии регрессии — стандартная ошибка рег- рессии ˆy s . Дисперсия суммы двух величин равна сумме диспер- сий, поэтому 2 2 ˆ | Y y x y s s s = + Подставив в эту формулу выражение для ˆy s из предыдущего раздела, получим: ( ) ( ) 2 | 2 1 1 1 Y y x X x X s s n n s − = + + − Тогда 100(1 – α)-процентный доверительный интервал для зависимой переменной ˆ ˆ Y Y y t s y y t s α α − < < + Заметьте, что входящие в это неравенство величины ˆy и s Y зависят от х. На рис. 8.7Б изображена полученная по этой формуле 95% доверительная область для значений зависимой переменной. В эту область попадет 95% всех возможных значений веса марси- ан любого роста. Например, с вероятностью 95% можно утвер- ждать, что любой 40-сантиметровый марсианин весит от 9,5 до 14,0г. СРАВНЕНИЕ ДВУХ ЛИНИЙ РЕГРЕССИИ Часто требуется сравнить линии регрессии, рассчитанные по двум выборкам. Это можно сделать тремя способами. • Сравнить коэффициенты наклона b, • Сравнить коэффициенты сдвига a. • Сравнить линии в целом. В первых двух случаях следует воспользоваться критерием Стьюдента. Если нужно проверить, значимо ли различие в на- клоне двух прямых регрессии, критерий Стьюдента t вычисляет- ся по формуле: ГЛАВА 8 245 1 2 1 2 , b b b b t s − − = где b 1 – b 2 — разность коэффициентов наклона, a 1 2 b b s − — ее стан- дартная ошибка. Затем вычисленное t сравним, как обычно, с кри- тическим значением t α , имеющим (n – 2) + (n – 2) = n 1 + n 2 – 4 степени свободы. Если обе регрессии оценены по одинаковому числу наблюде- ний, то стандартная ошибка разности 1 2 1 2 2 2 b b b b s s s − = + Если же объемы выборок различны, следует воспользовать- ся объединенной оценкой остаточной дисперсии (она аналогична объединенной оценке дисперсии, приведенной в гл. 4): ( ) ( ) 1 2 общ 2 2 1 | 2 | 2 | 1 2 2 2 4 y x y x y x n s n s s n n − + − = + − Тогда формула для 1 2 b b s − принимает вид ( ) ( ) общ общ 1 2 1 2 2 2 | | 2 2 1 2 1 1 y x y x b b x x s s s n s n s − = + − − Можно сравнить и коэффициенты сдвига a 1 и а 2 . В этом случае 1 2 1 2 a a a a t s − − = Здесь 1 2 1 2 2 2 , a a a a s s s − = + когда обе регрессии вычислены по одинаковому числу точек. При неодинаковом числе точек следует воспользоваться объеди- ненной оценкой дисперсии так же, как это было сделано выше. Перейдем к сравнению двух линий регресии в целом. Срав- нить две линии регрессии — значит оценить вероятность нуле- АНАЛИЗ ЗАВИСИМОСТЕЙ 246 вой гипотезы о совпадении линий*. Напомним, что коэффици- енты регрессии вычисляются так, чтобы разброс точек вокруг линии регрессии был минимален. Разброс этот характеризуется остаточной дисперсией 2 | y x s : чем меньше остаточная дисперсия, тем лучше прямая регрессии соответствует имеющимся точкам. Воспользуемся этим показателем для оценки результатов тако- го мысленного эксперимента. Объединим обе выборки в одну и построим для нее линию регрессии. Если линии регрессии для двух выборок близки, остаточная дисперсия при этом существен- но не изменится. И наоборот, если они различаются, то совпа- дение точек и линии ухудшится и остаточная дисперсия возрас- тет. Порядок действий таков. • Построить прямую регресии для каждой из выборок. • По остаточным дисперсиям 1 2 | y x s и 2 2 | y x s каждой из регрессий вычислить объединенную оценку остаточной дисперсии общ 2 | y x s • Объединить обе выборки. Построить прямую регрессии для получившейся выборки и вычислить остаточную дисперсию един 2 | y x s • Вычислить «выигрыш» от использования двух раздельных регрессий. Мерой выигрыша служит величина: ( ) ( ) един общ в 2 2 1 2 | 1 2 | 2 | 2 4 2 y x y x y x n n s n n s s + − − + − = • По в 2 | y x s и общ 2 | y x s вычислить критерий F: в общ 2 | 2 | y x y x s F s = • Сравнить вычисленное значение с критическим значением F для числа степеней свободы ν меж = 2 и ν вну = n 1 + n 2 – 4. Если полученное значение больше критического, то гипотеза о совпадении линий регрессии должна быть отклонена. * Методы, предназначенные для сравнения более чем двух линий регрессии, описаны в книге: J. H. Zar. Biostatistical analysis. 2nd ed. Prentice-Hall. Englewood Cliffs. N. J.. 1984. ГЛАВА 8 247 Мышечная сила при ревматоидном артрите Причины ограниченной подвижности при ревматоидном артрите разнообразны: болезненность суставов, их тугоподвижность, атрофия мышц. Каков вклад каждого из этих факторов? Пыта- ясь ответить на этот вопрос, П. С. Хелливелл и С. Джексон* исследовали, в частности, связь между мышечной массой и си- лой. В исследовании приняли участие 25 больных ревматоид- ным артритом (1-я группа) и 25 здоровых (2-я группа). Рассчи- тывали площадь поперечного сечения предплечья и ручным динамометром определяли силу сжатия кисти. Результат пока- зан на рис. 8.8. Кружки — результаты здоровых, квадратики — больных ревматоидным артритом. На рис. 8.9А представлены те же наблюдения, что и на рис. 8.8, и кроме того, две построенные по ним линии регрессии. Проверим, есть ли значимое различие между линиями регрес- * P. S. Helliwell, S. Jackson. Relationship between weakness and muscle wasting in rheumatoid arthritis. Ann. Rheum. Dis., 53:726—728, 1994. Рис. 8.8. Зависимость мышечной силы от мышечной массы. Здоровые обозначены круж- ками, больные ревматоидным артритом — квадратиками. Одинакова ли зависимость у больных и здоровых? АНАЛИЗ ЗАВИСИМОСТЕЙ 248 Рис. 8.9. А. Построим линии регрессии для каждой из групп и оценим разброс точек относительно этих линий. Б. Объединим группы и найдем линию регрес- сии для получившейся группы. Если разброс точек относительно этой линии зна- чительно превышает разброс относительно двух отдельных линий, то различия линий следует считать значимыми. ГЛАВА 8 249 Таблица 8.2. Зависимость силы сжатия кисти от мышечной массы Объединенная 1-я группа 2-я группа группа Численность группы 25 25 50 Коэффициенты регрессии сдвиг а(s a ) 3,3(22,4) –7,3(25,3) –23,1(50,5) наклон b(s b ) 2,41(0,702) 10,19(0,789) 6,39(1,579) Остаточное стандартное отклонение s x|y 40,5 45,7 129,1 сии. Параметры уравнений регрессии и остаточные стандарт- ные отклонения указаны в табл. 8.2. Вычислим объединенную оценку остаточной дисперсии ( ) ( ) 1 2 общ 2 2 1 | 2 | 2 | 1 2 2 2 , 4 y x y x y x n s n s s n n − + − = + − где n 1 и n 2 — численность 1-й и 2-й групп, 1 2 | y x s и 2 2 | y x s — соответст- вующие остаточные дисперсии. Тогда ( ) ( ) общ 2 2 2 | 25 2 40,5 25 2 45,7 1864. 25 25 4 y x s − + − = = + − Теперь объединим группы и найдем уравнение регрессии для получившейся группы. Опустим вычисления, результат приве- ден в табл. 8.2. Линия регрессии изображена на рис. 8.9Б. Оста- точная дисперсия единой регрессии един 2 | y x s = 129,1 2 = 16667. Вы- игрыш от использования раздельных регрессий: ( ) ( ) ( ) ( ) един общ в 2 2 1 2 | 1 2 | 2 | 2 4 2 25 25 2 16667 25 25 4 1864 357136. 2 y x y x y x n n s n n s s + − − + − = = + − − + − = = Значение F: в общ 2 | 2 | 357136 191,596. 1864 y x y x s F s = = = АНАЛИЗ ЗАВИСИМОСТЕЙ 250 Критическое значение F при уровне значимости α = 0,011 и числе степеней свободы ν меж = 2 и ν вну = 25 + 25 – 4 равно 5,10, то есть гораздо меньше полученного нами. Таким образом, у здо- ро вых людей сила сжатия зависит от размера предплечья иначе чем у больных артритом. В чем заключается отличие? Сравним коэффициенты регрес- сий. Начнем с коэффициента сдвига а. 1 2 1 2 2 2 2 2 22,4 25,3 33,8. a a a a s s s − = + = + = Тогда ( ) 1 2 1 2 3,3 7,3 0,314. 33,8 a a a a t s − − − − = = = При уровне значимости α = 0,05 при числе степеней свобо- ды ν = n 1 + п 2 – 4 = 46 критическое значение t равно 2,013. Поскольку полученное нами значение t меньше критического, заключаем, что между а 1 и а 2 нет значимого различия. При сравнении коэффициентов наклона получим t = 7,367, что больше критического. Итак, линии регрессии различаются наклоном, который круче в группе здоровых. КОРРЕЛЯЦИЯ Регрессионный анализ позволяет оценить, как одна переменная зависит от другой и каков разброс значений зависимой перемен- ной вокруг прямой, определяющей зависимость. Эти оценки и соответствующие доверительные интервалы позволяют пред- сказать значение зависимой переменной и определить точность этого предсказания. Результаты регрессионного анализа можно представить только в достаточно сложной цифровой или гра- фической форме. Однако нас часто интересует не предсказание значения одной переменной по значению другой, а просто ха- рактеристика тесноты (силы) связи между ними, при этом выра- женная одним числом. Эта характеристика называется коэффициентом корреляции, обычно ее обозначают буквой r. Коэффициент корреляции МО - ГЛАВА 8 251 жет принимать значения от –1 до +1. Знак коэффициента корре- ляции показывает направление связи (прямая или обратная), а абсолютная величина — тесноту связи. Коэффициент, равный –1, определяет столь же жесткую связь, что и равный 1. В отсутст- вие связи коэффициент корреляции равен нулю. На рис. 8.10 приведены примеры зависимостей и соответст- вующие им значения r. Мы рассмотрим два коэффициента кор- реляции. Коэффициент корреляции Пирсона предназначен для описа- ния линейной связи количественных признаков; как и регресси- |