Глантз. Книга Primer of biostatistics fourth edition
Скачать 6.07 Mb.
|
Р ИС . 8.10. Чем теснее связь между переменными, тем ближе абсолютная величина ко- эффициента корреляции к 1. АНАЛИЗ ЗАВИСИМОСТЕЙ 252 онный анализ, он требует нормальности распределения. Когда говорят просто о «коэффициенте корреляции», почти всегда име- ют в виду коэффициент корреляции Пирсона, именно так мы и будем поступать. Коэффициент ранговой корреляции Спирмена можно использо- вать, когда связь нелинейна — и не только для количественных, но и для порядковых признаков. Это непараметрический метод, он не требует какого-либо определенного типа распределения. О количественных, качественных и порядковых признаках мы уже говорили в гл. 5. Количественные признаки — это обыч- ные числовые данные, такие, как рост, вес, температура. Зна- чения количественного признака можно сравнить между собой и сказать, какое из них больше, на сколько и во сколько раз. На- пример, если один марсианин весит 15 г, а другой 10, то первый тяжелее второго и в полтора раза и на 5 г. Значения порядкового признака тоже можно сравнить, сказав, какое из них больше, но нельзя сказать, ни на сколько, ни во сколько раз. В медицине порядковые признаки встречаются довольно часто. Например, результаты исследования влагалищного мазка по Папаниколау оценивают по такой шкале: 1) норма, 2) легкая дисплазия, 3) умеренная дисплазия, 4) тяжелая дисплазия, 5) рак in situ. И ко- личественные, и порядковые признаки можно расположить по порядку — на этом общем свойстве основана большая группа непараметрических критериев, к которым относится и коэффи- циент ранговой корреляции Спирмена. С другими непараметри- ческими критериями мы познакомимся в гл. 10. Коэффициент корреляции Пирсона И все же, почему для описания тесноты связи нельзя воспользо- ваться регрессионным анализом? В качестве меры тесноты связи можно было бы использовать остаточное стандартное отклоне- ние. Однако если поменять местами зависимую и независимую переменные, то остаточное стандартное отклонение, как и дру- гие показатели регрессионного анализа, будет иным. Взглянем на рис. 8.11. По известной нам выборке из 10 марсиан построены две линии регрессии. В одном случае вес — зависимая перемен- ная, во втором — независимая. Линии регрессии заметно разли- ГЛАВА 8 253 Рис. 8.11. Если поменять местами х и у, уравнение регрессии получится другим, а коэф- фициент корреляции останется прежним. АНАЛИЗ ЗАВИСИМОСТЕЙ 254 чаются. Получается, что связь роста с весом одна, а веса с рос- том — другая. Асимметричность регрессионного анализа — вот что мешает непосредственно использовать его для характери- стики силы связи. Коэффициент корреляции, хотя его идея вы- текает из регрессионного анализа, свободен от этого недостат- ка. Приводим формулу. ( )( ) ( ) ( ) 2 2 , X X Y Y r X X Y Y − − = − − ∑ ∑ ∑ где X и Y — средние значения переменных X и Y. Выражение для r «симметрично» —поменяв местами X и Y, мы получим ту же величину. Коэффициент корреляции принимает значения от –1 до +1. Чем теснее связь, тем больше абсолютная величина коэффициента корреляции. Знак показывает направление свя- зи. При r > 0 говорят о прямой корреляции (с увеличением од- ной переменной другая также возрастает), при r < 0 — об обрат- ной (с увеличением одной переменной другая уменьшается). Вер- немся к рис. 8.10. На рис. 8.10А изображена максимально силь- ная прямая корреляция: r = +1. На рис. 8.10Б — максимально сильная обратная корреляция: r = –1. На рис. 8.10В корреляция прямая, тоже достаточно сильная: r = 0,8. Наконец, на рис. 8.10Г какая-либо связь между признаками отсутствует: r = 0. Возьмем пример с 10 марсианами, который мы уже рассматрива- ли с точки зрения регрессионного анализа. Вычислим коэффици- ент корреляции. Исходные данные и промежуточные результаты вы- числений приведены в табл. 8.3. Объем выборки n = 10, средний рост 369 10 36,9 X X n = = = ∑ и вес 103,8 10 10,38. Y Y n = = = ∑ Находим Σ(X– X )(Y– Y ) = 99,9, Σ(X– X ) 2 = 224,8, Σ(Y – Y ) 2 = 51,9. Подставим полученные значения в формулу для коэффици- ента корреляции: 99,9 0,925. 224,8 51,9 r = = × Величина r близка к 1, что говорит о тесной связи роста и веса. Чтобы лучше представить себе, какой коэффициент корреля- ции следует считать большим, а какой незначительным, взгляни- ГЛАВА 8 255 X Y Х – X Y – Y (X – X )(Y – Y ) (Х – X ) 2 (Y – Y ) 2 31 7,8 –5,9 –2,6 15,3 34,8 6,8 32 8,3 –4,9 –2,1 10,3 24,0 4,4 33 7,6 –3,9 –2,8 10,9 15,2 7,8 34 9,1 –2,9 –1,3 3,8 8,4 1,7 35 9,6 –1,9 –0,8 1,5 3,6 0,6 35 9,8 –1,9 –0,6 1,1 3,6 0,4 40 11,8 3,1 1,4 4,3 9,6 2,0 41 12,1 4,1 1,7 7,0 16,8 2,9 42 14,7 5,1 4,3 22,0 26,0 18,5 46 13,0 9,1 2,6 23,7 82,8 6,8 369 103,8 0,0 0,2 99,9 224,8 51,9 те на табл. 8.4 — в ней приведены коэффициенты корреляции для примеров, которые мы разбирали ранее. Связь регрессии и корреляции Все примеры коэффициентов корреляции (табл. 8.4) мы перво- начально использовали для построения линий регрессии. Дей- ствительно, между коэффициентом корреляции и параметрами регрессионного анализа существует тесная связь, которую мы сейчас продемонстрируем. Разные способы представления ко- эффициента корреляции, которые мы при этом получим, позво- лят лучше понять смысл этого показателя. Вспомним, что уравнение регрессии строится так, чтобы ми- нимизировать сумму квадратов отклонений от линии регрессии. Таблица 8.3. Вычисление коэффициента корреляции Таблица 8.4. Примеры корреляций Пример Коэффициент Объем корреляции r выборки п Рост и вес марсиан (рис. 8.7) 0,925 10 Сила сжатия кисти и мышечная масса у 0,938 25 здоровых (рис. 8.9А) Сила сжатия кисти и мышечная масса, 0,581 50 объединенная группа (рис. 8.9Б) АНАЛИЗ ЗАВИСИМОСТЕЙ 256 Обозначим эту минимальную сумму квадратов S ост (эту вели- чину называют остаточной суммой квадратов). Сумму квадра- тов отклонений значений зависимой переменной Y от ее сред- него Y обозначим S общ . Тогда: 2 ост общ 1 S r S = − Величина r 2 называется коэффициентом детерминации — это просто квадрат коэффициента корреляции. Коэффициент де- терминации показывает силу связи, но не ее направленность. Из приведенной формулы видно, что если значения зависи- мой переменной лежат на прямой регрессии, то S ост = 0, и тем самым r = +1 или r = –1, то есть существует линейная связь зависимой и независимой переменной. По любому значению независимой переменной можно совершенно точно предсказать значение зависимой переменной. Напротив, если переменные вообще не связаны между собой, то S ост = S общ . Тогда r = 0. Видно также, что коэффициент детерминации равен той доле общей дисперсии S общ ,которая обусловлена или, как говорят, объясняется линейной регрессией*. Остаточная сумма квадратов S ост связана с остаточной дис- персией 2 | y x s соотношением S ост = (п – 2) 2 | y x s , а общая сумма квад- ратов S общ с дисперсией 2 y s соотношением S общ = (п – 1) 2 y s . В таком случае 2 | 2 2 2 1 1 y x y s n r n s − = − − Эта формула позволяет судить о зависимости коэффициента корреляции от доли остаточной дисперсии в полной дисперсии 2 2 | y x y s s . Чем эта доля меньше, тем больше (по абсолютной ве- личине) коэффициент корреляции, и наоборот. Мы убедились, что коэффициент корреляции отражает тес- ноту линейной связи переменных. Однако если речь идет о пред- сказании значения одной переменной по значению другой, на * Следует помнить, что в статистике слова «обусловлена» и «объясняется» не обязательно означают причинную связь. ГЛАВА 8 257 коэффициент корреляции не следует слишком полагаться. На- пример, данным на рис. 8.7 соответствует весьма высокий коэф- фициент корреляции (r = 0,92), однако ширина доверительной области значений показывает, что неопределенность предсказа- ния довольно значительна. Поэтому даже при большом коэффи- циенте корреляции обязательно вычислите доверительную об- ласть значений. И под конец приведем соотношение коэффициента корреля- ции и коэффициента наклона прямой регрессии b: , X Y s r b s = где b — коэффициент наклона прямой регрессии, s X и s Y — стан- дартные отклонения переменных. Если не брать во внимание случай s X = 0, то коэффициент корреляции равен нулю тогда и только тогда, когда b = 0. Этим фактом мы сейчас и воспользуемся для оценки статистической значимости корреляции. Статистическая значимость корреляции Поскольку из b = 0 следует r = 0, гипотеза об отсутствии корреля- ции равнозначна гипотезе о нулевом наклоне прямой регрес- сии. Поэтому для оценки статистической значимости корреля- ции можно воспользоваться уже известной нам формулой для оценки статистической значимости отличия b от нуля: b b t s = Здесь число степеней свободы ν = n – 2. Однако если коэф- фициент корреляции уже вычислен, удобнее воспользоваться формулой: 2 1 2 r t r n = − − Число степеней свободы здесь также ν = п – 2. АНАЛИЗ ЗАВИСИМОСТЕЙ 258 При внешнем несходстве двух формул для t, они тождест- венны. Действительно, из того, что 2 | 2 2 2 1 , 1 y x y s n r n s − = − − следует ( ) 2 2 2 | 2 1 1 y x Y n s r s n − = − − Подставив значение | y x s в формулу для стандартной ошибки | 1 , 1 y x b x s s s n = − получим 2 1 2 Y b X s r s s n − = − С другой стороны, поскольку , X Y s r b s = имеем Y X s b r s = Теперь подставим выражения для s b и b в формулу b t b s = Получим: 2 2 1 1 2 2 Y X Y X s r s r t s r r s n n = = − − − − ГЛАВА 8 259 Животный жир и рак молочной железы В опытах на лабораторных животных показано, что высокое со- держание животного жира в рационе повышает риск рака мо- лочной железы. Наблюдается ли эта зависимость у людей? К. Кэррол* собрал данные о потреблении животных жиров и смертности от рака молочной железы по 39 странам. Результат представлен на рис. 8.12А. Коэффициент корреляции между потреблением животных жиров и смертностью от рака молоч- ной железы оказался равен 0,90. Оценим статистическую зна- чимость корреляции. 2 0,90 12,56. 1 0,90 39 2 t = = − − Критическое значение t 0,001 при числе степеней свободы ν = 39 – 2 = 37 равно 3,574, то есть меньше полученного нами. Та- ким образом, при уровне значимости 0,001 можно утверждать, что существует корреляция между потреблением животных жи- ров и смертностью от рака молочной железы. Теперь проверим, связана ли смертность с потреблением рас- тительных жиров? Соответствующие данные приведены на рис. 8.12Б. Коэффициент корреляции равен 0,15. Тогда 2 0,15 0,92. 1 0,15 39 2 t = = − − Даже при уровне значимости 0,10 вычисленное значение t меньше критического. Корреляция статистически не значима. Таким образом, риск рака молочной железы статистически значимо связан с потреблением животных, но не растительных жиров. Значит ли это, что животный жир способствует развитию рака молочной железы? Пока нет. Ведь обе рассматриваемые пе- ременные могут зависеть от какой-то третьей. В обсервацион- * К. К. Carroll. Experimental evidence of dietary factors and hormone-dependent cancers. Cancer Res., 35:3375—3383,1975. АНАЛИЗ ЗАВИСИМОСТЕЙ 260 Рис. 8.12. Смертность от рака молочной железы и потребление жиров на душу населе- ния в разных странах. А. Потребление животных жиров. Б. Потребление растительных жиров. Связь смертности с потреблением животных жиров достаточно отчетлива, чего не скажешь о связи с потреблением растительных жиров. ГЛАВА 8 261 ном исследовании, каковым является работа Кэррола, такую возможность отвергнуть нельзя*. Однако экспериментальные данные, о которых мы упомянули выше, — сильный аргумент в пользу именно причинно-следственной связи. Вообще истолкование результатов регрессионного и корре- ляционного анализа зависит от того, в каком исследовании были получены данные — обсервационном или экспериментальном. Если мы обнаружили связь переменных в обсервационном ис- следовании, то это не значит, что одна из них влияет на другую. Возможно, их согласованные изменения — результат действия какого-то неизвестного нам фактора. В экспериментальном ис- следовании, произвольно меняя одну из переменных, мы мо- жем быть уверены, что связь, если она будет выявлена, является причинной. Впрочем, осторожность не помешает и в этом слу- чае. В самом деле, трудно менять только одну переменную. Уве- личивая содержание жира в рационе, мы либо увеличиваем об- щую калорийность, либо снижаем содержание белков и углево- дов. Кто поручится, что канцерогенное действие оказывает имен- но жир, а не дисбаланс питательных веществ? КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА Расчет коэффициента корреляции возможен при тех же услови- ях, что и регрессионный анализ. Это прежде всего линейность связи переменных и нормальность распределения. Эти условия выполняются далеко не всегда. Кроме того, в клинических ис- следованиях мы часто имеем дело с порядковыми признаками, а к ним ни регрессионный анализ, ни расчет коэффициента кор- * Например, исследования показывают, что заболеваемость раком молочной железы связана с уровнем доходов, числом автомобилей и телевизоров в семье. (В. S. Drasar, D. Irving. Environmental factors and cancer of the colon and breast. Br. J. Cancer, 27:167—172, 1973.) Ho значит ли это, что, поку- пая новый автомобиль, домашняя хозяйка увеличивает риск заболеть ра- ком молочной железы? На основании таких данных мы вправе только пред- положить, что какой-то фактор, связанный с уровнем жизни, влияет на риск рака молочной железы, но не можем точно указать этот фактор. АНАЛИЗ ЗАВИСИМОСТЕЙ 262 реляци, разумеется, неприменим. В подобных случаях следует воспользоваться коэффициентом ранговой корреляции Спирме- на*. Это непараметрический метод — он не требует нормально- сти распределения; не требует он и линейной зависимости, его можно применять как к количественным, так и к порядковым признакам**. Идея коэффициента ранговой корреляции Спирмена (его обо- значают r s ,) проста. Нужно упорядочить данные по возраста- нию и заменить реальные значения их рангами. Рангом значе- ния называется его номер в упорядоченном ряду. Например, в ряду 1,4, 8, 8, 12 ранг числа 4 равен 2. Затем, беря вместо самих значений их ранги, рассчитывают обычный коэффициент кор- реляции Пирсона. Это и будет коэффициент ранговой корреля- ции Спирмена. Его можно рассчитать и проще: 2 3 6 1 , s d r n n = − − ∑ где d — разность рангов для каждого члена выборки. Как быть, если в ряду встретятся одинаковые значения? Ска- жем, в приведенном примере это две восьмерки. Им следует * Упомянем также коэффициент ранговой корреляции Кендалла, обо- значаемый τ. В отличие от коэффициента ранговой корреляции Спир- мена он может быть обобщен для случая нескольких независимых переменных. Заключения, основанные на использовании обоих ко- эффициентов, одинаковы, хотя числовые значения коэффициентов не совпадают. О коэффициенте ранговой корреляции Кендалла можно прочесть в книге: S. Siegel, N. J. Castellan Non-parametric statistics for the behavioral sciences (2d ed.). McGraw-Hill, New York, 1988. ** Если параметрические методы, требующие нормального распреде- ления, применить к данным с иным типом рапределения, это приве- дет к ошибочному заключению. Напротив, непараметрические ме- тоды можно смело применять и в случае нормального распределе- ния. Однако тогда чувствительность их будет несколько ниже чувст- вительности параметрических методов. Что касается коэффициента ранговой корреляции Спирмена, то он и в этом случае проигрывает коэффициенту корреляции Пирсона весьма незначительно. ГЛАВА 8 263 присвоить один и тот же ранг, равный среднему занимаемых ими мест: (3 + 4)/2 = 3,5. Рангом стоящего за ними числа 12 будет 5. Посмотрим, как вычислить r s для знакомой нам выборки из 10 марсиан (табл. 8.5). Вначале упорядочим по возрастанию зна- чения каждой из переменных. Ранг 1 присваивается меньшему значению, 10 — большему. Упорядочим марсиан по росту. На 5-м и 6-м месте в нем стоят одинаковые значения. Присвоим им общий ранг (5 + 6)/2 = 5,5. Затем упорядочим марсиан по весу и для каждого марсианина вычислим разность рангов роста и веса. Наконец, вычислим коэффициент ранговой корреляции Спир- мена: ( ) ( ) ( ) 2 2 2 2 2 2 2 2 2 3 6 1 1 2 0 0,5 0,5 0 0 0 1 10 10 0,96. s r − + − + + + + − + + + = − = − = Обратимся к таблице 8.6, где приведены критические зна- чения коэффициента ранговой корреляции Спирмена для раз- ных уровней значимости и объемов выборки. Критическое зна- чение для уровня значимости 0,001 и объема выборки n = 10 равно 0,903, что меньше полученного нами. Тем самым, корре- ляция статистически значима (Р < 0,001). |