Главная страница
Навигация по странице:

  • Коэффициент корреляции Пирсона

  • Связь регрессии и корреляции

  • Таблица 8.3.

  • Статистическая значимость корреляции

  • Животный жир и рак молочной железы

  • Рис. 8.12.

  • Глантз. Книга Primer of biostatistics fourth edition


    Скачать 6.07 Mb.
    НазваниеКнига Primer of biostatistics fourth edition
    АнкорГлантз
    Дата30.04.2023
    Размер6.07 Mb.
    Формат файлаpdf
    Имя файлаglantz.pdf
    ТипКнига
    #1099022
    страница21 из 37
    1   ...   17   18   19   20   21   22   23   24   ...   37
    Р
    ИС
    . 8.10. Чем теснее связь между переменными, тем ближе абсолютная величина ко- эффициента корреляции к 1.
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    252
    онный анализ, он требует нормальности распределения. Когда говорят просто о «коэффициенте корреляции», почти всегда име- ют в виду коэффициент корреляции Пирсона, именно так мы и будем поступать.
    Коэффициент ранговой корреляции Спирмена можно использо- вать, когда связь нелинейна — и не только для количественных, но и для порядковых признаков. Это непараметрический метод, он не требует какого-либо определенного типа распределения.
    О количественных, качественных и порядковых признаках мы уже говорили в гл. 5. Количественные признаки — это обыч- ные числовые данные, такие, как рост, вес, температура. Зна- чения количественного признака можно сравнить между собой и сказать, какое из них больше, на сколько и во сколько раз. На- пример, если один марсианин весит 15 г, а другой 10, то первый тяжелее второго и в полтора раза и на 5 г. Значения порядкового признака тоже можно сравнить, сказав, какое из них больше, но нельзя сказать, ни на сколько, ни во сколько раз. В медицине порядковые признаки встречаются довольно часто. Например,
    результаты исследования влагалищного мазка по Папаниколау оценивают по такой шкале: 1) норма, 2) легкая дисплазия, 3)
    умеренная дисплазия, 4) тяжелая дисплазия, 5) рак in situ. И ко- личественные, и порядковые признаки можно расположить по порядку — на этом общем свойстве основана большая группа непараметрических критериев, к которым относится и коэффи- циент ранговой корреляции Спирмена. С другими непараметри- ческими критериями мы познакомимся в гл. 10.
    Коэффициент корреляции Пирсона
    И все же, почему для описания тесноты связи нельзя воспользо- ваться регрессионным анализом? В качестве меры тесноты связи можно было бы использовать остаточное стандартное отклоне- ние. Однако если поменять местами зависимую и независимую переменные, то остаточное стандартное отклонение, как и дру- гие показатели регрессионного анализа, будет иным. Взглянем на рис. 8.11. По известной нам выборке из 10 марсиан построены две линии регрессии. В одном случае вес — зависимая перемен- ная, во втором — независимая. Линии регрессии заметно разли-
    ГЛАВА 8

    253
    Рис. 8.11. Если поменять местами х и у, уравнение регрессии получится другим, а коэф- фициент корреляции останется прежним.
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    254
    чаются. Получается, что связь роста с весом одна, а веса с рос- том — другая. Асимметричность регрессионного анализа — вот что мешает непосредственно использовать его для характери- стики силы связи. Коэффициент корреляции, хотя его идея вы- текает из регрессионного анализа, свободен от этого недостат- ка. Приводим формулу.
    (
    )(
    )
    (
    ) (
    )
    2 2
    ,
    X
    X Y Y
    r
    X
    X
    Y Y


    =





    где X и
    Y — средние значения переменных X и Y. Выражение для r «симметрично» —поменяв местами X и Y, мы получим ту же величину. Коэффициент корреляции принимает значения от
    –1 до +1. Чем теснее связь, тем больше абсолютная величина коэффициента корреляции. Знак показывает направление свя- зи. При r > 0 говорят о прямой корреляции (с увеличением од- ной переменной другая также возрастает), при r < 0 — об обрат- ной (с увеличением одной переменной другая уменьшается). Вер- немся к рис. 8.10. На рис. 8.10А изображена максимально силь- ная прямая корреляция: r = +1. На рис. 8.10Б — максимально сильная обратная корреляция: r = –1. На рис. 8.10В корреляция прямая, тоже достаточно сильная: r = 0,8. Наконец, на рис. 8.10Г
    какая-либо связь между признаками отсутствует: r = 0.
    Возьмем пример с 10 марсианами, который мы уже рассматрива- ли с точки зрения регрессионного анализа. Вычислим коэффици- ент корреляции. Исходные данные и промежуточные результаты вы- числений приведены в табл. 8.3. Объем выборки n = 10, средний рост
    369 10 36,9
    X
    X n
    =
    =
    =

    и вес
    103,8 10 10,38.
    Y
    Y n
    =
    =
    =

    Находим
    Σ(XX )(Y
    Y
    ) = 99,9,
    Σ(XX )
    2
    = 224,8,
    Σ(Y
    Y
    )
    2
    = 51,9.
    Подставим полученные значения в формулу для коэффици- ента корреляции:
    99,9 0,925.
    224,8 51,9
    r
    =
    =
    ×
    Величина r близка к 1, что говорит о тесной связи роста и веса. Чтобы лучше представить себе, какой коэффициент корреля- ции следует считать большим, а какой незначительным, взгляни-
    ГЛАВА 8

    255
    X
    Y
    Х –
    X
    Y –
    Y
    (X –
    X )(Y –
    Y
    ) (Х –
    X )
    2
    (Y –
    Y
    )
    2 31 7,8
    –5,9
    –2,6 15,3 34,8 6,8 32 8,3
    –4,9
    –2,1 10,3 24,0 4,4 33 7,6
    –3,9
    –2,8 10,9 15,2 7,8 34 9,1
    –2,9
    –1,3 3,8 8,4 1,7 35 9,6
    –1,9
    –0,8 1,5 3,6 0,6 35 9,8
    –1,9
    –0,6 1,1 3,6 0,4 40 11,8 3,1 1,4 4,3 9,6 2,0 41 12,1 4,1 1,7 7,0 16,8 2,9 42 14,7 5,1 4,3 22,0 26,0 18,5 46 13,0 9,1 2,6 23,7 82,8 6,8 369 103,8 0,0 0,2 99,9 224,8 51,9
    те на табл. 8.4 — в ней приведены коэффициенты корреляции для примеров, которые мы разбирали ранее.
    Связь регрессии и корреляции
    Все примеры коэффициентов корреляции (табл. 8.4) мы перво- начально использовали для построения линий регрессии. Дей- ствительно, между коэффициентом корреляции и параметрами регрессионного анализа существует тесная связь, которую мы сейчас продемонстрируем. Разные способы представления ко- эффициента корреляции, которые мы при этом получим, позво- лят лучше понять смысл этого показателя.
    Вспомним, что уравнение регрессии строится так, чтобы ми- нимизировать сумму квадратов отклонений от линии регрессии.
    Таблица 8.3. Вычисление коэффициента корреляции
    Таблица 8.4. Примеры корреляций
    Пример
    Коэффициент Объем корреляции r выборки п
    Рост и вес марсиан (рис. 8.7)
    0,925 10
    Сила сжатия кисти и мышечная масса у 0,938 25
    здоровых (рис. 8.9А)
    Сила сжатия кисти и мышечная масса, 0,581 50
    объединенная группа (рис. 8.9Б)
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    256
    Обозначим эту минимальную сумму квадратов S
    ост
    (эту вели- чину называют остаточной суммой квадратов). Сумму квадра- тов отклонений значений зависимой переменной Y от ее сред- него Y обозначим S
    общ
    . Тогда:
    2
    ост общ
    1
    S
    r
    S
    = −
    Величина r
    2
    называется коэффициентом детерминации —
    это просто квадрат коэффициента корреляции. Коэффициент де- терминации показывает силу связи, но не ее направленность.
    Из приведенной формулы видно, что если значения зависи- мой переменной лежат на прямой регрессии, то S
    ост
    = 0, и тем самым r = +1 или r = –1, то есть существует линейная связь зависимой и независимой переменной. По любому значению независимой переменной можно совершенно точно предсказать значение зависимой переменной. Напротив, если переменные вообще не связаны между собой, то S
    ост
    = S
    общ
    . Тогда r = 0.
    Видно также, что коэффициент детерминации равен той доле общей дисперсии S
    общ
    ,которая обусловлена или, как говорят,
    объясняется линейной регрессией*.
    Остаточная сумма квадратов S
    ост связана с остаточной дис- персией
    2
    |
    y x
    s соотношением S
    ост
    = (п – 2)
    2
    |
    y x
    s , а общая сумма квад- ратов S
    общ с дисперсией
    2
    y
    s
    соотношением S
    общ
    = (п – 1)
    2
    y
    s
    . В
    таком случае
    2
    |
    2 2
    2 1
    1
    y x
    y
    s
    n
    r
    n
    s

    = −

    Эта формула позволяет судить о зависимости коэффициента корреляции от доли остаточной дисперсии в полной дисперсии
    2 2
    |
    y x
    y
    s
    s . Чем эта доля меньше, тем больше (по абсолютной ве- личине) коэффициент корреляции, и наоборот.
    Мы убедились, что коэффициент корреляции отражает тес- ноту линейной связи переменных. Однако если речь идет о пред- сказании значения одной переменной по значению другой, на
    * Следует помнить, что в статистике слова «обусловлена» и «объясняется»
    не обязательно означают причинную связь.
    ГЛАВА 8

    257
    коэффициент корреляции не следует слишком полагаться. На- пример, данным на рис. 8.7 соответствует весьма высокий коэф- фициент корреляции (r = 0,92), однако ширина доверительной области значений показывает, что неопределенность предсказа- ния довольно значительна. Поэтому даже при большом коэффи- циенте корреляции обязательно вычислите доверительную об- ласть значений.
    И под конец приведем соотношение коэффициента корреля- ции и коэффициента наклона прямой регрессии b:
    ,
    X
    Y
    s
    r b
    s
    =
    где b — коэффициент наклона прямой регрессии, s
    X
    и s
    Y
    стан- дартные отклонения переменных.
    Если не брать во внимание случай s
    X
    = 0, то коэффициент корреляции равен нулю тогда и только тогда, когда b = 0. Этим фактом мы сейчас и воспользуемся для оценки статистической значимости корреляции.
    Статистическая значимость корреляции
    Поскольку из b = 0 следует r = 0, гипотеза об отсутствии корреля- ции равнозначна гипотезе о нулевом наклоне прямой регрес- сии. Поэтому для оценки статистической значимости корреля- ции можно воспользоваться уже известной нам формулой для оценки статистической значимости отличия b от нуля:
    b
    b
    t
    s
    =
    Здесь число степеней свободы
    ν = n – 2. Однако если коэф- фициент корреляции уже вычислен, удобнее воспользоваться формулой:
    2 1
    2
    r
    t
    r
    n
    =


    Число степеней свободы здесь также
    ν = п – 2.
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    258
    При внешнем несходстве двух формул для t, они тождест- венны. Действительно, из того, что
    2
    |
    2 2
    2 1
    ,
    1
    y x
    y
    s
    n
    r
    n
    s

    = −

    следует
    (
    )
    2 2
    2
    |
    2 1
    1
    y x
    Y
    n
    s
    r s
    n

    =


    Подставив значение
    |
    y x
    s в формулу для стандартной ошибки
    |
    1
    ,
    1
    y x
    b
    x
    s
    s
    s
    n
    =

    получим
    2 1
    2
    Y
    b
    X
    s
    r
    s
    s
    n

    =

    С другой стороны, поскольку
    ,
    X
    Y
    s
    r b
    s
    =
    имеем
    Y
    X
    s
    b r
    s
    =
    Теперь подставим выражения для s
    b
    и b в формулу
    b
    t b s
    =
    Получим:
    2 2
    1 1
    2 2
    Y
    X
    Y
    X
    s
    r
    s
    r
    t
    s
    r
    r
    s
    n
    n
    =
    =




    ГЛАВА 8

    259
    Животный жир и рак молочной железы
    В опытах на лабораторных животных показано, что высокое со- держание животного жира в рационе повышает риск рака мо- лочной железы. Наблюдается ли эта зависимость у людей? К.
    Кэррол* собрал данные о потреблении животных жиров и смертности от рака молочной железы по 39 странам. Результат представлен на рис. 8.12А. Коэффициент корреляции между потреблением животных жиров и смертностью от рака молоч- ной железы оказался равен 0,90. Оценим статистическую зна- чимость корреляции.
    2 0,90 12,56.
    1 0,90 39 2
    t
    =
    =


    Критическое значение t
    0,001
    при числе степеней свободы
    ν =
    39 – 2 = 37 равно 3,574, то есть меньше полученного нами. Та- ким образом, при уровне значимости 0,001 можно утверждать,
    что существует корреляция между потреблением животных жи- ров и смертностью от рака молочной железы.
    Теперь проверим, связана ли смертность с потреблением рас- тительных жиров? Соответствующие данные приведены на рис.
    8.12Б. Коэффициент корреляции равен 0,15. Тогда
    2 0,15 0,92.
    1 0,15 39 2
    t
    =
    =


    Даже при уровне значимости 0,10 вычисленное значение t
    меньше критического. Корреляция статистически не значима.
    Таким образом, риск рака молочной железы статистически значимо связан с потреблением животных, но не растительных жиров. Значит ли это, что животный жир способствует развитию рака молочной железы? Пока нет. Ведь обе рассматриваемые пе- ременные могут зависеть от какой-то третьей. В обсервацион-
    * К. К. Carroll. Experimental evidence of dietary factors and hormone-dependent cancers. Cancer Res., 35:3375—3383,1975.
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    260
    Рис. 8.12. Смертность от рака молочной железы и потребление жиров на душу населе- ния в разных странах. А. Потребление животных жиров. Б. Потребление растительных жиров. Связь смертности с потреблением животных жиров достаточно отчетлива, чего не скажешь о связи с потреблением растительных жиров.
    ГЛАВА 8

    261
    ном исследовании, каковым является работа Кэррола, такую возможность отвергнуть нельзя*. Однако экспериментальные данные, о которых мы упомянули выше, — сильный аргумент в пользу именно причинно-следственной связи.
    Вообще истолкование результатов регрессионного и корре- ляционного анализа зависит от того, в каком исследовании были получены данные — обсервационном или экспериментальном.
    Если мы обнаружили связь переменных в обсервационном ис- следовании, то это не значит, что одна из них влияет на другую.
    Возможно, их согласованные изменения — результат действия какого-то неизвестного нам фактора. В экспериментальном ис- следовании, произвольно меняя одну из переменных, мы мо- жем быть уверены, что связь, если она будет выявлена, является причинной. Впрочем, осторожность не помешает и в этом слу- чае. В самом деле, трудно менять только одну переменную. Уве- личивая содержание жира в рационе, мы либо увеличиваем об- щую калорийность, либо снижаем содержание белков и углево- дов. Кто поручится, что канцерогенное действие оказывает имен- но жир, а не дисбаланс питательных веществ?
    КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА
    Расчет коэффициента корреляции возможен при тех же услови- ях, что и регрессионный анализ. Это прежде всего линейность связи переменных и нормальность распределения. Эти условия выполняются далеко не всегда. Кроме того, в клинических ис- следованиях мы часто имеем дело с порядковыми признаками,
    а к ним ни регрессионный анализ, ни расчет коэффициента кор-
    * Например, исследования показывают, что заболеваемость раком молочной железы связана с уровнем доходов, числом автомобилей и телевизоров в семье. (В. S. Drasar, D. Irving. Environmental factors and cancer of the colon and breast. Br. J. Cancer, 27:167—172, 1973.) Ho значит ли это, что, поку- пая новый автомобиль, домашняя хозяйка увеличивает риск заболеть ра- ком молочной железы? На основании таких данных мы вправе только пред- положить, что какой-то фактор, связанный с уровнем жизни, влияет на риск рака молочной железы, но не можем точно указать этот фактор.
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    262
    реляци, разумеется, неприменим. В подобных случаях следует воспользоваться коэффициентом ранговой корреляции Спирме- на*. Это непараметрический метод — он не требует нормально- сти распределения; не требует он и линейной зависимости, его можно применять как к количественным, так и к порядковым признакам**.
    Идея коэффициента ранговой корреляции Спирмена (его обо- значают r
    s
    ,) проста. Нужно упорядочить данные по возраста- нию и заменить реальные значения их рангами. Рангом значе- ния называется его номер в упорядоченном ряду. Например, в ряду 1,4, 8, 8, 12 ранг числа 4 равен 2. Затем, беря вместо самих значений их ранги, рассчитывают обычный коэффициент кор- реляции Пирсона. Это и будет коэффициент ранговой корреля- ции Спирмена. Его можно рассчитать и проще:
    2 3
    6 1
    ,
    s
    d
    r
    n
    n
    = −


    где d — разность рангов для каждого члена выборки.
    Как быть, если в ряду встретятся одинаковые значения? Ска- жем, в приведенном примере это две восьмерки. Им следует
    * Упомянем также коэффициент ранговой корреляции Кендалла, обо- значаемый
    τ. В отличие от коэффициента ранговой корреляции Спир- мена он может быть обобщен для случая нескольких независимых переменных. Заключения, основанные на использовании обоих ко- эффициентов, одинаковы, хотя числовые значения коэффициентов не совпадают. О коэффициенте ранговой корреляции Кендалла можно прочесть в книге: S. Siegel, N. J. Castellan Non-parametric statistics for the behavioral sciences (2d ed.). McGraw-Hill, New York, 1988.
    ** Если параметрические методы, требующие нормального распреде- ления, применить к данным с иным типом рапределения, это приве- дет к ошибочному заключению. Напротив, непараметрические ме- тоды можно смело применять и в случае нормального распределе- ния. Однако тогда чувствительность их будет несколько ниже чувст- вительности параметрических методов. Что касается коэффициента ранговой корреляции Спирмена, то он и в этом случае проигрывает коэффициенту корреляции Пирсона весьма незначительно.
    ГЛАВА 8

    263
    присвоить один и тот же ранг, равный среднему занимаемых ими мест: (3 + 4)/2 = 3,5. Рангом стоящего за ними числа 12
    будет 5.
    Посмотрим, как вычислить r
    s
    для знакомой нам выборки из
    10 марсиан (табл. 8.5). Вначале упорядочим по возрастанию зна- чения каждой из переменных. Ранг 1 присваивается меньшему значению, 10 — большему. Упорядочим марсиан по росту. На
    5-м и 6-м месте в нем стоят одинаковые значения. Присвоим им общий ранг (5 + 6)/2 = 5,5. Затем упорядочим марсиан по весу и для каждого марсианина вычислим разность рангов роста и веса.
    Наконец, вычислим коэффициент ранговой корреляции Спир- мена:
    ( ) ( )
    (
    )
    2 2
    2 2
    2 2
    2 2
    2 3
    6 1
    1 2
    0 0,5 0,5 0
    0 0
    1 10 10 0,96.
    s
    r


    − + − + + +
    + −
    + + +


    = −
    =

    =
    Обратимся к таблице 8.6, где приведены критические зна- чения коэффициента ранговой корреляции Спирмена для раз- ных уровней значимости и объемов выборки. Критическое зна- чение для уровня значимости 0,001 и объема выборки n = 10
    равно 0,903, что меньше полученного нами. Тем самым, корре- ляция статистически значима (Р < 0,001).
    1   ...   17   18   19   20   21   22   23   24   ...   37


    написать администратору сайта