Главная страница
Навигация по странице:

  • Рис. 8.6. А.

  • Есть ли зависимость

  • Доверительная область для линии регрессии

  • Рис. 8.7. А.

  • Доверительная область для значений

  • Рис. 8.7. Б.

  • Мышечная сила при ревматоидном артрите

  • Рис. 8.9. А.

  • Таблица 8.2.

  • Глантз. Книга Primer of biostatistics fourth edition


    Скачать 6.07 Mb.
    НазваниеКнига Primer of biostatistics fourth edition
    АнкорГлантз
    Дата30.04.2023
    Размер6.07 Mb.
    Формат файлаpdf
    Имя файлаglantz.pdf
    ТипКнига
    #1099022
    страница20 из 37
    1   ...   16   17   18   19   20   21   22   23   ...   37
    Стандартные ошибки коэффициентов регрессии
    Подобно тому как выборочное среднее — это оценка истинного среднего (среднего по совокупности), так и выборочные пара- метры уравнения регрессии a и b — не более чем оценки истин- ных коэффициентов регрессии
    α и β. Разные выборки дают раз- ные оценки среднего — точно так же разные выборки будут да- вать разные оценки коэффициентов регрессии. Для выборки с рис. 8.3 мы получили значения а = –6,0 и b = 0,44. Рассмотрим другую выборку из той же совокупности (рис. 8.6А). На рис. 8.6Б
    эта выборка показана такой, какой ее видит исследователь. Об- щая закономерность осталась прежней — высокие марсиане ве-
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    236
    Рис. 8.6. А. Еще одна случайная выборка объемом 10 из совокупности марсиан. Марси- ане, попавшие в выборку, помечены точками.
    ГЛАВА 8

    237
    Рис. 8.6. Б. Линия регрессии, рассчитанная по этой выборке, несколько отличается от полученной ранее (см. рис. 8.5Б). Серым показана линия средних с рис. 8.2.
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    238
    сят больше низкорослых. Однако, рассчитав коэффициенты ре- грессии, получим а = –4,0 г и b = 0,38 г/см.
    Если построить все возможные выборки по 10 марсиан в каж- дой, получится совокупность всех значений а и b. Их средние равны
    α и β, а стандартные отклонения — σ
    α
    и
    σ
    β
    . Эти стандарт- ные отклонения называются стандартными ошибками коэффи-
    циентов регрессии. Стандартные ошибки коэффициентов рег- рессии, подобно стандартной ошибке среднего или доли, ис- пользуются при проверке гипотез и вычислении доверительных интервалов. Выборочные оценки для
    σ
    α
    и
    σ
    β
    обозначаются со- ответственно s
    a
    и s
    b
    и вычисляются по следующим формулам*:
    (
    )
    2
    |
    2 1
    1
    a
    y x
    X
    X
    s
    s
    n
    n
    s
    =
    +

    и
    |
    1 1
    y x
    b
    X
    s
    s
    s
    n
    =

    Для выборки с рис. 8.3Б имеем:
    (
    )
    2 2
    1 36,9 1,02 2,53 10 10 1 5,0
    a
    s
    =
    +
    =

    и
    1 1,02 0,068.
    5,0 10 1
    b
    s
    =
    =

    Стандартные ошибки коэффициентов регрессии использу- ются аналогично стандартной ошибке среднего — для нахожде- ния доверительных интервалов и проверки гипотез.
    * Вывод формул для стандартных ошибок коэффициентов регрессии мож- но найти в большинстве учебников статистики. См., например, J. Neter and W. Wasserman. Applied statistical models. Irwin, Home-wood, III., 1974,
    chap. 3, «Inferences in regression analysis».
    ГЛАВА 8

    239
    Есть ли зависимость?
    Помня о досадном недоразумении с «диуретиком» из гл. 1 (см.
    рис. 1.2), исследователь вправе спросить: как убедиться, что за- висимость действительно существует? Иными словами, как по выборочным данным определить вероятность Р нулевой гипоте- зы о том, что коэффициент наклона
    β = 0*?
    Совокупность всех выборочных значений коэффициента на- клона b приближенно подчиняется нормальному распределению.
    Поэтому можно воспользоваться критерием Стьюдента, анало- гично тому, как мы пользовались им в гл. 4 для проверки гипоте- зы относительно среднего. В общем виде критерий Стьюдента можно определить как:
    Выборочная оценка Истинная величина
    Стандартная ошибка выборочной оценки
    t

    =
    Для оценки коэффициента наклона:
    b
    b
    t
    s
    − β
    =
    Оценить вероятность гипотезы о равенстве
    β = 0 можно дву- мя способами.
    Приравняв
    β к нулю, имеем
    b
    b
    t
    s
    =
    Теперь по табл. 4.1 найдем t
    α
    — критическое значение t для вы- бранного уровня значимости
    α и числа степеней свободы ν = п – 2.
    Если полученное значение t по абсолютной величине превосхо- дит t
    α
    , то Р <
    α, то есть зависимость статистически значима.
    Потренируемся на марсианах. Для выборки с рис. 8.3Б мы на- шли b = 0,44 и s
    b
    = 0,068 Тогда t = 0,44/0,068 = 6,47. Объем выбор- ки равен 10. Положим уровень значимости равным 0,001. В табл.
    4.1 для этого уровня значимости и числа степеней свободы
    * Речь идет исключительно о линейной зависимости. Как мы вскоре уви- дим, зависимость может быть и нелинейной; в таком случае излагаемый способ даст неправильный результат.
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    240
    ν = 10 – 2 = 8 находим критическое значение t
    α
    = 5,041. По- скольку t > t
    α
    , гипотезу об отсутствии зависимости веса от рос- та следует отвергнуть.
    Конечно, как и всегда при проверке гипотез, это заключение может оказаться ложным (опять-таки вспоминается злополуч- ный диуретик из гл. 1). Но вероятность совершить эту ошибку не превышает 0,001.
    Второй способ основан на использовании доверительных ин- тервалов. 100(1 –
    α)-процентный доверительный интервал для β
    имеет вид
    b
    b
    b t s
    b t s
    α
    α

    < β < +
    Рассчитаем 95% доверительный интервал. Число степеней свободы
    ν = 10 – 2 = 8. По таблице 4.1 находим t
    0,05
    = 2,306.
    Выборочные значения b = 0,44 и s
    b
    = 0,068. Следовательно,
    доверительный интервал для
    β:
    0,44 2,306 0,068 0,44 2,306 0,068,
    0,28 0,60.

    ×
    < β <
    +
    ×
    < β <
    Поскольку ноль в этот интервал не попадает, вероятность то- го, что
    β = 0, меньше 5%.
    Если рассчитать 99,9% доверительный интервал, можно убе- диться, что и он не содержит нуля. Вывод, полученный выше при использовании критерия Стьюдента, как и следовало ожи- дать, совпадает с полученным с помощью доверительного ин- тервала. Заметим, что истинное значение
    β = 0,5 попадает в доверительный интервал.
    Можно вычислить доверительный интервал и для коэффици- ента
    α. Например, 95% доверительный интервал имеет вид:
    0,05 0,05
    ,
    a
    a
    a t
    s
    a t
    s

    < α < +
    то есть
    6,0 2,306 2,53 6,0 2,306 2,53,
    11,8 0,17.


    ×
    < α < −
    +
    ×

    < α < −
    Интервал покрывает истинное значение
    α = –8 г.
    ГЛАВА 8

    241
    Следующим этапом будет построение доверительной области для линии регрессии и значений зависимой переменной.
    Доверительная область для линии регрессии
    Обычно мы не знаем истинных величин коэффициентов регрес- сии
    α и β. Нам известны только их оценки а и b. Иначе говоря,
    истинная прямая регрессии может пройти выше или ниже, быть более крутой или пологой, чем построенная по выборочным данным. Мы вычислили доверительные интервалы для коэффи- циентов регрессии. Можно вычислить доверительную область и для самой линии регрессии. На рис. 8.7А показана 95% довери- тельная область для выборки с рис. 8.3. Как видим, это доволь- но узкая полоса, которая несколько расширяется при крайних значениях х.
    Мы знаем, что при любом значении независимой перемен- ной х соответствующие значения зависимой переменной у рас- пределены нормально. Средним является значение уравнения регрессии ˆy . Неопределенность его оценки характеризуется стандартной ошибкой регрессии:
    (
    )
    (
    )
    2
    ˆ
    |
    2 1
    1
    y
    y x
    X
    x X
    s
    s
    n
    n
    s

    =
    +

    В отличие от стандартных ошибок, с которыми мы имели дело до сих пор,
    ˆy
    s при разных х принимает разные значения:
    чем дальше х от выборочного среднего X , тем она больше.
    Теперь можно вычислить 100(1 –
    α)-процентный доверитель- ный интервал для значения уравнения регрессии в точке х:
    ˆ
    ˆ
    ˆ
    ˆ
    ,
    y
    y
    y t s
    y y t s
    α
    α

    < < +
    где t
    α
    критическое значение с
    ν = n – 2 степенями свободы, а
    ˆy — значение уравнения регрессии в точке х:
    ˆ
    y a bx
    = +
    Итак, мы получили уравнение для кривых, ограничивающих доверительную область линии регрессии (см. рис. 8.3). С задан- ной вероятностью, обычно 95%, можно утверждать, что истин-
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    242
    ная линия находится где-то внутри этой области. Обратите вни- мание, что три точки из десяти оказались вне доверительной области. Это совершенно естественно, поскольку речь идет о доверительной области линии регресии, а не самих значений
    (доверительная область для значений гораздо шире).
    Авторы медицинских публикаций нередко приводят довери- тельную область линии регрессии и говорят о ней так, как будто это — доверительная область значений. Это примерно то же са- мое, что выдавать стандартную ошибку среднего за характеристику разброса значений, путая ее со стандартным отклонением. Напри- мер, из рис. 8.7А видно, что средний вес марсиан ростом 40 см с вероятностью 95% окажется между 11,0 и 12,5 г — из этого
    Рис. 8.7. А. 95% доверительная область для линии регрессии (по выборке с рис. 8.3).
    ГЛАВА 8

    243
    вовсе не следует, что в этих пределах окажется вес 95% марси- ан такого роста.
    Теперь займемся доверительной областью для значений зави- симой переменной.
    Доверительная область для значений
    Разброс значений складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой ли- нии. Характеристикой разброса значений вокруг линии регрессии является остаточное стандартное отклонение s
    y|x
    , а неопределен-
    Рис. 8.7. Б. 95% доверительная область для значений. Если мы хотим определить вес марсианина по его росту, нам следует воспользоваться именно этой доверительной областью.
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    244
    ности положения линии регрессии — стандартная ошибка рег- рессии
    ˆy
    s . Дисперсия суммы двух величин равна сумме диспер- сий, поэтому
    2 2
    ˆ
    |
    Y
    y x
    y
    s
    s
    s
    =
    +
    Подставив в эту формулу выражение для
    ˆy
    s из предыдущего раздела, получим:
    (
    )
    (
    )
    2
    |
    2 1
    1 1
    Y
    y x
    X
    x X
    s
    s
    n
    n
    s

    =
    + +

    Тогда 100(1 –
    α)-процентный доверительный интервал для зависимой переменной
    ˆ
    ˆ
    Y
    Y
    y t s
    y
    y t s
    α
    α

    < < +
    Заметьте, что входящие в это неравенство величины ˆy и s
    Y
    зависят от х.
    На рис. 8.7Б изображена полученная по этой формуле 95%
    доверительная область для значений зависимой переменной. В
    эту область попадет 95% всех возможных значений веса марси- ан любого роста. Например, с вероятностью 95% можно утвер- ждать, что любой 40-сантиметровый марсианин весит от 9,5 до
    14,0г.
    СРАВНЕНИЕ ДВУХ ЛИНИЙ РЕГРЕССИИ
    Часто требуется сравнить линии регрессии, рассчитанные по двум выборкам. Это можно сделать тремя способами.
    • Сравнить коэффициенты наклона b,
    Сравнить коэффициенты сдвига a.
    • Сравнить линии в целом.
    В первых двух случаях следует воспользоваться критерием
    Стьюдента. Если нужно проверить, значимо ли различие в на- клоне двух прямых регрессии, критерий Стьюдента t вычисляет- ся по формуле:
    ГЛАВА 8

    245 1
    2 1
    2
    ,
    b b
    b
    b
    t
    s


    =
    где b
    1
    – b
    2
    — разность коэффициентов наклона, a
    1 2
    b b
    s

    — ее стан- дартная ошибка. Затем вычисленное t сравним, как обычно, с кри- тическим значением t
    α
    , имеющим (n – 2) + (n – 2) = n
    1
    + n
    2
    – 4
    степени свободы.
    Если обе регрессии оценены по одинаковому числу наблюде- ний, то стандартная ошибка разности
    1 2
    1 2
    2 2
    b b
    b
    b
    s
    s
    s

    =
    +
    Если же объемы выборок различны, следует воспользовать- ся объединенной оценкой остаточной дисперсии (она аналогична объединенной оценке дисперсии, приведенной в гл. 4):
    (
    )
    (
    )
    1 2
    общ
    2 2
    1
    |
    2
    |
    2
    |
    1 2
    2 2
    4
    y x
    y x
    y x
    n
    s
    n
    s
    s
    n
    n

    +

    =
    + −
    Тогда формула для
    1 2
    b b
    s

    принимает вид
    (
    )
    (
    )
    общ общ
    1 2
    1 2
    2 2
    |
    |
    2 2
    1 2
    1 1
    y x
    y x
    b b
    x
    x
    s
    s
    s
    n
    s
    n
    s

    =
    +


    Можно сравнить и коэффициенты сдвига a
    1
    и а
    2
    . В этом случае
    1 2
    1 2
    a a
    a
    a
    t
    s


    =
    Здесь
    1 2
    1 2
    2 2
    ,
    a a
    a
    a
    s
    s
    s

    =
    +
    когда обе регрессии вычислены по одинаковому числу точек.
    При неодинаковом числе точек следует воспользоваться объеди- ненной оценкой дисперсии так же, как это было сделано выше.
    Перейдем к сравнению двух линий регресии в целом. Срав- нить две линии регрессии — значит оценить вероятность нуле-
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    246
    вой гипотезы о совпадении линий*. Напомним, что коэффици- енты регрессии вычисляются так, чтобы разброс точек вокруг линии регрессии был минимален. Разброс этот характеризуется остаточной дисперсией
    2
    |
    y x
    s : чем меньше остаточная дисперсия,
    тем лучше прямая регрессии соответствует имеющимся точкам.
    Воспользуемся этим показателем для оценки результатов тако- го мысленного эксперимента. Объединим обе выборки в одну и построим для нее линию регрессии. Если линии регрессии для двух выборок близки, остаточная дисперсия при этом существен- но не изменится. И наоборот, если они различаются, то совпа- дение точек и линии ухудшится и остаточная дисперсия возрас- тет. Порядок действий таков.
    • Построить прямую регресии для каждой из выборок.
    • По остаточным дисперсиям
    1 2
    |
    y x
    s
    и
    2 2
    |
    y x
    s
    каждой из регрессий вычислить объединенную оценку остаточной дисперсии общ
    2
    |
    y x
    s
    • Объединить обе выборки. Построить прямую регрессии для получившейся выборки и вычислить остаточную дисперсию един
    2
    |
    y x
    s
    • Вычислить «выигрыш» от использования двух раздельных регрессий. Мерой выигрыша служит величина:
    (
    )
    (
    )
    един общ в
    2 2
    1 2
    |
    1 2
    |
    2
    |
    2 4
    2
    y x
    y x
    y x
    n
    n
    s
    n
    n
    s
    s
    + −

    + −
    =
    • По в
    2
    |
    y x
    s
    и общ
    2
    |
    y x
    s
    вычислить критерий F:
    в общ
    2
    |
    2
    |
    y x
    y x
    s
    F
    s
    =
    • Сравнить вычисленное значение с критическим значением
    F для числа степеней свободы
    ν
    меж
    = 2 и
    ν
    вну
    = n
    1
    + n
    2
    – 4. Если полученное значение больше критического, то гипотеза о совпадении линий регрессии должна быть отклонена.
    * Методы, предназначенные для сравнения более чем двух линий регрессии,
    описаны в книге: J. H. Zar. Biostatistical analysis. 2nd ed. Prentice-Hall.
    Englewood Cliffs. N. J.. 1984.
    ГЛАВА 8

    247
    Мышечная сила при ревматоидном артрите
    Причины ограниченной подвижности при ревматоидном артрите разнообразны: болезненность суставов, их тугоподвижность,
    атрофия мышц. Каков вклад каждого из этих факторов? Пыта- ясь ответить на этот вопрос, П. С. Хелливелл и С. Джексон*
    исследовали, в частности, связь между мышечной массой и си- лой. В исследовании приняли участие 25 больных ревматоид- ным артритом (1-я группа) и 25 здоровых (2-я группа). Рассчи- тывали площадь поперечного сечения предплечья и ручным динамометром определяли силу сжатия кисти. Результат пока- зан на рис. 8.8. Кружки — результаты здоровых, квадратики —
    больных ревматоидным артритом.
    На рис. 8.9А представлены те же наблюдения, что и на рис.
    8.8, и кроме того, две построенные по ним линии регрессии.
    Проверим, есть ли значимое различие между линиями регрес-
    * P. S. Helliwell, S. Jackson. Relationship between weakness and muscle wasting in rheumatoid arthritis. Ann. Rheum. Dis., 53:726—728, 1994.
    Рис. 8.8. Зависимость мышечной силы от мышечной массы. Здоровые обозначены круж- ками, больные ревматоидным артритом — квадратиками. Одинакова ли зависимость у больных и здоровых?
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    248
    Рис. 8.9. А. Построим линии регрессии для каждой из групп и оценим разброс точек относительно этих линий. Б. Объединим группы и найдем линию регрес- сии для получившейся группы. Если разброс точек относительно этой линии зна- чительно превышает разброс относительно двух отдельных линий, то различия линий следует считать значимыми.
    ГЛАВА 8

    249
    Таблица 8.2. Зависимость силы сжатия кисти от мышечной массы
    Объединенная
    1-я группа 2-я группа группа
    Численность группы
    25 25 50
    Коэффициенты регрессии сдвиг а(s
    a
    )
    3,3(22,4)
    –7,3(25,3)
    –23,1(50,5)
    наклон b(s
    b
    )
    2,41(0,702) 10,19(0,789) 6,39(1,579)
    Остаточное стандартное отклонение s
    x|y
    40,5 45,7 129,1
    сии. Параметры уравнений регрессии и остаточные стандарт- ные отклонения указаны в табл. 8.2. Вычислим объединенную оценку остаточной дисперсии
    (
    )
    (
    )
    1 2
    общ
    2 2
    1
    |
    2
    |
    2
    |
    1 2
    2 2
    ,
    4
    y x
    y x
    y x
    n
    s
    n
    s
    s
    n
    n

    +

    =
    + −
    где n
    1
    и n
    2
    — численность 1-й и 2-й групп,
    1 2
    |
    y x
    s
    и
    2 2
    |
    y x
    s соответст- вующие остаточные дисперсии. Тогда
    (
    )
    (
    )
    общ
    2 2
    2
    |
    25 2 40,5 25 2 45,7 1864.
    25 25 4
    y x
    s

    +

    =
    =
    +

    Теперь объединим группы и найдем уравнение регрессии для получившейся группы. Опустим вычисления, результат приве- ден в табл. 8.2. Линия регрессии изображена на рис. 8.9Б. Оста- точная дисперсия единой регрессии един
    2
    |
    y x
    s
    = 129,1 2
    = 16667. Вы- игрыш от использования раздельных регрессий:
    (
    )
    (
    )
    (
    )
    (
    )
    един общ в
    2 2
    1 2
    |
    1 2
    |
    2
    |
    2 4
    2 25 25 2 16667 25 25 4 1864 357136.
    2
    y x
    y x
    y x
    n
    n
    s
    n
    n
    s
    s
    + −

    + −
    =
    =
    +


    +

    =
    =
    Значение F:
    в общ
    2
    |
    2
    |
    357136 191,596.
    1864
    y x
    y x
    s
    F
    s
    =
    =
    =
    АНАЛИЗ ЗАВИСИМОСТЕЙ

    250
    Критическое значение F при уровне значимости
    α = 0,011 и числе степеней свободы
    ν
    меж
    = 2 и
    ν
    вну
    = 25 + 25 – 4 равно 5,10, то есть гораздо меньше полученного нами. Таким образом, у здо- ро вых людей сила сжатия зависит от размера предплечья иначе чем у больных артритом.
    В чем заключается отличие? Сравним коэффициенты регрес- сий. Начнем с коэффициента сдвига а.
    1 2
    1 2
    2 2
    2 2
    22,4 25,3 33,8.
    a a
    a
    a
    s
    s
    s

    =
    +
    =
    +
    =
    Тогда
    (
    )
    1 2
    1 2
    3,3 7,3 0,314.
    33,8
    a a
    a
    a
    t
    s

    − −

    =
    =
    =
    При уровне значимости
    α = 0,05 при числе степеней свобо- ды
    ν = n
    1
    + п
    2
    – 4 = 46 критическое значение t равно 2,013.
    Поскольку полученное нами значение t меньше критического,
    заключаем, что между а
    1
    и а
    2
    нет значимого различия.
    При сравнении коэффициентов наклона получим t = 7,367,
    что больше критического. Итак, линии регрессии различаются наклоном, который круче в группе здоровых.
    КОРРЕЛЯЦИЯ
    Регрессионный анализ позволяет оценить, как одна переменная зависит от другой и каков разброс значений зависимой перемен- ной вокруг прямой, определяющей зависимость. Эти оценки и соответствующие доверительные интервалы позволяют пред- сказать значение зависимой переменной и определить точность этого предсказания. Результаты регрессионного анализа можно представить только в достаточно сложной цифровой или гра- фической форме. Однако нас часто интересует не предсказание значения одной переменной по значению другой, а просто ха- рактеристика тесноты (силы) связи между ними, при этом выра- женная одним числом.
    Эта характеристика называется коэффициентом корреляции,
    обычно ее обозначают буквой r. Коэффициент корреляции
    МО
    -
    ГЛАВА 8

    251
    жет принимать значения от –1 до +1. Знак коэффициента корре- ляции показывает направление связи (прямая или обратная), а абсолютная величина — тесноту связи. Коэффициент, равный
    –1, определяет столь же жесткую связь, что и равный 1. В отсутст- вие связи коэффициент корреляции равен нулю.
    На рис. 8.10 приведены примеры зависимостей и соответст- вующие им значения r. Мы рассмотрим два коэффициента кор- реляции.
    Коэффициент корреляции Пирсона предназначен для описа- ния линейной связи количественных признаков; как и регресси-
    1   ...   16   17   18   19   20   21   22   23   ...   37


    написать администратору сайта