Главная страница
Навигация по странице:

  • Преобразование таблиц сопряженности

  • Таблица 5.8.

  • Глантз. Книга Primer of biostatistics fourth edition


    Скачать 6.07 Mb.
    НазваниеКнига Primer of biostatistics fourth edition
    АнкорГлантз
    Дата30.04.2023
    Размер6.07 Mb.
    Формат файлаpdf
    Имя файлаglantz.pdf
    ТипКнига
    #1099022
    страница13 из 37
    1   ...   9   10   11   12   13   14   15   16   ...   37
    Критерий
    χχχχχ
    2
    для произвольной таблицы сопряженности
    Теперь рассмотрим случай, когда таблица сопряженности име- ет число строк или столбцов, большее двух. Обратите внима- ние, что критерий z в таких случаях неприменим.
    В гл. 3 мы показали, что занятия бегом уменьшают число менструаций*. Побуждают ли эти изменения обращаться к вра- чу? В табл. 5.5 приведены результаты опроса участниц иссле- дования. Подтверждают ли эти данные гипотезу о том, что за- нятия бегом не влияют на вероятность обращения к врачу по поводу нерегулярности менструации?
    Из 165 обследованных женщин 69 (то есть 42%) обратились к врачу, остальные 96 (то есть 58%) к врачу не обращались. Если
    * При этом мы для простоты вычислений размеры всех трех групп — конт- рольной, физкультурниц и спортсменок — полагали одинаковыми. Теперь мы воспользуемся настоящими данными.
    Таблица 5.5. Частота обращения к врачу по поводу менструаций
    АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
    Группа
    Обращались
    Не обращались
    Всего
    Контрольная
    14 40 54
    Физкультурницы
    9 14 23
    Спортсменки
    46 42 48
    Всего
    69 96 165

    146
    занятия бегом не влияют на вероятность обращения к врачу, то в каждой из групп к врачу должно было обратиться 42% жен- щин. В табл. 5.6 приведены соответствующие ожидаемые зна- чения. Сильно ли отличаются от них реальные данные?
    Для ответа на этот вопрос вычислим
    χ
    2
    :
    (
    )
    (
    )
    (
    )
    (
    )
    (
    )
    (
    )
    2 2
    2 2
    2 2
    2 14 22 58 40 31 42 9 9 62 22 58 31 42 9 62 14 13 38 46 36 80 42 51 20 9 63 13 38 36 80 51 20
    χ



    =
    +
    +
    +



    =
    +
    +
    =
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    Число строк таблицы сопряженности равно трем, столбцов —
    двум, поэтому число степеней свободы
    ν = (3 – 1)(2 – 1) = 2. Если гипотеза об отсутствии межгрупповых различий верна, то, как видно из табл. 5.7 значение
    χ
    2
    превзойдет 9,21 не более чем в
    1% случаев. Полученное значение больше. Тем самым, при уров- не значимости 0,01 можно отклонить гипотезу об отсутствии связи между бегом и обращениями к врачу по поводу менстру- ации. Однако, выяснив, что связь существует мы, тем не менее,
    не сможем указать какая (какие) именно группы отличаются от остальных.
    Итак, мы познакомились с критерием
    χ
    2
    . Вот порядок его применения.
    • Постройте по имеющимся данным таблицу сопряженности.
    • Подсчитайте число объектов в каждой строке и в каждом столбце и найдите, какую долю от общего числа объектов составляют эти величины.
    • Зная эти доли, подсчитайте с точностью до двух знаков после запятой ожидаемые числа — количество объектов, которое
    Таблица 5.6. Частота обращения к врачу по поводу менструаций:
    ожидаемые числа
    Группа
    Обращались
    Не обращались
    Всего
    Контрольная
    22,58 31,48 54
    Физкультурницы 9,62 13,38 23
    Спортсменки
    36,80 51,20 88
    Всего
    69 96 165
    ГЛАВА 5

    147
    попало бы в каждую клетку таблицы, если бы связь между строками и столбцами отсутствовала
    • Найдите величину, характеризующую различия наблюдае- мых и ожидаемых значений. Если таблица сопряженности имеет размер 2
    ×2, примените поправку Йеитса
    • Вычислите число степеней свободы, выберите уровень зна- чимости и по табл. 5.7, определите критическое значение
    χ
    2
    Сравните его с полученным для вашей таблицы.
    Как вы помните, для таблиц сопряженности размером 2
    ×2
    критерий
    χ
    2
    применим только в случае, когда все ожидаемые числа больше 5. Как обстоит дело с таблицами большего разме- ра? В этом случае критерии
    χ
    2
    применим, если все ожидаемые числа не меньше 1 и доля клеток с ожидаемыми числами мень- ше 5 не превышает 20%. При невыполнении этих условии кри- терии
    χ
    2
    может дать ложные результаты. В таком случае можно собрать дополнительные данные, однако это не всегда осуще- ствимо. Есть и более простой путь — объединить несколько строк или столбцов. Ниже мы покажем, как это сделать.
    Преобразование таблиц сопряженности
    В предыдущем разделе мы установили существование связи между занятием бегом и обращениями к врачу по поводу мен- струаций или, что, то же самое, существование различий между группами по частоте обращения к врачу. Однако мы не могли определить, какие именно группы отличаются друг от друга, а какие нет. С похожей ситуацией мы сталкивались в дисперси- онном анализе. При сравнении нескольких групп дисперсион- ный анализ позволяет обнаружить сам факт существования раз- личий, но не указывает выделяющиеся группы. Последнее по- зволяют сделать процедуры множественного сравнения, о кото- рых мы говорили в гл. 4. Нечто похожее можно проделать и с таблицами сопряженности.
    Глядя на табл. 5.5, можно предположить, что физкультурни- цы и спортсменки обращались к врачу чаще, чем женщины из контрольной группы. Различие между физкультурницами и спо- ртсменками кажется незначительным.
    Проверим гипотезу о том, что физкультурницы и спортсмен-
    АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ

    148
    Таблица 5.7. Критические значения
    χ
    2
    ГЛАВА 5
    Уровень значимости
    ν
    0,50 0,25 0,10 0,05 0,025 0,01 0,005 0,001 1
    0,455 1,323 2,706 3,841 5,024 6,635 7,879 10,828 2
    1,386 2,773 4,605 5,991 7,378 9,210 10,597 13,816 3
    2,366 4,108 6,251 7,815 9,348 11,345 12,838 16,266 4
    3,357 5,385 7,779 9,488 11,143 13,277 14,860 18,467 5
    4,351 6,626 9,236 11,070 12,833 15,086 16,750 20,515 6
    5,348 7,841 10,645 12,592 14,449 16,812 18,548 22,458 7
    6,346 9,037 12,017 14,067 16,013 18,475 20,278 24,322 8
    7,344 10,219 13,362 15,507 17,535 20,090 21,955 26,124 9
    8,343 11,389 14,684 16,919 19,023 21,666 23,589 27,877 10 9,342 12,549 15,987 18,307 20,483 23,209 25,188 29,588 11 10,341 13,701 17,275 19,675 21,920 24,725 26,757 31,264 12 11,340 14,845 18,549 21,026 23,337 26,217 28,300 32,909 13 12,340 15,984 19,812 22,362 24,736 27,688 29,819 34,528 14 13,339 17,117 21,064 23,685 26,119 29,141 31,319 36,123 15 14,339 18,245 22,307 24,996 27,488 30,578 32,801 37,697 16 15,338 19,369 23,542 26,296 28,845 32,000 34,267 39,252 17 16,338 20,489 24,769 27,587 30,191 33,409 35,718 40,790 18 17,338 21,605 25,989 28,869 31,526 34,805 37,156 42,312 19 18,338 22,718 27,204 30,144 32,852 36,191 38,582 43,820 20 19,337 23,828 28,412 31,410 34,170 37,566 39,997 45,315 21 20,337 24,935 29,615 32,671 35,479 38,932 41,401 46,797 22 21,337 26,039 30,813 33,924 36,781 40,289 42,796 48,268 23 22,337 27,141 32,007 35,172 38,076 41,638 44,181 49,728 24 23,337 28,241 33,196 36,415 39,364 42,980 45,559 51,179 25 24,337 29,339 34,382 37,652 40,646 44,314 46,928 52,620 26 25,336 30,435 35,563 38,885 41,923 45,642 48,290 54,052 27 26,336 31,528 36,741 40,113 43,195 46,963 49,645 55,476 28 27,336 32,020 37,916 41,337 44,461 48,278 50,993 56,892 29 28,336 33,711 39,087 42,557 45,722 49,588 52,336 58,301 30 29,336 34,800 40,256 43,773 46,979 50,892 53,672 59,703 31 30,336 35,887 41,422 44,985 48,232 52,191 55,003 61,098 32 31,336 36,973 42,585 46,194 49,480 53,486 56,328 62,487 33 32,336 38,058 43,745 47,400 50,725 54,776 57,648 63,870 34 33,336 39,141 44,903 48,602 51,966 56,061 58,964 65,247 35 34,336 40,223 46,059 49,802 53,203 57,342 60,275 66,619 36 35,336 41,304 47,212 50,998 54,437 58,619 61,581 67,985 37 36,336 42,383 48,363 52,192 55,668 59,893 62,883 69,346 38 37,335 43,462 49,513 53,384 56,896 61,162 64,181 70,703 39 38,335 44,539 50,660 54,572 58,120 62,428 65,476 72,055 40 39,335 45,616 51,805 55,758 59,342 63,691 66,766 73,402

    149
    ки обращаются к врачу одинаково часто. Для этого выделим из исходной таблицы подтаблицу, содержащую данные по двум этим группам. В табл. 5.8 приведены наблюдаемые и ожидае- мые числа; они довольно близки.
    Размер таблицы 2
    ×2. Поэтому вычислим χ
    2
    с поправкой Йей- тса:
    2 2
    2 2
    2 2
    1 2
    1 1
    9 11 40 14 11 60 2
    2 11 49 11 60 1
    1 46 43 60 42 44 40 2
    2 0 79 43 60 44 40
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    O E
    E
    χ








    =
    =
















    =
    +
    +
















    +
    +
    =

    Полученная величина значительно меньше критического зна- чения. Поэтому гипотеза об отсутствии межгрупповых различий не отклоняется. Следовательно, эти группы можно объединить в одну. Полученную объединенную группу бегуний сравним с кон- трольной (табл. 5.9). На этот раз значение
    χ
    2
    равно 7,39, то
    Таблица 5.7. Окончание
    J. H. Zar, Biostatistical Analysis, 2d ed, Prentice-Hall, Englewood Cliffs, N.J., 1984.
    АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
    Уровень значимости
    ν
    0,50 0,25 0,10 0,05 0,025 0,01 0,005 0,001 41 40,335 46,692 52,949 56,942 60,561 64,950 68,053 74,745 42 41,335 47,766 54,090 58,124 61,777 66,206 69,336 76,084 43 42,335 48,840 55,230 59,304 62,990 67,459 70,616 77,419 44 43,335 49,913 56,369 60,481 64,201 68,710 71,893 78,750 45 44,335 50,985 57,505 61,656 65,410 69,957 73,166 80,077 46 45,335 52,056 58,641 62,830 66,617 71,201 74,437 81,400 47 46,335 53,127 59,774 64,001 67,821 72,443 75,704 82,720 48 47,335 54,196 60,907 65,171 69,023 73,683 76,969 84,037 49 48,335 55,265 62,038 66,339 70,222 74,919 78,231 85,351 50 49,335 56,334 63,167 67,505 71,420 76,154 79,490 86,661

    150
    есть больше критического значения 6,63, соответствующего уровню значимости 0,01.
    Заметьте, мы выполнили два сравнения, используя одни и те же данные. Поэтому нужно применить поправку Бонферрони,
    умножив уровень значимости на 2. Исправленное значение уров- ня значимости 2
    ×0,01 = 0,02. Итак, с уровнем значимости 0,02
    мы заключаем, что физкультурницы не отличаются от спорт- сменок, но обе эти группы отличаются от женщин, не занимаю- щихся бегом.
    ТОЧНЫЙ КРИТЕРИЙ ФИШЕРА
    Критерий
    χ
    2
    годится для анализа таблиц сопряженности 2
    ×2, если ожидаемые значения в любой из ее клеток не меньше 5. Когда число наблюдений невелико, это условие не выполняется и кри- терий
    χ
    2
    неприменим. В этом случае используют точный крите-
    рий Фишера. Он основан на переборе всех возможных вариантов заполнения таблицы сопряженности при данной численности групп, поэтому, чем она меньше, тем проще его применить.
    Нулевая гипотеза состоит в том, что между лечением и исхо- дом нет никакой связи. Тогда вероятность получить некоторую таблицу равна
    Таблица 5.8. Частота обращения к врачу по поводу менструа- ций (в скобках — ожидаемые числа)
    Таблица 5.8. Частота обращения к врачу по поводу менструа- ций (в скобках — ожидаемые числа)
    ГЛАВА 5
    Группа
    Обращались
    Не обращались
    Всего
    Физкультурницы
    9(11,40)
    14(11,60)
    23
    Спортсменки
    46(43,60)
    42(44,40)
    88
    Всего
    55 56 111
    Группа
    Обращались
    Не обращались
    Всего
    Контрольная
    14(22,58)
    40(30,42)
    54
    Физкультурницы и
    55(46,42)
    56(64,58)
    111
    спортсменки
    Всего
    69 96 165

    151 1
    2 1
    2 11 12 21 22
    !
    !
    !
    !
    !
    ,
    !
    !
    !
    !
    R R C C
    N
    P
    O O O
    O
    =
    где R
    1
    и R
    2
    — суммы по строкам (число больных, лечившихся первым и вторым способом), С
    1
    и С
    2
    — суммы по столбцам (чис- ло больных с первым и вторым исходом). O
    11
    , O
    12
    , O
    21
    и O
    22

    числа в клетках, N — общее число наблюдений (табл. 5.10). Вос- клицательный знак, как и всегда в математике, обозначает факто- риал*. Построив все остальные варианты заполнения таблицы,
    возможные при данных суммах по строкам и столбцам, по этой же формуле рассчитывают их вероятность. Вероятности, кото- рые не превосходят вероятность исходной таблицы (включая саму эту вероятность), суммируют. Полученная сумма — это величи- на P для двустороннего варианта точного критерия Фишера.
    В отличие от критерия
    χ
    2
    , существуют одно- и двусторонний варианты точного критерия Фишера. К сожалению, в большин- стве учебников описан именно односторонний вариант, он же обычно используется в компьютерных программах и приводит- ся в статьях. Оно и не удивительно — ведь односторонний ва- риант дает меньшую величину P. Хуже то, что авторы не счита- ют нужным хотя бы упомянуть, каким вариантом они пользова- лись. В табл. 5.11 показаны данные, которые получили Мак-Кин- ни и соавт.** , решив выяснить, насколько часто в статьях из двух
    Таблица 5.10. Обозначения, используемые в точном критерии
    Фишера
    * Факториал числа — произведение всех целых чисел от этого числа до единицы n! = n
    × (n – l) × (n – 2) × 2 × 1. Например, 4! = 4 × 3 × 2 × 1 = 24.
    Факториал нуля равен единице.
    ** W. Ð. McKinney, M. J. Young, À. Harta, Ì. Â. Lee. The inexact use of Fichers exact test in six major medical journals. JAMA, 261:3430—3433, 1989
    АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
    Суммы по строкам
    O
    11
    O
    12
    R
    1
    O
    21
    O
    22
    R
    2
    Суммы по столбцам
    C
    1
    C
    2
    N

    152
    самых известных медицинских журналов указан вариант кри- терия. Выборка невелика, и критерии
    χ
    2
    применить нельзя. По- этому для анализа использования точного критерия Фишера воспользуемся самим точным критерием Фишера. Из приведен- ной выше формулы для Р следует что вероятность при тех же
    значениях сумм по строкам и столбцам таблицы получить та-
    кой же набор чисел в клетках, что в табл. 5.11 равна
    9 14 11 12 23 0 00666 1 8 10 4
    !
    ! !
    !
    !
    ,
    ! !
    ! !
    P
    =
    =
    Это небольшая вероятность. Теперь возьмем наименьшее из чисел в клетках (это единица на пересечении первой строки и первого столбца) и уменьшим его на 1. Числа в остальных клет- ках изменим так, чтобы суммы по строкам и столбцам остались прежними. Мы получили табл. 5.12. Соответствующая вероят- ность равна
    9 14 11 12 23 0 00027 0 9 11 3
    !
    ! !
    !
    !
    ,
    ! ! ! !
    P
    =
    =
    (Заметим, что числитель можно заново не вычислять, так как его значение зависит только от сумм по строкам и столбцам,
    которые не изменились). Поскольку наименьшее число в клетке равно нулю, дальше уменьшать его невозможно. Таким обра- зом односторонний вариант точного критерия Фишера дает Р =
    = 0,00666 + 0,00027 = 0,00695.
    Чтобы рассчитать значение двустороннего варианта точного критерия Фишера нужно перебрать и все остальные возможные
    Таблица 5.11. Частота указания варианта точного критерия
    Фишера в двух медицинских журналах
    ГЛАВА 5
    Вариант критерия
    Указан Не указан Всего
    New England Journal of Medicine 1 8
    9
    Lancet
    10 4
    14
    Всего
    11 12 23

    153
    варианты заполнения таблицы при условии неизменности сумм по строкам и столбцам. Получить все эти варианты несложно —
    надо только заметить, что при постоянных суммах по строкам и столбцам значения во всех четырех клетках полностью опреде- ляются значением в любой из них. Возьмем число, все в той же левой верхней клетке и будем увеличивать его на 1, пересчиты- вая каждый раз числа в остальных клетках. В результате мы по- лучим восемь вариантов заполнения (табл. 5.13). Для двух пос- ледних вариантов вероятность не превышает вероятности ис- ходного варианта заполнения (0,00666), составляя соответствен- но 0,00242 и 0,00007. Таким образом кроме исходного у нас есть еще три варианта «маловероятного» заполнения таблицы, про- суммировав соответствующие вероятности и прибавив к ним ве- роятность исходного варианта получим Р = 0,00666 + 0,00027 +
    + 0,00242 + 0,00007 = 0,00944. Это и есть значение двусторон- него варианта точного критерия Фишера. Итак, различие часто- ты правильного использования точного критерия Фишера в жур- налах New England Journal of Medicine и Lancet статистически значимо (Р = 0,009). В данном случае общий вывод при перехо- де от одностороннего к двустороннему варианту не изменился,
    однако так бывает далеко не всегда. Еще более грубая ошибка происходит, когда автор рассчитывает только вероятность по- лучения исходной таблицы, пренебрегая построением осталь- ных вариантов заполнения. Естественно это приводит к сильно- му занижению P, то есть к «выявлению» различий там, где их нет.
    В заключение изложим правила пользования точным крите- рием Фишера.
    • Вычислите вероятность получить исходную таблицу.
    • Построите остальные возможные варианты заполнения таб- лицы при неизменных суммах по строкам и столбцам. Для
    Таблица 5.12.
    АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
    Вариант критерия
    Указан Не указан Всего
    New England Journal of Medicine 0 9
    9
    Lancet
    11 3
    14
    Всего
    11 12 23

    154
    этого в одной из клеток проставьте все целые числа от нуля до максимально возможного, пересчитывая числа в осталь- ных клетках так, чтобы суммы по строкам и столбцам оста- вались неизменными.
    • Вычислите вероятности для всех полученных таблиц.
    • Просуммируйте вероятность получить исходную таблицу и все вероятности, которые ее не превышают.
    Итак, теперь мы умеем работать не только с количественны- ми, но и с качественными признаками. Но вопрос, занимавший нас и в этой, и в предыдущих главах, был в сущности одним и тем же — как оценить статистическую значимость различий. В
    следующей главе мы взглянем на другую сторону медали. Имен- но, мы попытаемся понять, что означает отсутствие статисти- чески значимых различий.
    Таблица 5.13.
    ГЛАВА 5
    Всего
    Всего
    2 7
    9 6
    3 9
    9 5
    14 5
    9 14
    Всего
    11 12 23 11 12 23
    P = 0,05330
    P = 0,12438 3
    6 9
    7 2
    9 8
    6 14 4
    10 14
    Всего 11 12 23 11 12 23
    P = 0,18657
    P = 0,02665 4
    5 9
    8 1
    9 7
    7 14 3
    11 14
    Всего 11 12 23 11 12 23
    P = 0,31983
    P = 0,00242 5
    4 9
    9 0
    9 6
    8 14 2
    12 14
    Всего 11 12 23 11 12 23
    P = 0,27985
    P = 0,00007

    155
    ЗАДАЧИ
    1   ...   9   10   11   12   13   14   15   16   ...   37


    написать администратору сайта