Главная страница
Навигация по странице:

  • N > 20

  • Basic Statistics/Tables →→→→ Tables and Banners

  • Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие


    Скачать 2.36 Mb.
    НазваниеА. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
    Дата08.03.2023
    Размер2.36 Mb.
    Формат файлаpdf
    Имя файлаСтатистический анализ медико-биологических данных.pdf
    ТипМетодическое пособие
    #975186
    страница3 из 15
    1   2   3   4   5   6   7   8   9   ...   15
    np
    k
    ≥≥≥≥ 5.
    Это наиболее строгое условие. Исследования Кокрейна позволили ему сформулировать более мягкие ограничения для некоторых типов задач:
    (С2.1а) если проверяется согласие с одномодальным распределением, где ожидаемые частоты малы только на «хвостах» распределений, следует добиться минимальной ожидаемой частоты на каждом из «хвостов» не менее 1.
    (С2.1b) при проверке согласия с непрерывным распределением
    (нормальным, логнормальным, экспоненциальным и т.д.) минимальные ожидаемые частоты на «хвостах» распределений должны быть не меньше 1, а размер ячеек должен быть выбран таким, чтобы частоты были не слишком велики. Это существенно для повышения чувствительности критерия. Например, для n=200 наблюдений максимальная частота должна быть не более 12, для n=400 максимальная частота ≤ 20, для n=1000 максимальная частота ≤ 30. ►
    Пример 1 – продолжение. В таблице П1-1 все ожидаемые частоты
    (столбец «ожидаемое распределение») больше 5, поэтому в данной задаче применение критерия χ
    2
    правомерно.
    В случае, если для какой-нибудь ячейки условия (С2.1 или С2.1a,
    С2.1b) не выполнены, для применения критерия χ
    2
    следует модифицировать исходную таблицу: объединить или разделить соседние ячейки, чтобы ожидаемая частота для событий удовлетворяла условиям. Данная операция особенно важна в том случае, когда выборочное значение статистики мало отличается от критического.
    (б)
    Проверка согласованности распределения выборки с непрерывным (например, нормальным) законом распределения.
    В этом случае весь диапазон значений переменной должен быть разбит на несколько непересекающихся интервалов, и для каждого интервала вычисляется количество элементов выборки, попавших в этот интервал – наблюдаемые частоты. Параметры непрерывного закона (для нормального закона это среднее и среднеквадратическое отклонение) могут быть известны заранее или оцениваться по выборке. Ожидаемое

    30 распределение вычисляется в соответствии с непрерывным законом для каждого интервала значений.
    Пример 2. Заданы следующие выборочные значения возраста испытуемых (вариационный ряд).
    Таблица П2-1. Исходные данные
    Возраст 20 21 22 24 26 27 29 30 33 34 36 37 39 42 44 47 Сумма
    Количество 3 1 2 4 6 3 1 5 4 8 6 6 3 1 3 4 60
    Распределение выборки
    0 1
    2 3
    4 5
    6 7
    8 9
    20 22 24 26 28 30 32 34 36 38 40 43 45 47
    Возраст
    Рис. П2-1. Гистограмма возрастного распределения
    Требуется проверить, согласуется ли распределение выборки с нормальным распределением на уровне α = 0.05. Параметры нормального закона заранее не известны.
    1. Оценим по выборке значения среднего и среднеквадратического отклонения.
    Среднее значение M
    x
    = 32.63
    Дисперсия D
    x
    = 53.66
    Среднеквадратическое отклонение s x
    = (D
    x
    )
    1/2
    = 7.325
    По выборке оценены два параметра распределения, l = 2.
    2. Разобьем весь диапазон значений на 7 стандартных интервалов с граничными точками 20, 25, 30, 35, 40 и 45 лет и вычислим выборочные и теоретические частоты.
    Для вычисления теоретических частот можно воспользоваться таблицами для функции распределения стандартизованной нормальной величины – функции Лапласа Ф(х). Тогда Р{х
    1
    < x
    ≤ х
    2
    }= Ф[(х
    2
    − M
    x
    )/s x
    ]
    − Ф[(х
    1
    − M
    x
    )/s x
    ]. Определим соответствующие границам выделенных интервалов точки стандартизованного распределения и значения

    31 функции Лапласа для них. Для отрицательных значений используется соотношение Ф(-х) = 1-Ф(х).
    Таблица П2-2.
    Возраст Стандартизованные значения Ф(х)
    20
    -1.72 1-0.9573 25
    -1.04 1-0.8508 30
    -0.36 1-0.6406 35 0.32 0.6255 40 1.01 0.8438 45 1.69 0.9545
    Таблица П2-3.
    Возраст Выборочное распределение
    Теоретическое распределение
    Ожидаемые значения
    ≤ 20 3
    0.0427 2.56 21-25 7
    0.1065 6.39 26-30 15 0.2102 12.61 31-35 12 0.2661 15.97 36-40 15 0.2183 13.10 41-45 4
    0.1107 6.64
    > 45 4
    0.0455 2.73
    Сумма
    60 1
    60 3. Вычислим статистику критерия: χ
    2
    в
    = 3.48.
    Степеней свободы d = 7-2-1 = 4.
    На уровне α = 0.05 квантиль χ
    2 1-
    α
    (d) = χ
    2 0.95
    (4) = 9.49
    Выборка согласуется с нормальным распределением в соответствии с неравенством (2.3), причем выборочное значение статистики существенно меньше критического.
    Проверим выполнение условий применимости критерия: С2.1 или С2.1a,
    С2.1b.
    В таблице П2-3 ожидаемые частоты на хвостах распределений более 1.
    Однако в интервале 26-40 лет ожидаемые частоты слишком велики для
    60 наблюдений. Это означает, что мы производим очень грубое сравнение выборочного распределения с нормальным вокруг среднего.

    32
    Для увеличения чувствительности критерия разобьем ячейки на более мелкие части: диапазон с 25 до 40 лет разделим на интервалы по 3 года.
    В таблице станет r = 9 ячеек.
    Таблица П2-4.
    Возраст Выборочное распределение
    Теоретическое распределение
    Ожидаемые значения
    ≤ 20 3
    0.0427 2.56 21-25 7
    0.1065 6.39 26-28 9
    0.1151 6.91 29-31 6
    0.1486 8.92 32-34 12 0.1624 9.74 35-37 12 0.1504 9.02 38-40 3
    0.1156 6.94 41-45 4
    0.1132 6.79
    > 45 4
    0.0455 2.73
    Сумма 60 1
    60
    χ
    2
    в
    = 7.198; d = 9-2-1 = 6; χ
    2 0.95
    (6) = 12.6. Выборка согласуется с нормальным распределением.
    Если операцию разделения или объединения ячеек произвести не удается, применение критерия χ
    2
    для такой задачи будет некорректным и требуется использование других методов.
    Расчетысиспользованиемстатистическихпакетов.
    Для проверки гипотезы согласия с помощью критерия χ
    2
    можно использовать стандартные программы.
    Statistica v.6.0



    Distribution Fitting. Проверяется согласие с одним из известных распределений: нормальное, лог-нормальное, экспоненциальное, хи-квадрат, - одной из переменных исходной таблицы данных. Пользователь может задать число интервалов, минимальное и максимальное значения. Вычисляются наблюдаемые и ожидаемые значения.
    В остальных программах для проверки согласия используются другие статистики (см.Словарь – статистика).

    33
    2.3.
    ПроверкагипотезыоднородностиН
    о
    Если имеется два или более выборочных распределений (серий) одного и того же показателя с множеством возможных значений A
    1
    , A
    2
    ,
    …, A
    k

    1
    , В
    2
    , …, В
    l
    – номера или названия отдельных серий), то можно ли утверждать, на некотором уровне значимости, что частоты появления событий А
    i в этих сериях совпадают, т.е. что серии выбраны из одной генеральной совокупности? В данном случае проверяется гипотеза H
    о
    : серии В
    1
    , В
    2
    , …, В
    l одинаково распределены (гипотеза об однородности выборок). Эта гипотеза может проверяться как относительно всех серий в совокупности, так и относительно каждой пары серий в отдельности.
    Альтернативная гипотеза Н
    но
    : распределения в сериях отличаются. На
    Рис.2.4 в качестве серий выступают различные возрастные группы, а событие А – оценка достоверности ответов на вопросы MMPI. Эта оценка имеет 3 градации: А
    1
    – недостоверно; А
    2
    – сомнительно; А
    3
    – достоверно.
    Рис.2.4. Гистограммы распределений достоверности ответов в разных возрастных группах

    34
    Выборочные распределения обычно представлены в виде таблиц сопряженности. Их элементами являются частоты {nij}i=1÷k, j=1÷l
    (Таблица 2.2).
    Таблица 2.2. Таблица сопряженности факторов А и В
    Ряды значений
    В
    1
    В
    2

    В
    l
    Сумма по строке
    А
    1 n
    11 n
    12
    … n
    1l n
    1 ·
    А
    2 n
    21 n
    22
    … n
    2l n
    2 ·






    А
    k n
    k1 n
    k2
    … n
    kl n k ·
    Сумма по столбцу n .
    1
    n .
    2
    … n .
    l
    N
    Оценкой вероятности появления события А
    i является его относительная частота p
    i
    = n i •
    / N
    ; для серии В
    j это относительная частота q
    j
    = n
    • j
    / N
    . Нулевая гипотеза – гипотеза об однородности – утверждает, что вероятность осуществления события А
    i в серии В
    j есть произведение вероятностей их появления, p
    ij
    = p
    i
    • q
    j
    , то есть ожидаемые частоты в ячейке n
     i j
    = n i •
    × n
    j
    / N (2.4)
    Статистика критерия – мера отклонения наблюдаемых частот от ожидаемых
    χ
    2
    в

    i=1
    k
    Σ
    j=1
    l
    (n i j
    – n
     i j
    )
    2
    / n
     i j
    (2.5)
    В предположении нулевой гипотезы критерий распределен как
    χ
    2
    (d), где
    d = (k–1)
    ×
    (l–1)
    (2.6)
    Гипотеза об однородности выборок (одинаковом распределении) принимается на уровне α, если
    χ
    2
    в
    < χ
    2 1-
    α
    (d)
    В противном случае гипотеза отклоняется (принимается альтернативная гипотеза
    ).
    ► Ограничения
    (С2.2) Критерий применим, если все ожидаемые частоты n
     i j
    ≥≥≥≥ 4.
    Или, если объем выборки и количество ячеек в таблице сопряженности достаточно большие, то минимальная ожидаемая частота может быть равна 1, то есть
    (С2.3) Критерий применим, если d 8 и N 40


    n
    
    i j
    1.

    35
    В статистических пакетах в качестве условия применимости критерия используются ограничения
    ►(С2.2а) Критерий применим, если не более чем 20% ожидаемых частот в таблице меньше 5.
    Пример 3. Для испытуемых из примера 1 кроме образовательного статуса известен пол. Вопрос: отличаются ли распределения по образовательному статусу для представителей разного пола в выборке?
    Таблица перекрестного табулирования по двум признакам для дальнейших вычислений:
    Таблица П3-1.Исходные данные
    Пол
    Образование
    Мужчины Женщины Сумма по строке
    Высшее
    4 6
    10
    Среднее специальное
    10 5
    15
    Общее среднее
    3 7
    10
    Неполное среднее
    12 8
    20
    Начальное
    4 1
    5
    Сумма по столбцу
    33 27 60
    Можно сказать, что в данной задаче требуется сравнить структуру образования у женщин и мужчин.
    Задачи сравнения структур часто встречаются при анализе заболеваемости и смертности у различных групп населения.

    36
    Структура образования
    0%
    20%
    40%
    60%
    80%
    100%
    Мужчины
    Женщины
    Начальное
    Неполное среднее
    Общее среднее
    Среднее специальное
    Высшее
    Рис. П3-1. Структура образования у мужчин и женщин в выборке
    По таблице П3-1 вычислим ожидаемые частоты n
     i j
    (формула 2.4).
    Таблица П3-2. Ожидаемые частоты.
    Пол
    Образование
    Мужчины Женщины Сумма
    Высшее
    5.5 4.5 10
    Среднее специальное
    8.25 6.75 15
    Общее среднее
    5.5 4.5 10
    Неполное среднее
    11 9
    20
    Начальное
    2.75 2.25 5
    Сумма
    33 27 60
    Статистика критерия χ
    2
    в
    = 5.724
    Степеней свободы d=4
    На уровне α = 0.05 квантиль χ
    2 1-
    α
    (d) = χ
    2 0.95
    (4) = 9.49
    Неравенство (2.3) выполнено, распределение показателя «образование» для мужчин и женщин не отличается, но минимальное ожидаемое значение 2.25. Ограничение (С2.3) не выполнено, поэтому для данной задачи требуется или использовать другой критерий, или объединить ячейки.
    При объединении последних двух ячеек в признаке «образование» получим следующие результаты.

    37
    Таблица П3-3.
    Пол
    Образование
    Мужчины Женщины Сумма
    Высшее
    4 6
    10
    Среднее специальное
    10 5
    15
    Общее среднее
    3 7
    10
    Неполное среднее или начальное
    16 9
    25
    Сумма
    33 27 60
    Статистика критерия χ
    2
    в
    = 5.077
    Степеней свободы d=3
    На уровне α = 0.05 квантиль χ
    2 1-
    α
    (d) = χ
    2 0.95
    (3) = 7.815.
    Неравенство (2.3) выполнено, распределение показателя «образование» однородно по «полу» на уровне значимости 0.05, минимальное ожидаемое значение 4.5, то есть ограничения выполнены, критерий применим.
    Частным, но очень важным случаем является проверка равенства пропорций. Такая задача возникает, если интересующий нас показатель имеет ровно два возможных значения (жив – умер; нет заболевания – есть заболевание; курит – не курит). В этом случае показатель распределен по биномиальному закону. Биномиальное распределение определяется одним параметром – вероятностью появления события в одном испытании. Пропорции являются оценками параметра. Если требуется проверить равенство параметров двух биномиальных распределений, критерий χ
    2
    применяется к таблице сопряженности 2
    ×2
    (таблица 2.3).
    Таблица 2.3. Таблица сопряженности для биномиальных факторов
    Серия
    Значение
    1 2
    Сумма
    А n
    11 n
    12 n
    1•·
    не А n
    21 n
    22 n
    2•·
    Сумма n
    •1
    n
    •2
    N
    Гипотеза р1= р2 (частота события А в первой серии равна его частоте во второй серии) эквивалентна гипотезе о том, что выборки извлечены из одной генеральной совокупности, т.е. однородны. При

    38 этом формула вычисления выборочного значения критерия принимает вид:
    χ
    2
    в
    = (N – 1)•
    ⋅(n
    11
    •n
    22
    − n
    12
    •n
    21
    )
    2
    / n
    •1

    n
    •2

    n
    1•

    n
    2 •
    ;
    d=1. (2.7)
    ► Ограничения
    (С2.4) Для таблицы 2
    ×2 критерий χ
    2 можно использовать, если объем выборки и ожидаемые частоты удовлетворяют следующим условиям: при N > 20, всеожидаемыечастоты n
    
    i j
    должныбыть
    > 3 ;
    (С2.5) если N 20, наблюденийвпервойсерии n
    1
    должнобыть
    > 5,
    авовторой n
    2
    > n
    1
    / 3.
    Кокрейн рекомендует для выборок с числом наблюдений N 20
    использовать точный критерий Фишера. ►
    Проверка гипотез об однородности для таблиц k
    ×l c проверкой условий применимости критерия χ
    2
    осуществляется в программе chi_sq_ru.stb.
    Расчетысиспользованиемстатистическихпакетов.
    SPSS



    Descriptive Statistics


    Crosstab,
    NCSS



    Descriptive Statistics


    Crosstab,
    SYSTAT



    Tables


    Crosstab


    Two-Way,
    Statistica v.6.0



    Basic Statistics/Tables


    Tables and Banners
    В этих программах по переменным исходной таблицы данных вычисляется статистика критерия, проверяется гипотеза однородности показателей.
    2.4.
    ПроверкагипотезынезависимостиН
    н
    В том случае, когда имеется одна выборка, у которой зафиксированы значения двух показателей, А и В, с множествами возможных значений A
    1
    , A
    2
    , …, A
    k и В
    1
    , В
    2
    , …, В
    l соответственно,
    Таблица 2 является таблицей перекрестного табулирования. Тогда обычно требуется ответить на вопрос: зависят ли показатели А и В, т.е. зависят ли частоты появления событий А
    i от того, какому уровню j показателя В (В
    j
    ) они соответствуют? При такой постановке задачи будет проверяться нулевая гипотеза H
    н
    : предположение, что показатели
    А и В независимы при заданном уровне значимости. Проверка этой гипотезы осуществляется так же, как и проверка гипотезы об однородности распределений (формулы (2.4) – (2.7)). Альтернативная гипотеза H
    зав.
    : показатели зависимы, распределения частот А
    i в

    39 различных столбцах таблицы отличаются. Ограничения, приведенные в предыдущем пункте (С2.2 – С2.5), также должны соблюдаться при проверке гипотезы о независимости с помощью критерия χ
    2
    В случае, если гипотеза о независимости отвергается, характеристикой величины связи между показателями может быть один из следующих коэффициентов связи, вычисляемых на основе статистики χ
    2
    : φ, С (коэффициент контингации) или V Крамера.
    n
    2
    χ
    ϕ
    =
    ,
    2 2
    χ
    χ
    +
    =
    n
    С
    ,
    )
    1
    (
    2


    =
    q
    n
    V
    χ
    , где q = min (k, l)
    Все коэффициенты, как правило, имеют значения от 0 до 1, хотя коэффициент φ может и превышать 1 в некоторых случаях, а С и V не достигают значения 1 (приближаются асимптотически). Значение 0 показывает отсутствие связи показателей
    (независимость), статистическая значимость всех коэффициентов определяется статистикой χ2в - если на выбранном уровне отвергается гипотеза о независимости, то на том же уровне коэффициенты φ, С, V отличаются от 0.
    Пример 4. При обследовании работников нефтедобывающей компании в целях медицинского страхования был вычислен индекс функциональных изменений (ИФИ). Все обследованные были разбиты на 3 возрастные группы в соответствии с возрастной структурой контингента: (1) до 40 лет; (2) 40 – 49 лет; (3) 50 и более лет. Известна также профессиональная принадлежность каждого обследованного.
    Таблица П4-1. Таблица сопряженности для ИТР и администрации
    Градации ИФИ
    Возрастные группы
    Всего
    (1) до 40 лет
    (2) 40 – 49 лет
    (3)
    50 и более лет
    Удовлетворительная адаптация.
    57 12 3
    72
    Напряжение механизмов адаптации
    26 36 16 78
    Неудовлетворительная адаптация
    9 13 17 39
    Срыв адаптации
    2 12 22 36
    Всего
    94 73 58 225

    40
    Структура
    ИФИ в группе ИТР и администрации
    0%
    10%
    20%
    30%
    40%
    50%
    60%
    70%
    80%
    90%
    100%
    (1) до 40 лет
    (2) 40 – 49
    лет
    (3) 50 и более лет
    Возрастные группы
    Срыв адаптации
    Неудовлетворительна я
    адаптация
    Напряжение механизмов адаптации
    Удовлетворительная адаптация
    Рис. П4-1. Структура ИФИ в разных возрастных группах для ИТР и администрации
    Требуется выяснить, есть ли связь между возрастом и градациями ИФИ в каждой профессиональной группе.
    Результаты применения программы chi_sq_ru.stb
    Критерий χ
    2
    применим (ограничения выполнены)
    Наблюдений n = 225, степеней свободы d = 6, минимальное ожидаемое значение 9.28,
    χ
    2
    в
    = 86.17, на уровне α = 0.05 квантиль χ
    2 1-
    α
    (d) = 12.59.
    Гипотеза независимости отвергается, показатели зависимы.
    Коэффициент связи φ = 0.62
    Вывод: в профессиональной группе «ИТР и администрация» связь между показателями «градации ИФИ» и «возрастные группы» существует, причем довольно сильная.
    Те же результаты можно получить, применяя стандартную процедуру статистического пакета Statistica, однако при этом не проводится проверка применимости критерия к данной таблице, пользователь должен осуществить ее самостоятельно.

    41
    Таблица П4-2. Таблица сопряженности для профессиональной группы
    «рабочие»
    Градации ИФИ
    Возрастные группы
    Всего
    (1) до 40 лет
    (2) 40 –
    49 лет
    (3) 50 и более лет
    Удовлетворительная адаптация
    22 13 3
    38
    Напряжение механизмов адаптации
    11 11 5
    27
    Неудовлетворительная адаптация
    7 3
    2 12
    Срыв адаптации
    1 4
    4 9
    Всего
    41 31 14 86
    Наблюдений n = 86, степеней свободы d = 6, минимальное ожидаемое значение 1.46,
    χ
    2
    в
    = 10.81, на уровне α = 0.05 квантиль χ
    2 1-
    α
    (d) = 12.59.
    Применение критерия χ
    2
    неадекватно задаче (ожидаемые значения малы).
    Исходя из этого, делать дальнейшие выводы о наличии или отсутствии связи показателей с помощью критерия χ
    2
    не следует.
    Для Таблицы П4-2 программы Statistica и SYSTAT не дают предупреждений о неприменимости критерия χ
    2
    , поэтому на основании сравнения выборочного значения статистики и ее критического значения можно сделать вывод о независимости показателей.
    Программы SPSS и NCSS предупреждают о наличии слишком малых ожидаемых значений: At least one cell had an expected value less than 5.
    Все стандартные программы могут по запросу пользователя вывести таблицу ожидаемых значений, но делать дальнейшие выводы и осуществлять проверку других ограничений должен сам исследователь.
    Для того, чтобы получить решение поставленной задачи, можно объединить 3-ю и 4-ую строки Таблицы П4-2. Получится Таблица П4-3.

    42
    Таблица П4-3. Таблица сопряженности для профессиональной группы
    «рабочие»
    Градации ИФИ
    Возрастные группы
    Всего
    (1) до 40 лет
    (2) 40 –
    49 лет
    (3)
    50 и более лет
    Удовлетворительная адаптация
    22 13 3
    38
    Напряжение механизмов адаптации
    11 11 5
    27
    Неудовлетворительная адаптация или срыв
    8 7
    6 21
    Всего
    41 31 14 86
    Однако и в этом случае получим:
    Наблюдений n = 86, степеней свободы d = 4, минимальное ожидаемое значение 3.42.
    Применение критерия χ
    2
    неадекватно задаче (ожидаемые значения малы).
    Значит, нужно применить другой метод для выявления связи между показателями.
    В данном случае оба показателя не являются номинальными в точном понимании, их значения естественным образом упорядочены. Поэтому, в соответствии со Схемой 2, можно использовать коэффициенты ранговой корреляции.
    Поскольку таблица небольшая
    (4×3), повторяющихся значений много (до 22 в ячейке), лучше всего здесь применить коэффициент γ (см. Приложение).
    С помощью блока
    1   2   3   4   5   6   7   8   9   ...   15


    написать администратору сайта