Главная страница

Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие


Скачать 2.36 Mb.
НазваниеА. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Дата08.03.2023
Размер2.36 Mb.
Формат файлаpdf
Имя файлаСтатистический анализ медико-биологических данных.pdf
ТипМетодическое пособие
#975186
страница13 из 15
1   ...   7   8   9   10   11   12   13   14   15

2
Проверка гипотезы о независимости двух показателей, где один имеет r значений, а второй – l значений, производится по таблице сопряженности r
×l.
Статистика критерия – мера отклонения наблюдаемых частот от ожидаемых
χ
2
в

i=1
r
Σ
j=1
l
(n i j
– n

i j
)
2
/ n

i j
, где n i j
– элемент i-ой строки и j-го столбца таблицы сопряженности, n

i j
= n i •
× n

j
/ n
, n – объем выборки, n i•·
- сумма i-ой строки таблицы сопряженности, n
•j·
- сумма j-ого столбца таблицы сопряженности,
Число степеней свободы d = (r–1)
× (l–1)
Гипотеза о независимости показателей принимается на уровне α, если
χ
2
в
< χ
2 1-
α
(d)
В случае, если гипотеза о независимости отвергается, характеристикой величины связи между показателями может быть один из следующих коэффициентов
КоэффициентΦ
n
2
χ
=
Φ
- коэффициент связи показателей.
Коэффициент Φ, в основном, принимает значения из интервала [0,
1]. 0 – нет связи, 1 – сильная связь. Коэффициент может превышать 1.
КоэффициентС

157 2
2
χ
χ
+
=
n
С
- коэффициент сопряженности (контингации).
Коэффициент С принимает значения из интервала [0, 1]. 0 – нет связи, 1 – сильная связь. 1 достигается только асимптотически.
Фактическое максимальное значение коэффициента меньше 1 и зависит от размера и распределения частот таблицы.
Коэффициент V Крамера
)
1
(
2


=
q
n
V
χ
, где q = min (r, l)
Коэффициент связанности Крамера V принимает значения из интервала [0, 1]. 0 – нет связи, 1 – сильная связь. 1 достигается только асимптотически.
Коэффициентысвязимеждудихотомическими (бинарными)
переменными
При перекрестной табуляции дихотомических показателей получается квадратная таблица 2х2.
Переменная В
Переменная А
В
1
В
2
А
1 n
11 n
12
А
2 n
21 n
22
Сила связи между бинарными переменными может быть измерена с помощью относительныхиатрибутивныхрисков, а также отношенияшансов (см.)
Непараметрическиекритерииоднородностивыборок
Однородность – это принадлежность двух или более выборок одной и той же генеральной совокупности, т.е. проверка однородности – это проверка гипотезы о совпадении функций распределения.
Необходимые условия однородности – равенство характеристик положения и рассеивания, таких, как средние, медианы, дисперсии.
КритерийсерийВальда-Вольфовица
Применяется для сравнения двух независимых выборок. Проверяется нулевая гипотеза об их однородности и, соответственно, совпадении

158 параметров выборок: средних, медиан, коэффициентов асимметрии и т.д.
Две выборки объемом n1 и n2 объединяются в одну, объединенная выборка сортируется по возрастанию. В отсортированной выборке подсчитывается число серий элементов, относящихся к первой и второй выборкам. При достаточном объеме выборки для определения р-значений используется нормальная аппроксимация.
КритерийВилкоксона, МаннаиУитни (U или W)
Две статистики, связанные между собой. Применяются для сравнения двух независимых выборок. Проверяется однородность выборок и, в частности, совпадение средних и медиан.
Статистика критерия вычисляется с помощью ранговых сумм каждой из выборок в общем вариационном ряду. Одна из возможных формул для вычисления имеет следующий вид. Пусть R
1
и R
2
– суммы рангов каждой выборки в общем вариационном ряду, n
1 и n
2
– объемы выборок.
U
1
= n
1
n
2
+ n
1
(n
1
+1)/2 – R
1
U
2
= n
1
n
2
+ n
2
(n
2
+1)/2 – R
2
U = max(U
1
, U
2
) – статистика критерия.
Для определения критических значений при малых объемах выборки (n
1
+ n
2
< 20) используются таблицы. Если n
1
, n
2
> 8, может применяться нормальная аппроксимация.
КритерийВилкоксонадлясвязанныхвыборок (Т)
Применяется для попарно связанных выборок.
Критерием проверяется статистическая значимость нулевой гипотезы о том, что распределение разностей двух выборок симметрично относительно нуля. Вычисления производятся с рангами, а не с самими величинами. При этом предполагается, что величина разностей x i
-y i
имеет смысл, т.е. исследуемый показатель измеряется, по крайней мере, в метрической порядковой шкале.
В статистических пакетах для определения р-значений используется нормальная аппроксимация, поэтому для малых выборок
(n < 10) не следует его использовать.
Критерийзнаков
Применяется для попарно связанных выборок.

159
Основное предположение об однородности связанных выборок {x i
},
{y i
}, i =1,…,n :
P(x i
-y i
>0) = P(x i
-y i
<0) = ½, i=1,…,n.
Нулевые разности имеют нулевую вероятность, поскольку распределения предполагаются непрерывными. Если нули все же встречаются, то соответствующие наблюдения исключаются из рассмотрения.
Статистикой критерия является число положительных разностей среди всех ненулевых (r из k). Проверяется нулевая гипотеза Н
0
: “r
«плюсов» из k наблюдений согласуется с биномиальным распределением с параметром p =1/2.”
Критерий не следует использовать при частых совпадениях парных значений x i
, y i
Критерийχ
2
Проверка гипотезы об однородности l показателей, каждый из которых имеет r значений, производится по таблице сопряженности r
×l.
Статистика критерия – мера отклонения наблюдаемых частот от ожидаемых
χ
2
в

i=1
r
Σ
j=1
l
(n i j
– n

i j
)
2
/ n

i j
, где n i j
– элемент i-ой строки и j-го столбца таблицы сопряженности, n

i j
= n i •
× n

j
/ n
, n – объем выборки, n i•·
- сумма i-ой строки таблицы сопряженности, n
•j·
- сумма j-ого столбца таблицы сопряженности,
Число степеней свободы d = (r–1)
× (l–1)
Гипотеза об однородности показателей принимается на уровне α, если
χ
2
в
< χ
2 1-
α
(d)
Х-критерийВандерВардена
Применяется для сравнения двух независимых выборок. Проверяется однородность выборок. Х-критерий сравнивает ранжированные ряды вариант по их центральной тенденции. Предполагается отсутствие совпадающих значений.
КритерийКолмогорова-Смирнова
Применяется для сравнения двух независимых выборок. Проверяется однородность выборок при условии непрерывности их функций распределения, что означает отсутствие совпадающих значений.

160
Статистика критерия аналогична статистике критерия КС при проверке согласия с известным законом распределения и имеет вид:
D
m,n
= sup
-


| F
n
(x)-G
m
(x) | , где D
m,n
– максимальная разность между частотами выборочных рядов объемом m и n.
Параметрическиекритерииоднородностивыборок
ТочныйметодФишера (Фишера-Ирвина)
Применяется для сравнения двух дихотомическихнезависимых выборок. Проверяется нулевая гипотеза о том, что выборки извлечены из генеральных совокупностей, распределенных биномиально, с одинаковой частотой встречаемости изучаемого эффекта.
В первой серии из n
1
испытаний событие А появилось x
1
раз, во второй серии было n
2
испытаний, и событие А появилось x
2
раз.
Нулевая гипотеза: частота появления события в первой серии не отличается от частоты его появления во второй серии.
Точный уровень значимости нулевой гипотезы вычисляется по формуле:
)!
(
)!
(
!
!
)!
(
)!
(
)!
(
!
!
2 2
1 1
2 1
2 1
2 2
1 1
2 1
2 1
x
n
x
n
x
x
n
n
x
n
x
n
x
x
n
n






+

+


+


=
α
Если α < α
0
, выбранного уровня значимости, то нулевая гипотеза отвергается.
Критерииналичиялинейноготренда
Критерийχ
2
Критерий χ
2
применяется к таблице сопряженности 2
×k, причем каждой серии поставлена в соответствие дозовая нагрузка х
1
, х
2
, …, х k
Линейный тренд – это регрессия пропорций {n
1i
/ n
•i
} на дозы {х i
}.
Серия
Значение
1 2

k
Сумма
А n
11 n
12

n
1k n
1•·
не А n
21 n
22

n
2k n
2•·
Сумма
n
•1
n
•2
…n
•k
N
Дозовая нагрузка х
1
х
2

х k

161
Для проверки нулевой гипотезы Н
0
: в пропорциях отсутствует линейный тренд против альтернативной гипотезы Н
т
: есть линейный тренд - вычисляется статистика критерия




=
=




=
=













=
k
i
k
i
i
i
i
i
k
i
k
i
i
i
i
i
в
N
n
x
N
x
n
N
n
N
n
N
n
x
n
n
x
1 1
2 2
1 1
1 1
2 1
1 2
)
)
(
(
)
1
(
)
(
χ
В предположении нулевой гипотезы критерий распределен как
χ
2
(1).
Гипотеза об отсутствии тренда принимается на уровне α, если
χ
2
в
< χ
2 1-
α
(1)
В противном случае гипотеза отклоняется (принимается альтернативная гипотеза о наличии линейного тренда).
Разность
χ
2
в
(d-1) и
χ
2
в
(1)
, распределенная как
χ
2
(d-2)
, используется для проверки значимости отклонения пропорций от линейного тренда.
ТестКокрана (Cochran) – аналогичныйпредыдущемутест
В обозначениях предыдущей таблицы
χ
2
=
, где
В предположении нулевой гипотезы критерий тоже распределен как χ
2
(1).
ТестАрмитэйджа (Armitage) проверкитрендавпропорциях
Критерий применяется к таблице сопряженности 2
×k. Он позволяет проверить, есть ли линейный тренд в пропорциях осуществления события (безотносительно к дозовым нагрузкам). В обозначениях предыдущей таблицы определим
A
=
, B
=
Тогда статистика критерия S = A – B, а оценка стандартной ошибки S: V =

162
Статистика теста
S стандартизуется к нормальному распределению: z
=
Полученное z-значение далее проверяется с помощью стандартного нормального распределения.
Риски
Риском называется вероятность возникновения неблагоприятного исхода, она принимает значения в интервале от 0 (риск отсутствует) до
1 (неблагоприятный исход наступит наверняка). В качестве меры связи некоторого фактора с риском возникновения события (частотой) используют относительный риск, атрибутивный риск или отношение шансов. Основой для вычисления этих мер связи является таблица 2х2:
Уровниизучаемого фактора F
F
1
F
2
Событий (случаев) a
1 a
2
Наблюдений c
1 c
2
Частота события р
1 р
2
Риск наступления события на каждом уровне фактора F обозначается р i
и может вычисляться тремя способами.
1) p
i
=a i
/c i
, и при этом во второй строке таблицы – количество наблюдений. Тогда р i
называетсяпропорцией
2) p
i
=a i
/c i
, и при этом во второй строке таблицы – количество
«человеко-лет наблюдений». Тогда р i
называетсяуровнем
3)
i
i
i
i
a
c
a
p

=


, во второй строке таблицы – количество наблюдений. Тогда р
i называетсяшансамисобытия - отношение числа
«случаев» к числу «не случаев». Эта характеристика чаще всего используется при вычислении рисков для редких событий.
Относительныйриск RR (relative risk) – это отношение
1 2
p
p
, где р i
– пропорции или уровни.

163 1
2 1
2 21
a
c
c
a
R
RR
×
×
=
=
Атрибутивныйриск (attributable risk, AR) – разность пропорций или уровней
AR = p
2
– p
1
=
1 1
2 2
c
a
c
a
RR и AR связаны соотношением:
AR = p
1
×(RR-1)
Отношениешансов (odds ratio) обычно обозначается символом ОR и вычисляется как
1 2
2 1
1 2
21
)
(
)
(
a
a
c
a
c
a
ОR
ОR
×


×
=
=
Стандартные ошибки и доверительные интервалы для рисков р
i
-
пропорция
Если строка «наблюдений» означает количество объектов наблюдения, то есть p i
– пропорция (частота), то распределение числа событий моделируется биномиальным распределением, и дисперсия p i
определяется формулой
i
i
i
i
i
c
p
p
p
S
p
VAR
)
1
(
)
(
)
(
2

×
=
=
, тогда стандартная ошибка пропорции p i
i
i
i
i
c
p
p
p
S
)
1
(
)
(
)
SE(p i

×
=
=
, ln(R
21
)=ln (p
2
) - ln (p
1
),
Поэтому дисперсия ln(R
21
) вычисляется как сумма дисперсий
1 1
2 2
21 2
21
a p
-
1
a p
-
1
)
(lnR
S
)
(lnR
VAR
+
=
=
Соответственно, стандартная ошибка логарифма относительного риска в этом случае

164 1
2 1
2 1
1 2
2 21 21 1
1 1
1 1
1
)
S(lnR
)
SE(lnR
c
c
a
a
a
p
a
p


+
=

+

=
=
Так как lnR
21
распределен асимптотически нормально, то
95%
доверительныйинтервалдля lnR
21
{lnR
21
-1.96•SE(lnR
21
), lnR
21
+1.96•SE(lnR
21
)}
Тогда 95% доверительныйинтервалдля R
21
имеет вид:
)
,
(
1 1
2 2
1 1
2 2
1 1
96 1
1 21 1
1 96 1
1 21
a
p
a
p
a
p
a
p
R
R

+

×
+

+

×

( I ) р
i
-
уровень
В строке «наблюдений» - человеко-годы наблюдения за период (общее время под риском). Тогда p i
уровеньпо содержанию, распределение числа событий моделируется распределением Пуассона, и
i
i
i
i
a
p
p
S
p
SE
=
=
)
(
)
(
i
i
i
i
i
i
i
i
a
c
p
p
p
p
p
S
p
VAR
1 1
)
var(
1
)
(ln
)
(ln
2 2
2
=
×
=
×
=
=
, отсюда
1 2
21 21 1
2 21 2
21 1
1
)
(ln
)
(ln
,
1 1
)
(ln
)
(ln
a
a
R
S
R
SE
a
a
R
S
R
VAR
+
=
=
+
=
=
95%
доверительныйинтервалдля R
21
имеет вид:
)
,
(
1 2
1 2
1 1
96 1
1 21 1
1 96 1
1 21
a
a
a
a
R
R
+
×
+
+
×

( II ) р
i
-
шансысобытия
В строке «наблюдений» количество объектов наблюдения. Шансы используются при исследованиях «случай – контроль» или при

165 изучении редких событий. Вместо частоты p i
в этом случае вычисляются шансы(осуществления события в группе):
i
i
i
i
i
i
i
p
p
p
a
c
a
p

=

=
1

,

Это выражение называется логитом p i
Тогда отношение шансов ОR
21
есть отношение логитов:
1 2
21


p
p
OR
=
Для редких событий величина
i
p

практически не отличается от пропорции
p
i
, но ошибка в этом случае вычисляется иначе:
)
1
(
1
)
1
(ln
i
i
i
i
i
p
p
c
p
p
VAR

×
×
=

,
1 1
1 2
2 2
1 1
1 2
2 2
21 1
1 1
1
)
1
(
1
)
1
(
1
)
(ln
a
c
a
a
c
a
p
p
c
p
p
c
OR
VAR

+
+

+
=

×
×
+

×
×
=
1 1
1 2
2 2
21 1
1 1
1
)
(ln
a
c
a
a
c
a
OR
SE

+
+

+
=
95%
доверительныйинтервалдля OR
21 имеет вид:
)
,
(
1 1
1 2
2 2
1 1
1 2
2 2
1 1
1 1
96 1
1 21 1
1 1
1 96 1
1 21
a
c
a
a
c
a
a
c
a
a
c
a
OR
OR

+
+

+
×
+

+
+

+
×

( III )
Сравнивая формулы для доверительных интервалов ( I ), ( II ) и
(III), можно отметить, что самый «узкий интервал» соответствует выражению ( I ), шире интервал для случая (II), и еще шире для отношения шансов (III).
Объединенныерискиприналичиимешающихфакторов
Весь анализ проводится для двух уровней изучаемого фактора и К
(K>=2) уровней мешающего фактора. Если изучаемый фактор имеет более двух уровней, весь анализ нужно повторять для каждой пары уровней.
В случае, когда изучаемый фактор имеет ровно два уровня, предполагается, что уровень
1   ...   7   8   9   10   11   12   13   14   15


написать администратору сайта