Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие

Название	А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Дата	08.03.2023
Размер	2.36 Mb.
Формат файла
Имя файла	Статистический анализ медико-биологических данных.pdf
Тип	Методическое пособие #975186
страница	11 из 15

1 ... 7 8 9 10 11 12 13 14 15

Partial
Prob
Marginal
Prob
Effect
DF Chi-Square
Level Chi-Square
Level
A (Age_gr)
2 30.60
0.0000
30.60
0.0000
B (I20)
1 0.10 0.7511 0.10 0.7511
C (ACE)
2 22.47
0.0000
22.47
0.0000
AB
2 20.13
0.0000
19.83
0.0000
AC
4 6.39 0.1721 6.09 0.1928
BC
2 0.95 0.6226 0.65 0.7238
ABC
4 2.42 0.6597 2.42 0.6597

131
В этом отчете приведены значения тестов для оценки частных и маргинальных ассоциаций для членов 1 – 3 порядка. Следует отметить, что частный критерий χ
2
позволяет проверить, является ли значимым влияние данного члена после учета всех других членов того же порядка.
А маргинальный критерий χ
2
дает значимость данного члена, если не учитываются все остальные члены того же порядка. Следовательно, если результаты обоих тестов совпадают, это позволяет отобрать значимые члены модели (в данном случае это А, С, АВ).
Раздел пошаговойпроцедурыотбора (
Step-Down Model-Search Section
)
При работе с программой NCSS
Step
No
Best
No
DF
Chi-
Square
Prob
Level
Term
Deleted
DF
Chi-
Square
Prob
Level
Hierarchical
Model
1 1
4 2.4 0.6597
None
0 0.0
0.0000
AB,AC,BC
2 1
6 22.5 0.0010
AB
2 20.1
0.0000
AC,BC
3 1
8 8.8 0.3592
AC
4 6.4 0.1721
AB,BC
4 1
6 3.4 0.7620
BC
2 0.9 0.6226
AB,AC
5 4
8 23.2 0.0031
AB
2 19.8
0.0000
AC,B
6 4
10 9.4 0.4900
AC
4 6.1 0.1928
AB,C
7 6
12 29.3 0.0036
AB
2 19.8
0.0000
C,B,A
8 6
12 31.9 0.0014
C
2 22.5
0.0000
AB
Best model found: AB,C
6 6
10 9.4 0.4900
AC
4 6.1 0.1928
AB,C
В данном разделе показана процедура отбора на каждом шаге. На первом шаге рассматривается насыщенная модель, затем начинается процесс исключения. Иногда интересно просмотреть весь процесс, а не только финальную модель.
Приводится номер шага (1-й столбец таблицы). На этот номер ссылается 2-й столбец (Best No). В 3-ем столбце DF – число степеней свободы – приведено для тех членов, которые на данном шаге НЕ включены в модель, по сравнению с исходной.
4-й столбец (Chi- Square) – значение отношения правдоподобия
G
2
для членов, исключенных из исходной модели на этом этапе. Оно позволяет проверить качество подгонки данных текущей моделью: если тест незначим, можно предположить, что все существенные члены присутствуют в модели.
Следующий столбец (Prob Level) – р-значение для приведенного выше значения статистики.
6-й столбец (Term Deleted) – тот член, который был исключен на данном шаге из текущей модели. Заметим, что на каждом шаге

132 исключается ровно один член. В 7-ом столбце DF – число степеней свободы – приведено для того члена, который исключен на данном шаге.
Следующий столбец - (Chi- Square) – значение отношения правдоподобия G
2
для того члена, который исключен из модели на этом этапе. Далее - (Prob Level) – р-значение для этого значения статистики.
Последний столбец (Hierarchical Model) – запись той модели, которая оценивается на данном шаге. Лучшая из полученных моделей (в данном случае это полученная на 6-м шаге иерархическая модель {АВ,
С}) приведена в последней строке данного раздела.
В программе STATISTICA приводятся только финальные результаты, сама процедура отбора скрыта:
Лучш
.начал.модель:
21,31,32
хи
-квадрат =
2.4161
сс
= 4
p = 0.6597
Лучшая мод.
21,3
хи
-квадрат =
9.4495
сс
= 10
p = 0.4900
Раздел описаниямодели (
Model Section
)
При работе с программой NCSS
Model Section
Hierarchical Model: AB,С
Model Term
Individual DF
Cumulative DF
Mean
1 1
A
2 3
B
1 4
AB
2 6
C
2 8
Error
10 18
В данном разделе перечислены все члены выбранной модели и соответствующее им число степеней свободы.
Раздел проверкимоделиспомощьюкритерияχ2
При работе с программой NCSS
Chi-Square Tests Section
DF
Like. Ratio Chi-
Square
Prob Level
Pearson
Chi-
Square
Prob
Level
Model
10 9.45 0.4900 9.31 0.5026
AB,C
В этом разделе приведены значения обеих статистик (χ
2
Пирсона и
G
2 максимального правдоподобия) для выбранной модели.

133
Раздел оценкипараметров
При работе с программой NCSS
Parameter Estimation Section
Model
Term
Number
Cells
Percent
Count
Count
Average
Log
(Count)
Effect
(Lambda)
Effect
Std. Error
Effect Z-
Value
Mean
18 159 100.00 1.9154 1.9154 0.1049 18.25
A:
Age_gr
18-29 6
35 22.01 1.6083
-0.3071 0.1545
-1.99 30-39 6
87 54.72 2.6050 0.6896 0.1240 5.56 40+
6 37 23.27 1.5329
-0.3825 0.1638
-2.34
B: I20
нет
9 78 48.74 1.8437
-0.0717 0.1049
-0.68 есть
9 82 51.26 1.9871 0.0717 0.1049 0.68
C: ACE
DD
6 40 25.16 1.7021
-0.2133 0.1545
-1.38
ID
6 82 51.57 2.4199 0.5045 0.1315 3.84
II
6 37 23.27 1.6241
-0.2913 0.1578
-1.85
AB:
Age_gr,
I20
18-29, нет
3 25 15.41 2.0319 0.4953 0.1545 3.21 18-29, есть
3 11 6.60 1.1846
-0.4953 0.1545
-3.21 30-39, нет
3 46 28.62 2.6510 0.1177 0.1240 0.95 30-39, есть
3 42 26.10 2.5590
-0.1177 0.1240
-0.95 40+, нет
3 8
4.72 0.8482
-0.6130 0.1638
-3.74 40+, есть
3 30 18.55 2.2177 0.6130 0.1638 3.74
В таблице приведены детали логлинейной оценки выбранной модели. Она и является целью LLM-анализа. Столбцы означают следующее:
1. Model Term - отдельные члены модели и все их уровни.
2. Number Cells – количество ячеек, включенных в данный член
3. Count – общее число объектов в ячейках, относящихся к данному уровню
4. Percent Count – общее число объектов в ячейках, выраженное в процентах по отношению к общему количеству объектов. Эти

134 проценты также используются для того, чтобы понять, почему этот член оказался значимым
5. Average Log(Count) – среднее значение Log(Count+∆) всех ячеек с указанными уровнями.
6. Effect (Lambda) – оцененное значение λ для данного члена. Эти параметры описаны выше. Они оценены с помощью процедуры
Хабермана (Haberman).
7. Effect Std. Error – асимптотическая стандартная ошибка для приведенного выше эффекта λ. Когда оценивается насыщенная модель, стандартная ошибка вычисляется как квадратный корень из дисперсии эффекта. А дисперсия оценивается по формулам Ли (Lee). При оценке ненасыщенной модели программа использует при вычислениях оценки насыщенной модели в соответствии с аппроксимационным методом Ли.
8. Effect Z-Value – это эффект, деленный на стандартную ошибку.
Поскольку количество ячеек для разных членов модели различно, точность оценки также отличается. Z-значение позволяет сравнивать относительную величину эффектов первого порядка и взаимодействий. Эти значения представляют собой относительную важность данного члена в логлинейной модели. Используются именно z-значения для членов модели, поскольку они распределены асимптотически нормально. Они называются стандартизованными оценками параметров в разделе «Техника выбора модели».
При работе с программой STATISTICA
Марг
.Табл.(част+дельта): age по I 20 в перем.:
ACE:II
I 20
Age
18-29
Age
30-39
Age
40+
Сумма
0
6.50 10.5 2.5 19.5
1
1.50 7.5 8.5 17.5
Сумма
8.00 18.0 11.0 37.0
Подогн
.част.: I 20 по age в перем.: ACE:II
I 20
Age
18-29
Age
30-39
Age
40+
Сумма
0
5.701 10.59 1.745 18.03
1
2.443 9.66 6.865 18.97
Сумма
8.145 20.25 8.610 37.00

135
Откл
. Фримена-Тьюки: I 20 по age в перем.:
ACE:II
I 20
Age
18-29
Age
30-39
Age
40+
Сумма
0
0.409 0.047 0.627 1.083
1
-0.476
-0.641 0.663
-0.455
Сумма
-0.067
-0.594 1.290 0.629
Комп
. МП хи-кв.: I 20 по age в перем.: ACE:II
I 20
Age
18-29
Age
30-39
Age
40+
Сумма
0
1.70
-0.18 1.797 3.33
1
-1.46
-3.79 3.632
-1.62
Сумма
0.24
-3.97 5.429 1.70
Рис. П16-1.
Интерпретациязначимыхэффектов
Последний этап логлинейного анализа – интерпретация полученных результатов. Для этого осуществляется сворачивание общей процентной таблицы по всем значимым эффектам. Например,

136 для значимого взаимодействия АВ получим следующую свернутую таблицу:
Возрастная группа
Наличие I 20
Сумма нет есть
18-29
лет
70.0%
(=100*15.41/22.01)
30.0%
(=100*6.60/22.01)
100%
30-39
лет
52.3%
(=100*28.62/54.72)
47.7%
(=100*26.10/54.72)
100%
40+
лет
20.3%
(=100*4.72/23.27)
79.7%
(=100*18.55/23.27)
100%
Разница в распределении процентов по каждой из строк и обусловила значимость данного взаимодействия.
Таким образом, при логлинейном анализе взаимодействия стенокардии и АСЕ не обнаружено.
Раздел
«таблицаданных» (
Data Table Section
)
При работе с программой NCSS
ACE
I20
Age_gr
Actual
Pred
Diff
Chi
FT-SR
DD
0 18-29 6.5 6.2 0.3 0.14 0.22
DD
0 30-39 7.5 11.4
-3.9
-1.17
-1.19
DD
0 40+
3.5 1.9 1.6 1.17 1.07
DD
1 18-29 4.5 2.6 1.9 1.14 1.07
DD
1 30-39 9.5 10.4
-0.9
-0.29
-0.22
DD
1 40+
8.5 7.4 1.1 0.40 0.46
ID
0 18-29 11.5 12.6
-1.1
-0.32
-0.25
ID
0 30-39 27.5 23.5 4.0 0.83 0.84
ID
0 40+
1.5 3.9
-2.4
-1.20
-1.25
ID
1 18-29 4.5 5.4
-0.9
-0.39
-0.29
ID
1 30-39 24.5 21.4 3.1 0.67 0.69
ID
1 40+
12.5 15.2
-2.7
-0.70
-0.66
II
0 18-29 6.5 5.7 0.8 0.33 0.41
II
0 30-39 10.5 10.6
-0.1
-0.03 0.05
II
0 40+
2.5 1.7 0.8 0.57 0.63
II
1 18-29 1.5 2.4
-0.9
-0.60
-0.48
II
1 30-39 7.5 9.7
-2.2
-0.69
-0.64
II
1 40+
8.5 6.9 1.6 0.62 0.66
Данная таблица позволяет найти большие разности – т.е. ячейки, которые неудовлетворительно описаны LLM.
Actual – частоты в ячейках f ijk
, полученные из исходных данных.
Predicted – предсказанные на основании выбранной модели частоты m ijk
. Уравнение для этих частот имеет следующий вид:

137 ln(m ijk
) = θ + λ
i
A
+ λ
j
B
+ λ
k
C
+ λ
ij
AB
, где оценки параметров получены с помощью алгоритма
Хабермана.
Difference –
это остатки: исходные частоты – предсказанные частоты. Важно найти не просто большие отклонения, а большие стандартизованные отклонения – они в следующей колонке.
Chi - это стандартизованные остатки. Они вычисляются по формуле:
Chi = (f
ijk
–
m(
ijk
) /
√m(
ijk
Это корень квадратный из компонента, соответствующего данной ячейке, в общем выражении статистики χ
2
Пирсона для оценки качества подгонки. Эти стандартизованные остатки позволяют непосредственно сравнивать подгонку отдельных ячеек. Если значение |Chi| > 1.96, такой остаток следует рассматривать как большой.
FT-SR –
стандартизованные остатки Фримена-Тьюки.
Эти значения также могут рассматриваться как полученные из
N(0,1). Соответственно, так же, как в предыдущем случае, значения, превышающие по абсолютной величине 1.96, следует считать большими.
В разобранном примере больших отклонений предсказанных и наблюдаемых частот нет, поэтому модель следует признать удовлетворительной.

138
Литература
1.
С. А. Айвазян. Прикладная статистика. Исследование зависимостей.: Справ.изд./ Айвазян С. А., Енюков И. С., Мешалкин Л.
Ш. – М.: Финансы и статистика, 1985. – 487 с.
2.
А. Альбом. Введение в современную эпидемиологию /
Альбом А., Норелл С.; пер.с англ. И. Боня. – Таллинн, 1996. – 122 с.
3.
Анализ медицинских данных государственного статистического наблюдения. Сборник Комитета по здравоохранению
Администрации Санкт-Петербурга / В.М.Дорофеев и др.,- СПб, 2003.
4.
А. Банержи. Медицинская статистика понятным языком: вводный курс / Банержи А.; пер.с англ.под ред. В.П.Леонова. – М.:
Практическая медицина, 2007. – 287 с.
5.
В. Боровиков. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд./ Боровиков В. - СПб: Питер,
2003. – 688 с.
6.
А. Бююль. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. /
Бююль А., Цефель П.; пер.с нем./ под ред. В. Е. Момота. СПб: ООО
«ДиаСофтЮП», 2002. – 608 с.
7.
И. Гайдышев. Анализ и обработка данных. Специальный справочник./ Гайдышев. И. – СПб: Питер, 2001. – 752 с.
8.
С. Гланц. Медико-биологическая статистика./ Гланц С.; пер.с англ. Ю.А. Данилова; под ред. Н. Е. Бузикашвили и Д. В. Самойлова. -
М., Практика, 1999. – 459 с.
9.
Государственный доклад о состоянии здоровья населения
Российской Федерации в 1999 году.: офиц. Изд. –-М.:ГЭОТАР-МЕД,
2000. – 104 с.
10.
В. А. Медик. Статистика в медицине и биологии:
Руководство. В 2-х томах / Медик В. А., Токмачев М. С., Фишман Б. Б.; под ред. Ю.М. Комарова. – М.: Медицина. - 2000. - Т.1. Теоретическая статистика.– 412 с.; 2001 - Т.2. Прикладная статистика здоровья. – 352 с.
11.
В. М. Медков. Демография: Учебник./ Медков В. М. – М.:
ИНФРА - М, 2004. – 576 с.
12.
А. Петри. Наглядная медицинская статистика./ Петри А.,
Сэбин К.; пер.с англ.под ред. В.П.Леонова, 2-е изд. – М:Издат.группа
«ГЭОТАР-Медиа», 2009. – 165 с.
13.
Справочник по прикладной статистике. Т.1.: пер.с англ. / под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. – М.: Финансы и статистика, 1989. – 510 с.

139 14.
Справочник по прикладной статистике. Т.2.: пер.с англ. / под ред. Э. Ллойда, У. Ледермана, С. А. Айвазяна, Ю. Н. Тюрина. – М.:
Финансы и статистика, 1990. – 526 с.
15.
BMDP Statistical Software Manuel. Volume 1, 2. / W. J. Dixon, chief editor – University of California Press, Berkeley –Los Angeles -
Oxford, 1990. – 1380 p.
16.
N. E. Breslow. Statistical Methods in Cancer Research. V.1: The
Analysis of Case-Control Studies. / Breslow N. E., Day N. E. - IARC
Scientific Pub. № 32. Lion: IARC, 1980.
17.
NCSS Help System. Copyright © 2007 Dr. Jerry L. Hintze,
Kaysville, Utah 84037 18.
Osborn J. F. Basic Statistical Methods for Epidemiological
Studies.

140
ПРИЛОЖЕНИЕ: СЛОВАРЬИФОРМУЛЫ
Распределенияслучайныхвеличинистатистические характеристикивыборки
Законраспределенияслучайнойвеличины (с.в.)
Нормальныйзакон N(µ, σ). С.в. непрерывного типа распределена по нормальному (гауссовскому) закону с параметрами µ и σ, если плотность распределения вероятностей этой с.в. задается формулой
2 2
2
)
(
2 1
)
(
σ
µ
π
σ
−
−
=
x
e
x
f
, где
∞
<
<
∞
−
x
Рис.1. График плотности распределения вероятностей нормальной с.в. с параметрами µ =30, σ =10.15
Для нормально распределенной с.в. верно следующее утверждение.
Вероятность того, что отклонение с.в. х от ее математического ожидания не превзойдет kσ, где k = 1, 2,3 а σ - стандартное отклонение, составляет:
P( | x – µ | < σ ) ≈ 0.683 (k=1); P( | x – µ | < 2σ ) ≈ 0.954 (k=2);

141
P( | x – µ | < 3σ ) ≈ 0.997 (k=3)
(2) Биномиальный (Бернулли) B(n,p). Используется для моделирования дихотомических данных – признаков, которые могут иметь только два значения. Случайная величина х распределена по биномиальному закону, если х – количество успехов в серии из n независимых испытаний с двумя исходами («успех» и «неуспех») при том, что вероятность успеха в каждом испытании одинакова и равна р.
Вероятность того, что в серии из n испытаний количество успехов будет равно k, задается формулой Бернулли:
P(x=k) = C
n k
•p k
•(1-p)
n-k
(3) Полиномиальный– обобщение биномиального закона для схемы, когда в каждом из n независимых испытаний имеется r взаимоисключающих исходов A
1
, A
2
, …, A
r соответственно с вероятностями р
1
,
р
2
,…,
р
r
;
1 1
=
∑
=
n
i
i
p
. Вероятности полиномиального распределения задаются формулой:
r
n
r
n
n
r
r
r
p
p
p
n
n
n
n
n
x
n
x
n
x
P
!
!...
!
!
)
,...,
,
(
2 1
2 1
2 1
2 2
1 1
=
=
=
=
Это вероятность того, что в серии из n испытаний событие А
1
появится ровно n
1
раз, событие А
2
появится ровно n
2
раз, …, событие А
r появится ровно n r
раз, причем
n
n
r
i
i
=
∑
=1
(4) С.в. х распределена по законуПуассона с параметром λ (λ > 0), если она может принимать только целочисленные значения 0, 1, 2, … , а вероятности этих значений определяются формулой
λ
λ
−
=
=
e
k
k
x
Р
k
!
)
(

142
Рис.2. График закона распределения вероятностей Пуассона с параметром
λ=5
Распределение Пуассона используют в качестве удобного приближения биномиального распределения в случае, когда р мало (р << 1), a n велико (n >> 100). В этом случае распределение Пуассона интерпретируется как «закон редких явлений». Параметр λ принимается равным np.
Выборкаобъема n

1 ... 7 8 9 10 11 12 13 14 15