Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Скачать 2.36 Mb.
|
Partial Prob Marginal Prob Effect DF Chi-Square Level Chi-Square Level A (Age_gr) 2 30.60 0.0000 30.60 0.0000 B (I20) 1 0.10 0.7511 0.10 0.7511 C (ACE) 2 22.47 0.0000 22.47 0.0000 AB 2 20.13 0.0000 19.83 0.0000 AC 4 6.39 0.1721 6.09 0.1928 BC 2 0.95 0.6226 0.65 0.7238 ABC 4 2.42 0.6597 2.42 0.6597 131 В этом отчете приведены значения тестов для оценки частных и маргинальных ассоциаций для членов 1 – 3 порядка. Следует отметить, что частный критерий χ 2 позволяет проверить, является ли значимым влияние данного члена после учета всех других членов того же порядка. А маргинальный критерий χ 2 дает значимость данного члена, если не учитываются все остальные члены того же порядка. Следовательно, если результаты обоих тестов совпадают, это позволяет отобрать значимые члены модели (в данном случае это А, С, АВ). Раздел пошаговойпроцедурыотбора ( Step-Down Model-Search Section ) При работе с программой NCSS Step No Best No DF Chi- Square Prob Level Term Deleted DF Chi- Square Prob Level Hierarchical Model 1 1 4 2.4 0.6597 None 0 0.0 0.0000 AB,AC,BC 2 1 6 22.5 0.0010 AB 2 20.1 0.0000 AC,BC 3 1 8 8.8 0.3592 AC 4 6.4 0.1721 AB,BC 4 1 6 3.4 0.7620 BC 2 0.9 0.6226 AB,AC 5 4 8 23.2 0.0031 AB 2 19.8 0.0000 AC,B 6 4 10 9.4 0.4900 AC 4 6.1 0.1928 AB,C 7 6 12 29.3 0.0036 AB 2 19.8 0.0000 C,B,A 8 6 12 31.9 0.0014 C 2 22.5 0.0000 AB Best model found: AB,C 6 6 10 9.4 0.4900 AC 4 6.1 0.1928 AB,C В данном разделе показана процедура отбора на каждом шаге. На первом шаге рассматривается насыщенная модель, затем начинается процесс исключения. Иногда интересно просмотреть весь процесс, а не только финальную модель. Приводится номер шага (1-й столбец таблицы). На этот номер ссылается 2-й столбец (Best No). В 3-ем столбце DF – число степеней свободы – приведено для тех членов, которые на данном шаге НЕ включены в модель, по сравнению с исходной. 4-й столбец (Chi- Square) – значение отношения правдоподобия G 2 для членов, исключенных из исходной модели на этом этапе. Оно позволяет проверить качество подгонки данных текущей моделью: если тест незначим, можно предположить, что все существенные члены присутствуют в модели. Следующий столбец (Prob Level) – р-значение для приведенного выше значения статистики. 6-й столбец (Term Deleted) – тот член, который был исключен на данном шаге из текущей модели. Заметим, что на каждом шаге 132 исключается ровно один член. В 7-ом столбце DF – число степеней свободы – приведено для того члена, который исключен на данном шаге. Следующий столбец - (Chi- Square) – значение отношения правдоподобия G 2 для того члена, который исключен из модели на этом этапе. Далее - (Prob Level) – р-значение для этого значения статистики. Последний столбец (Hierarchical Model) – запись той модели, которая оценивается на данном шаге. Лучшая из полученных моделей (в данном случае это полученная на 6-м шаге иерархическая модель {АВ, С}) приведена в последней строке данного раздела. В программе STATISTICA приводятся только финальные результаты, сама процедура отбора скрыта: Лучш .начал.модель: 21,31,32 хи -квадрат = 2.4161 сс = 4 p = 0.6597 Лучшая мод. 21,3 хи -квадрат = 9.4495 сс = 10 p = 0.4900 Раздел описаниямодели ( Model Section ) При работе с программой NCSS Model Section Hierarchical Model: AB,С Model Term Individual DF Cumulative DF Mean 1 1 A 2 3 B 1 4 AB 2 6 C 2 8 Error 10 18 В данном разделе перечислены все члены выбранной модели и соответствующее им число степеней свободы. Раздел проверкимоделиспомощьюкритерияχ2 При работе с программой NCSS Chi-Square Tests Section DF Like. Ratio Chi- Square Prob Level Pearson Chi- Square Prob Level Model 10 9.45 0.4900 9.31 0.5026 AB,C В этом разделе приведены значения обеих статистик (χ 2 Пирсона и G 2 максимального правдоподобия) для выбранной модели. 133 Раздел оценкипараметров При работе с программой NCSS Parameter Estimation Section Model Term Number Cells Percent Count Count Average Log (Count) Effect (Lambda) Effect Std. Error Effect Z- Value Mean 18 159 100.00 1.9154 1.9154 0.1049 18.25 A: Age_gr 18-29 6 35 22.01 1.6083 -0.3071 0.1545 -1.99 30-39 6 87 54.72 2.6050 0.6896 0.1240 5.56 40+ 6 37 23.27 1.5329 -0.3825 0.1638 -2.34 B: I20 нет 9 78 48.74 1.8437 -0.0717 0.1049 -0.68 есть 9 82 51.26 1.9871 0.0717 0.1049 0.68 C: ACE DD 6 40 25.16 1.7021 -0.2133 0.1545 -1.38 ID 6 82 51.57 2.4199 0.5045 0.1315 3.84 II 6 37 23.27 1.6241 -0.2913 0.1578 -1.85 AB: Age_gr, I20 18-29, нет 3 25 15.41 2.0319 0.4953 0.1545 3.21 18-29, есть 3 11 6.60 1.1846 -0.4953 0.1545 -3.21 30-39, нет 3 46 28.62 2.6510 0.1177 0.1240 0.95 30-39, есть 3 42 26.10 2.5590 -0.1177 0.1240 -0.95 40+, нет 3 8 4.72 0.8482 -0.6130 0.1638 -3.74 40+, есть 3 30 18.55 2.2177 0.6130 0.1638 3.74 В таблице приведены детали логлинейной оценки выбранной модели. Она и является целью LLM-анализа. Столбцы означают следующее: 1. Model Term - отдельные члены модели и все их уровни. 2. Number Cells – количество ячеек, включенных в данный член 3. Count – общее число объектов в ячейках, относящихся к данному уровню 4. Percent Count – общее число объектов в ячейках, выраженное в процентах по отношению к общему количеству объектов. Эти 134 проценты также используются для того, чтобы понять, почему этот член оказался значимым 5. Average Log(Count) – среднее значение Log(Count+∆) всех ячеек с указанными уровнями. 6. Effect (Lambda) – оцененное значение λ для данного члена. Эти параметры описаны выше. Они оценены с помощью процедуры Хабермана (Haberman). 7. Effect Std. Error – асимптотическая стандартная ошибка для приведенного выше эффекта λ. Когда оценивается насыщенная модель, стандартная ошибка вычисляется как квадратный корень из дисперсии эффекта. А дисперсия оценивается по формулам Ли (Lee). При оценке ненасыщенной модели программа использует при вычислениях оценки насыщенной модели в соответствии с аппроксимационным методом Ли. 8. Effect Z-Value – это эффект, деленный на стандартную ошибку. Поскольку количество ячеек для разных членов модели различно, точность оценки также отличается. Z-значение позволяет сравнивать относительную величину эффектов первого порядка и взаимодействий. Эти значения представляют собой относительную важность данного члена в логлинейной модели. Используются именно z-значения для членов модели, поскольку они распределены асимптотически нормально. Они называются стандартизованными оценками параметров в разделе «Техника выбора модели». При работе с программой STATISTICA Марг .Табл.(част+дельта): age по I 20 в перем.: ACE:II I 20 Age 18-29 Age 30-39 Age 40+ Сумма 0 6.50 10.5 2.5 19.5 1 1.50 7.5 8.5 17.5 Сумма 8.00 18.0 11.0 37.0 Подогн .част.: I 20 по age в перем.: ACE:II I 20 Age 18-29 Age 30-39 Age 40+ Сумма 0 5.701 10.59 1.745 18.03 1 2.443 9.66 6.865 18.97 Сумма 8.145 20.25 8.610 37.00 135 Откл . Фримена-Тьюки: I 20 по age в перем.: ACE:II I 20 Age 18-29 Age 30-39 Age 40+ Сумма 0 0.409 0.047 0.627 1.083 1 -0.476 -0.641 0.663 -0.455 Сумма -0.067 -0.594 1.290 0.629 Комп . МП хи-кв.: I 20 по age в перем.: ACE:II I 20 Age 18-29 Age 30-39 Age 40+ Сумма 0 1.70 -0.18 1.797 3.33 1 -1.46 -3.79 3.632 -1.62 Сумма 0.24 -3.97 5.429 1.70 Рис. П16-1. Интерпретациязначимыхэффектов Последний этап логлинейного анализа – интерпретация полученных результатов. Для этого осуществляется сворачивание общей процентной таблицы по всем значимым эффектам. Например, 136 для значимого взаимодействия АВ получим следующую свернутую таблицу: Возрастная группа Наличие I 20 Сумма нет есть 18-29 лет 70.0% (=100*15.41/22.01) 30.0% (=100*6.60/22.01) 100% 30-39 лет 52.3% (=100*28.62/54.72) 47.7% (=100*26.10/54.72) 100% 40+ лет 20.3% (=100*4.72/23.27) 79.7% (=100*18.55/23.27) 100% Разница в распределении процентов по каждой из строк и обусловила значимость данного взаимодействия. Таким образом, при логлинейном анализе взаимодействия стенокардии и АСЕ не обнаружено. Раздел «таблицаданных» ( Data Table Section ) При работе с программой NCSS ACE I20 Age_gr Actual Pred Diff Chi FT-SR DD 0 18-29 6.5 6.2 0.3 0.14 0.22 DD 0 30-39 7.5 11.4 -3.9 -1.17 -1.19 DD 0 40+ 3.5 1.9 1.6 1.17 1.07 DD 1 18-29 4.5 2.6 1.9 1.14 1.07 DD 1 30-39 9.5 10.4 -0.9 -0.29 -0.22 DD 1 40+ 8.5 7.4 1.1 0.40 0.46 ID 0 18-29 11.5 12.6 -1.1 -0.32 -0.25 ID 0 30-39 27.5 23.5 4.0 0.83 0.84 ID 0 40+ 1.5 3.9 -2.4 -1.20 -1.25 ID 1 18-29 4.5 5.4 -0.9 -0.39 -0.29 ID 1 30-39 24.5 21.4 3.1 0.67 0.69 ID 1 40+ 12.5 15.2 -2.7 -0.70 -0.66 II 0 18-29 6.5 5.7 0.8 0.33 0.41 II 0 30-39 10.5 10.6 -0.1 -0.03 0.05 II 0 40+ 2.5 1.7 0.8 0.57 0.63 II 1 18-29 1.5 2.4 -0.9 -0.60 -0.48 II 1 30-39 7.5 9.7 -2.2 -0.69 -0.64 II 1 40+ 8.5 6.9 1.6 0.62 0.66 Данная таблица позволяет найти большие разности – т.е. ячейки, которые неудовлетворительно описаны LLM. Actual – частоты в ячейках f ijk , полученные из исходных данных. Predicted – предсказанные на основании выбранной модели частоты m ijk . Уравнение для этих частот имеет следующий вид: 137 ln(m ijk ) = θ + λ i A + λ j B + λ k C + λ ij AB , где оценки параметров получены с помощью алгоритма Хабермана. Difference – это остатки: исходные частоты – предсказанные частоты. Важно найти не просто большие отклонения, а большие стандартизованные отклонения – они в следующей колонке. Chi - это стандартизованные остатки. Они вычисляются по формуле: Chi = (f ijk – m( ijk ) / √m( ijk Это корень квадратный из компонента, соответствующего данной ячейке, в общем выражении статистики χ 2 Пирсона для оценки качества подгонки. Эти стандартизованные остатки позволяют непосредственно сравнивать подгонку отдельных ячеек. Если значение |Chi| > 1.96, такой остаток следует рассматривать как большой. FT-SR – стандартизованные остатки Фримена-Тьюки. Эти значения также могут рассматриваться как полученные из N(0,1). Соответственно, так же, как в предыдущем случае, значения, превышающие по абсолютной величине 1.96, следует считать большими. В разобранном примере больших отклонений предсказанных и наблюдаемых частот нет, поэтому модель следует признать удовлетворительной. 138 Литература 1. С. А. Айвазян. Прикладная статистика. Исследование зависимостей.: Справ.изд./ Айвазян С. А., Енюков И. С., Мешалкин Л. Ш. – М.: Финансы и статистика, 1985. – 487 с. 2. А. Альбом. Введение в современную эпидемиологию / Альбом А., Норелл С.; пер.с англ. И. Боня. – Таллинн, 1996. – 122 с. 3. Анализ медицинских данных государственного статистического наблюдения. Сборник Комитета по здравоохранению Администрации Санкт-Петербурга / В.М.Дорофеев и др.,- СПб, 2003. 4. А. Банержи. Медицинская статистика понятным языком: вводный курс / Банержи А.; пер.с англ.под ред. В.П.Леонова. – М.: Практическая медицина, 2007. – 287 с. 5. В. Боровиков. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд./ Боровиков В. - СПб: Питер, 2003. – 688 с. 6. А. Бююль. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. / Бююль А., Цефель П.; пер.с нем./ под ред. В. Е. Момота. СПб: ООО «ДиаСофтЮП», 2002. – 608 с. 7. И. Гайдышев. Анализ и обработка данных. Специальный справочник./ Гайдышев. И. – СПб: Питер, 2001. – 752 с. 8. С. Гланц. Медико-биологическая статистика./ Гланц С.; пер.с англ. Ю.А. Данилова; под ред. Н. Е. Бузикашвили и Д. В. Самойлова. - М., Практика, 1999. – 459 с. 9. Государственный доклад о состоянии здоровья населения Российской Федерации в 1999 году.: офиц. Изд. –-М.:ГЭОТАР-МЕД, 2000. – 104 с. 10. В. А. Медик. Статистика в медицине и биологии: Руководство. В 2-х томах / Медик В. А., Токмачев М. С., Фишман Б. Б.; под ред. Ю.М. Комарова. – М.: Медицина. - 2000. - Т.1. Теоретическая статистика.– 412 с.; 2001 - Т.2. Прикладная статистика здоровья. – 352 с. 11. В. М. Медков. Демография: Учебник./ Медков В. М. – М.: ИНФРА - М, 2004. – 576 с. 12. А. Петри. Наглядная медицинская статистика./ Петри А., Сэбин К.; пер.с англ.под ред. В.П.Леонова, 2-е изд. – М:Издат.группа «ГЭОТАР-Медиа», 2009. – 165 с. 13. Справочник по прикладной статистике. Т.1.: пер.с англ. / под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. – М.: Финансы и статистика, 1989. – 510 с. 139 14. Справочник по прикладной статистике. Т.2.: пер.с англ. / под ред. Э. Ллойда, У. Ледермана, С. А. Айвазяна, Ю. Н. Тюрина. – М.: Финансы и статистика, 1990. – 526 с. 15. BMDP Statistical Software Manuel. Volume 1, 2. / W. J. Dixon, chief editor – University of California Press, Berkeley –Los Angeles - Oxford, 1990. – 1380 p. 16. N. E. Breslow. Statistical Methods in Cancer Research. V.1: The Analysis of Case-Control Studies. / Breslow N. E., Day N. E. - IARC Scientific Pub. № 32. Lion: IARC, 1980. 17. NCSS Help System. Copyright © 2007 Dr. Jerry L. Hintze, Kaysville, Utah 84037 18. Osborn J. F. Basic Statistical Methods for Epidemiological Studies. 140 ПРИЛОЖЕНИЕ: СЛОВАРЬИФОРМУЛЫ Распределенияслучайныхвеличинистатистические характеристикивыборки Законраспределенияслучайнойвеличины (с.в.) Нормальныйзакон N(µ, σ). С.в. непрерывного типа распределена по нормальному (гауссовскому) закону с параметрами µ и σ, если плотность распределения вероятностей этой с.в. задается формулой 2 2 2 ) ( 2 1 ) ( σ µ π σ − − = x e x f , где ∞ < < ∞ − x Рис.1. График плотности распределения вероятностей нормальной с.в. с параметрами µ =30, σ =10.15 Для нормально распределенной с.в. верно следующее утверждение. Вероятность того, что отклонение с.в. х от ее математического ожидания не превзойдет kσ, где k = 1, 2,3 а σ - стандартное отклонение, составляет: P( | x – µ | < σ ) ≈ 0.683 (k=1); P( | x – µ | < 2σ ) ≈ 0.954 (k=2); 141 P( | x – µ | < 3σ ) ≈ 0.997 (k=3) (2) Биномиальный (Бернулли) B(n,p). Используется для моделирования дихотомических данных – признаков, которые могут иметь только два значения. Случайная величина х распределена по биномиальному закону, если х – количество успехов в серии из n независимых испытаний с двумя исходами («успех» и «неуспех») при том, что вероятность успеха в каждом испытании одинакова и равна р. Вероятность того, что в серии из n испытаний количество успехов будет равно k, задается формулой Бернулли: P(x=k) = C n k •p k •(1-p) n-k (3) Полиномиальный– обобщение биномиального закона для схемы, когда в каждом из n независимых испытаний имеется r взаимоисключающих исходов A 1 , A 2 , …, A r соответственно с вероятностями р 1 , р 2 ,…, р r ; 1 1 = ∑ = n i i p . Вероятности полиномиального распределения задаются формулой: r n r n n r r r p p p n n n n n x n x n x P ! !... ! ! ) ,..., , ( 2 1 2 1 2 1 2 2 1 1 = = = = Это вероятность того, что в серии из n испытаний событие А 1 появится ровно n 1 раз, событие А 2 появится ровно n 2 раз, …, событие А r появится ровно n r раз, причем n n r i i = ∑ =1 (4) С.в. х распределена по законуПуассона с параметром λ (λ > 0), если она может принимать только целочисленные значения 0, 1, 2, … , а вероятности этих значений определяются формулой λ λ − = = e k k x Р k ! ) ( 142 Рис.2. График закона распределения вероятностей Пуассона с параметром λ=5 Распределение Пуассона используют в качестве удобного приближения биномиального распределения в случае, когда р мало (р << 1), a n велико (n >> 100). В этом случае распределение Пуассона интерпретируется как «закон редких явлений». Параметр λ принимается равным np. Выборкаобъема n |