Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Скачать 2.36 Mb.
|
0.000 1.000 1.000 Ленингр. обл. 0.450 0.000 0.130 1.000 Санкт- Петербург 0.000 0.000 0.000 0.000 Новгород. обл. 1.000 0.130 0.000 0.770 Псковская обл. 1.000 1.000 0.000 0.770 Согласно этой таблице, частота смерти в СПб отличается от всех остальных территорий (на уровне α < 0.0001), остальные частоты значимо не отличаются. Таблица П10-4. Попарное сравнение уровней смертности на отдельных территориях. Р-значения проверки двусторонней гипотезы (P1=P2 против P1- P2<>0), также с поправкой Бонферрони Калинингр. обл. Ленингр. обл. Санкт- Петербург Новгород. обл. Псковская обл. Калинингр. обл. 1.000 0.000 1.000 1.000 Ленингр. обл. 1.000 0.000 1.000 1.000 Санкт- Петербург 0.000 0.000 0.000 0.010 Новгород. обл. 1.000 1.000 0.000 1.000 Псковская обл. 1.000 1.000 0.010 1.000 Уровни смертности в СПб отличается от всех остальных территорий (на уровне α < 0.01), уровни смертности на остальных территориях не отличаются – вывод аналогичен предыдущему. 65 ( б). Использованиекритерия χχχχ 2 Метод предусматривает использование непараметрического подхода – проверка совпадения (однородности) двух и более распределений осуществляется с помощью критерия χ 2 . При применении этого критерия предположения о биномиальности распределений не используются. Описание метода дано в главе 2. Встатистических пакетах NCSS, SPSS, Statistica v.5.x, 6.0, SYSTAT критерий χ 2 вычисляется в рамках процедуры Crosstabs, что требует табуляции данных из файла. Это не всегда удобно – например, при сравнении более чем двух параметров. Часть программ при этом сообщает об ограничениях, которым должны удовлетворять частоты, получаемые в ячейках. В отличие от программ сравнения биномиальных коэффициентов (метод IIa), при применения критерия χ 2 не используются альтернативные односторонние гипотезы р 1 < р 2 или р 1 > р 2 . Проверяется нулевая гипотеза о совпадении (однородности) распределений против альтернативной о том, что они различны. Поэтому в результатах вычислений по Примеру 8 и Примеру 9 с помощью программы NCSS, приведенных выше, последние столбцы в таблице раздела проверки гипотез (Hypothesis Test Section), озаглавленные Yates Chi-Square Test , содержат результаты вычислений только в первой строке. В программе chi_sq_ru.stb (приложение к Statistica v 5.x). Входнаяинформация – таблица 1-я выборка 2-я выборка … k-я выборка Количество случаев x 1 Количество случаев x 2 … Количество случаев x k Количество не случаев n 1 - х 1 Количество не случаев n 2 - х 2 … Количество не случаев n k - х k Выходнаяинформация: Оценки параметров распределений р 1 , р 2 .,…, р k ; Значения статистик парных сравнений и соответствующие им р-значения. Значение статистики сравнения всей совокупности столбцов и соответствующее ему р-значение. Сообщения о возможности применения метода для статистических выводов в предлагаемой задаче: 1) Критерий хи-квадрат неадекватен (ожидаемые значения малы) 2) Критерий хи-квадрат применим (ограничения выполнены) 66 Пример 8. (данные РГМДР по Северо-Западному региону РФ) Входнаятаблица (Пример 8) 1-е распределение 2-е распределение 3-е распределение Событий 8 6 1 Наблюдений 875 672 501 Выходная таблица Хи-квадрат статистики попарного сравнения столбцов. Критическое значение 3.84 на уровне 0.05 Критерийхи-квадратнеадекватен (ожидаемыезначениямалы) Выборочные значения статистики 1-е распределение 2-е распределение 3-е распределение 1 0.002 2.504 2 2.325 3 Частоты для столбцов входной таблицы 1-е распределение 2-е распределение 3-е распределение р на 1 наблюд. 0.0091 0.0089 0.002 Вывод: значимых отличий в уровне смертности ликвидаторов СПб 40- 44 лет в 1990, 1995 и 2000 гг. не обнаружено. Требуемые ограничения (наблюдений более 50, случаев в каждом столбце более 5) выполнены не везде, поэтому для корректного сравнения уровней смертности требуются дополнительные вычисления. Выходнаятаблица (Пример 9) Хи-квадрат статистики попарного сравнения столбцов. Критическое значение 3.84 на уровне 0.05 Критерийхи-квадратприменим (ограничениявыполнены) Выборочные значения статистики 1-е распределение 2-е распределение 3-е распределение 1 0.485 0.552 2 2.245 3 Частоты для столбцов входной таблицы 1-е распределение 2-е распределение 3-е распределение р на 1 наблюд. 0.0077 0.010 0.0053 67 Вывод: не обнаружено значимых на уровне 0.05 отличий в уровне смертности ликвидаторов СПб 40-49 лет в 1990, 1995 и 2000 гг. Если каждая из выборок, параметры которых мы должны сравнить, соответствует уровню какого-либо фактора (территория, пол, возраст, прием лекарств и т.д.), и вычисленные параметры p i для разных уровней фактора (выборок) отличаются, то можно говорить о связи фактора и события А. Например, связь ИБС с курением, возрастом, избыточной массой тела. Одной из наиболее известных характеристик связи является риск. 3.4. Риски Риском называется вероятность возникновения неблагоприятного исхода, и, как всякая вероятность, она принимает значения в интервале от 0 (риск отсутствует) до 1 (неблагоприятный исход наступит наверняка). В качестве неблагоприятного исхода может рассматриваться болезнь, смерть, определенное осложнение и т.д. В исследованиях, как правило, встает вопрос оценки риска неблагоприятного исхода в связи с каким-либо фактором. В качестве меры воздействия фактора на частоту (риск) возникновения события используют относительный риск, атрибутивный (абсолютный) риск или отношение шансов. Относительный риск (relative risk, RR) – это отношение частоты события в той части выборки, где фактор действует, к частоте в части выборки, где фактор не действует. Часть выборки, на которой действует фактор, называется «экспонированной» данным фактором. Относительный риск оценивают, чтобы проверить, существует ли мультипликативное взаимодействие между фактором и событием. Если оценка относительного риска статистически не отличается от 1 (на выбранномуровнезначимостиα), то гипотеза о наличии мультипликативного взаимодействия отвергается. Атрибутивный риск (attributable risk, AR) – это разность частот события в экспонированной и не экспонированной фактором риска частях выборки. Атрибутивный риск можно вычислить по отношению к группе риска или всей популяции и выразить как в абсолютных числах, так и в процентах. Атрибутивный риск предназначен для измерения аддитивного взаимодействия между фактором и событием. Если оценка AR статистически не отличается от 0, то гипотеза о наличии аддитивного взаимодействия отвергается. 68 Отношение шансов. (odds ratio, OR) Шансы события – это отношение числа случаев появления события в выборке к числу случаев его непоявления (к числу «не-случаев»). Например, если исследуемое событие – наличие ИБС, то шансы этого события в выборке – это отношение количества наблюдаемых, у которых есть это заболевание, к количеству наблюдаемых, у которых его нет. Отношение шансов – это шансы события в экспонированной фактором части выборки, деленные на шансы события в неэкспонированной части. Если для сравнения частот событий используется вычисление рисков, то приведенные на схеме 5 типы задач I и II изменяются в блоках, где определены проверяемые гипотезы (Схема 6). Схема 6. Основные типы задач проверки рисков Относительный риск RR (relative risk) – это отношение 1 2 p p . Если подходить чисто алгебраически, то равенство 1 2 p p =1 (RR=1) эквивалентно равенствам р 1 = р 2 или р 2 – р 1 =0 (AR=0). Однако, с точки зрения статистики, при проверке каждого из этих равенств, являющихся символическими записями статистических гипотез, используется различная техника вычислений. Поэтому и статистические выводы можно получить разные. Например, RR статистически отличен от 1, а гипотеза Н 0 : AR = 0 не отвергается. Тип II: выборка - выборка Тип I: популяция - выборка Проверкагипотез: Р / Р 0 = 1 ? Р / Р 0 < > 1 ? Проверкагипотез: Р 1 – Р 2 = 0 ? Р 1 – Р 2 < > 0 ? Проверкагипотез: Р 0 - Р = 0 ? Р 0 – Р < > 0 ? Проверкагипотез: Р 2 / Р 1 = 1 ? Р 2 / Р 1 < > 1 ? Проверкагипотез: Р / (1-Р) : Р 0 / (1- Р 0 ) = 1? Р / (1-Р) : Р 0 / (1- Р 0 ) < > 1? Проверкагипотез: Р 2 / (1- Р 2 ) : Р 1 / (1- Р 1 ) = 1 ? Р 2 / (1- Р 2 ) : Р 1 / (1- Р 1 ) < > 1? АR RR OR 69 ( в). Вычислениеотносительныхрисков При анализе таблиц 2х2 можно вычислить относительный риск появления события при уровне изучаемого фактора F 2 по сравнению с уровнем F 1 (в выборке F 2 по сравнению с выборкой F 1 ). Термином «относительный риск» могут быть обозначены три различных (но близких по смыслу) понятия. Все они вычисляются как отношения, используя следующие формулы. Уровниизучаемогофактора F илиназваниявыборок F 1 F 2 Событий a 1 a 2 Наблюдений c 1 c 2 Относительныйриск R 21 для таблицы 2х2: 1 2 1 2 p p R = , где p i могут быть (1) пропорциями (частотой), (2) уровнями или (3) шансами осуществления события. Пропорции и уровни p i вычисляются по одной формуле: i i i c a p = (3.1), где a i - число «случаев», c i - число «наблюдений» (для пропорций) или «человеко-годы наблюдения» (для уровней). Чаще всего мы имеем дело с пропорциями, поэтому в заголовке второй строки таблицы стоит слово «наблюдения». В дальнейшем, если не оговорено противное, символом p i будет обозначаться пропорция. Для пропорций и уровней относительный риск обычно обозначается символом RR (relative risk). В табличных обозначениях относительный риск события записывается как 1 2 1 2 21 a c c a R RR × × = = (3.2) Шансысобытия (заболевания, смерти и т.д.) определяются как отношение числа «случаев» к числу «не случаев». pH i = a i / (c i – a i ) = p i / (1 – p i ) (3.3) При сравнении шансов осуществления события в двух выборках 70 относительный риск – это отношение шансов (odds ratio). Он обычно обозначается символом ОR. В табличных обозначениях отношение шансов записывается как 1 2 2 1 1 2 21 ) ( ) ( a a c a c a R ОR × − − × = = (3.4) Риск имеет асимптотически логнормальное распределение, поэтому уровни значимости определяются для проверки гипотезы Н 0 : lnR = 0 ( R = 1 ). Способ вычисления стандартной ошибки SE(p i ) зависит от содержания таблицы. (в.1) Если строка «наблюдений» означает количество объектов наблюдения, для которых некоторое «событие» обязательно должно или осуществиться, или не осуществиться, причем осуществиться оно может только один раз (например, а i – количество умерших, с i – общая численность наблюдаемых), то p i – пропорция (частота) по содержанию, распределение числа событий моделируется биномиальным распределением, и i i i c a p = , i i i c p p ) 1 ( ) SE(p i − × = Доверительный интервал для относительного риска приведен в Приложении (риски, формула (I)). (в.2) Если в строке «наблюдений» - человеко-годы наблюдения за период (общее время под риском), тогда p i – уровеньпо содержанию. В этом случае распределение числа событий моделируется распределением Пуассона, i i i c a p = , i i i i a p p S p SE = = ) ( ) ( Доверительный интервал для относительного риска как отношения уровней (Приложение, риски, формула (II)) несколько шире, чем в предыдущем случае. (в.3) При вычислении OR – отношения шансов - в строке «наблюдений» количество объектов наблюдения. Шансы используются при исследованиях «случай – контроль» или при изучении редких событий. Вместо частоты p i в этом случае вычисляются шансы (осуществления события в группе): pH i = a i / (c i – a i ), pH i = p i / (1 – p i ) 71 Это выражение называется логитом p i Доверительный интервал для отношения шансов (Приложение, риски, формула (III)) шире, чем для относительных рисков в обоих случаях. Стандартные программные средства позволяют вычислить отношение шансов (OR). Эти вычисления реализованы в следующих программах. NCSS → → → → NCSS Navigator → → → → NCSS – Data Analysis, … → → → → Test of Frequencies and Proportions → → → → Two Proportions Test. Для Примера 10: сравнение доли умерших среди ликвидаторов Калининградской области и СПб. Калининградская обл. Ленинградская обл. Санкт-Петербург Умерли 280 359 533 Наблюдались 1564 2321 4765 Two Proportions Power Analysis Numeric Results Null Hypothesis: P1=P2 Alternative Hypothesis: P1<>P2. Continuity Correction Used. Power N1 N2 Allocation Ratio P1 P2 Odds Ratio Alpha Beta 0.80000 4765 1564 0.328 0.112 0.179 1.729 0.000 0.200 Summary Statements Group sample sizes of 4765 and 1564 achieve 80% power to detect a difference of 0.067 between the null hypothesis that both group proportions are 0.112 and the alternative hypothesis that the proportion in group 2 is 0.179 using a two-sided Chi-square test with continuity correction and with a significance level of 0.00000. Науровнезначимостиα < 0.00001 отвергаетсянулеваягипотеза, т.е. отношениешансов OR=1.729 наэтомуровнеотличаетсяот 1. SPSS → → → → Analyze → → → → Descriptive Statistics → → → → Crosstabs …, далее определить флажок Risk в опции Statistics ... Риски определяются для категорий первой переменной (переменная по строкам), в зависимости от категорий второй переменной (переменная по столбцам). Для того, чтобы вычисления рисков в этой программе было возможно, и переменная строки, и переменная столбца должны иметь 2 возможных значения, т.е. результат табуляции – таблица 2 ×2. 72 Пример 11. Зависимость актуальной ригидности и стажа работы у пожарных. (Данные Т.И.Шевченко, НИС Медицинский регистр). Проведено тестирование в пожарных частях СПб по опроснику ТОРЗ Залевского. Исследуется связь возраста, стажа работы и ригидности по основным шкалам. В соответствии с методикой для каждого испытуемого получены уровни актуальной ригидности (АР): низкий, умеренный и высокий. Далее приведена таблица распределения по уровням актуальной ригидности пожарных двух групп по стажу работы: «2.5 – 5 лет» и «более 5 лет». АР_ * Гр_стаж_ Crosstabulation Группа стажа Всего более 5 лет 2.5 - 5 лет АР высокая 14 3 17 низкая и умеренная 25 29 54 Total 39 32 71 Risk Estimate Value 95% Confidence Interval Lower Upper Odds Ratio for АР_ (высокая/ низкая и умеренная) 5.413 1.394 21.025 N of Valid Cases 71 OR – отношение шансов иметь АР высокого уровня при стаже свыше 5 лет увеличивается более чем в 5 раз по сравнению с группой по стажу «2.5 – 5 лет», и этот показатель статистически значим на уровне 0.05 (95% доверительный интервал не включает 1). SYSTAT → → → → Statistics → → → → Tables → → → → Crosstabs …,→ → → → Two-Way Tables далее определить флажок Odds Ratio в опции Statistics ... Риски определяются для категорий первой переменной (переменная по строкам), в зависимости от категорий второй переменной (переменная по столбцам). Как и в программе SPSS, и переменная строки, и переменная столбца должны иметь 2 возможных значения, результат табуляции – таблица 2 ×2. Для Примера 11. |