Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Скачать 2.36 Mb.
|
F 1 соответствует экспонированности 166 изучаемым фактором (есть влияние фактора F), F 2 – отсутствие влияния фактора F. Если уровней более двух, то самый высокий уровень экспонированности обозначается F 1 , и далее в порядке убывания. Уровнисвязанного фактора U Содержание таблиц Уровниизучаемогофактора F F 1 F 2 U 1 Событий a 11 a 12 Наблюдений c 11 c 12 U 2 Событий a 21 a 22 Наблюдений c 21 c 22 … U K Событий a K1 a K2 Наблюдений c K1 c K2 Каждому уровню i фактора U: U 1 , U 2 , …, U K , - соответствует таблица Т i Таблица Т i : Статистика (риск) Мантеля-Ханзела для сравнения уровней факторов F 1 и F 2 вычисляется по формуле: ∑ ∑ = = − × − × = K i i i i K i i i i MH i n a c a i n a c a R 1 1 1 2 1 2 2 1 ) ( ) ( ) ( ) ( Для проверки гипотезы Н 0 : R MH =1 (все составляющие риски OR(i)=1 против альтернативной гипотезы Н 1 : хотя бы один из этих рисков отличен от 1) используется статистика m l mhcc в 2 2 2 ) 5 0 ( − = = χ χ , где ∑ = × − × = K i i i i i i n c a c a l 1 1 2 2 1 ) ( , a i1 a i2 c i1 ci 2 167 ∑ = − × × × − + − × + = K i i i i i i i i i i n i n c c a c a c a a m 1 2 2 1 2 2 1 1 2 1 ) 1 ) ( ( ) ( ) ( ) ( Эта статистика аппроксимируется распределением χ 2 (1). Она называется статистикой Мантеля-Ханзела с поправкой на непрерывность ( χ 2 mhcc ), в отличие от статистики Мантеля-Ханзела χ 2 mh , которая отличается от χ 2 mhcc отсутствием поправки на непрерывность 0.5: m l mh в 2 2 2 = = χ χ 95% доверительныйинтервалдля R mh (а) На основе статистики Мантеля-Ханзела χ 2 mh )] ln( ) 1 exp[( 2 2 / , mh mh нижн mh R z R × − = χ α )] ln( ) 1 exp[( 2 2 / , mh mh верхн mh R z R × + = χ α , где α – уровень значимости, в данном случае 0.05, z α/2 – соответствующая процентная точка стандартного нормального распределения. (b) С учетом поправки на непрерывность доверительный интервал имеет вид: )] ln( ) 1 exp[( 2 2 / , mh mhcc нижн mh с R z R × − = χ α )] ln( ) 1 exp[( 2 2 / , mh mhcc верхн mh с R z R × + = χ α (c) Вычисление доверительных интервалов методом Робинса. ) ) exp(ln( 2 / , V z R R mh нижн mhR × − = α ) ) exp(ln( 2 / , V z R R mh верхн mhR × − = α , 168 Где ∑ ∑ ∑ ∑ ∑ ∑ ∑ = = = = = = = × × + × × × + × + × × = K i i K i i i K i K i i i K i i i i i K i i K i i i S S Q S R R Q S P R R P V 1 2 1 1 1 1 1 2 1 ) ( 2 2 ) ( ) ( 2 , ) ( ) ( , ) ( 2 2 1 2 2 1 i n a c a R i n a c a P i i i i i i i i − × = − + = , ) ( ) ( , ) ( 1 1 2 1 1 2 i n a c a S i n a c a Q i i i i i i i i − × = − + = Еще один способ вычисления объединенного риска был предложен Вульфом. С помощью объединенного относительного риска Вульфа вначале проверяется взаимодействие факторов U и F (анализ однородности таблиц). Для этого используется критерий χ 2 для статистики, связывающей риски в стратах и объединенный риск Вульфа. Предполагая, что в строке «Наблюдений» у нас количество наблюдений, а не человеко-годы наблюдения, т.е. риск возникновения события оценивается с помощью пропорций или шансов, но не уровней, для каждой из таблиц вычислим следующие величины: 4. Отношение шансов OR(i), или перекрестное произведение. 5. Весовые коэффициенты таблиц для вычисления взвешенного риска W(i). Эти коэффициенты обратно пропорциональны дисперсиям ошибок для каждой таблицы. 6. Объем выборки n(i). Объем вычисляется как сумма числа наблюдений по столбцам: n(i) = c i1 + c i2 Если выполнено следующее условие: ► a i1 >0, a i2 >0, c i1 -a i1 >0, c i2 -a i2 >0, то ) ( ) ( ) ( 2 2 1 1 1 2 i i i i i i a c a a c a i OR − × − × = , 2 2 2 1 1 1 1 1 1 1 ) ( 1 : ) ( i i i i i i a c a a c a i W i W − + + − + = 169 В правой части – квадрат стандартной ошибки логарифма отношения шансов - SE 2 (ln OR(i)), т.е. веса обратно пропорциональны квадратам стандартных ошибок. Если же хотя бы одно из чисел a i1 , a i2 , c i1 - a i1 , c i2 - a i2 равно 0, то все значения в ячейках увеличиваются для вычислений на 0.5 (в некоторых программах допускается увеличение на другое малое число, например, 0.25): ) 5 0 ( ) 5 0 ( ) 5 0 ( ) 5 0 ( ) ( 2 2 1 1 1 2 + − × + + − × + = i i i i i i a c a a c a i OR , 5 0 1 5 0 1 5 0 1 5 0 1 ) ( 1 2 2 2 1 1 1 + − + + + + − + + = i i i i i i a c a a c a i W Для вычисления объединенного взвешенного риска R w (Вульфа) сначала вычисляется логарифм R w как взвешенная комбинация логарифмов рисков OR(i): ∑ ∑ = = × = K i K i w i W i OR i W R 1 1 ) ( ) ( ln ) ( ) ln( Логарифм объединенного риска распределен асимптотически нормально. Стандартная ошибка логарифма объединенного взвешенного риска R w определяется весовыми коэффициентами W(i). ∑ = = K 1 i w W(i) 1 ) ln(R SE Поэтому 95% доверительный интервал для объединенного риска выглядит следующим образом. ]} ) ( 96 1 ) exp[ln( ], ) ( 96 1 ) {exp[ln( 1 1 ∑ ∑ = = + − K i w K i w i W R i W R В некоторых работах (в частности, J.F.Osborn. Basic Statistical Methods for Epidemiological Studies) использование взвешенного риска предполагается в случае, когда для измерения взаимодействия факторов 170 используется относительный риск RR, т.е. используются пропорции или уровни для оценки частоты наблюдаемого явления. Для проверки однородности таблиц используется статистика χ 2 , ее выборочное значение вычисляется как 2 1 2 1 2 ) (ln )) ( ( )) ( (ln ) ( w K i K i в R i W i OR i W × − × = ∑ ∑ = = χ , и она распределена асимптотически как χ 2 (K-1) Стандартизация Группы мешающего параметра Изучаемаяпопуляция Стандартнаяпопуляция Кол-во объектов под риском Кол-во случаев Уровень Кол-во объектов под риском Кол-во случаев Уровень 1 n 1 r 1 p 1 N 1 R 1 P 1 2 n 2 r 1 p 2 N 2 R 2 P 2 … k n k r k p k N k R k P k Всего n r p N R P Прямаястандартизация С использованием обозначений таблицы стандартизованный уровень i k i i ст п p N N p × = ∑ =1 Стандартная ошибка прямого стандартизованного уровня Ст.ош.(р п.ст. ) = ∑ = k i i i i i n N q p N 1 2 2 Сравнительный индекс (CMI для смертности, CII для первичной заболеваемости) 171 CMI = NP N p k i i i ∑ =1 Стандартная ошибка сравнительного индекса (относительного риска) Ст.ош.(CMI) = ∑ = k i i i i i n P q p N 1 2 2 Непрямаястандартизация С использованием обозначений таблицы стандартизованный уровень ∑ = = k i i i ст н n P rP p 1 Стандартная ошибка непрямого стандартизованного уровня Ст.ош.(р н.ст. ) = ∑ ∑ = = k i i i k i i i i n P q p n P 1 2 1 2 ) ( При малых p i можно использовать приближенное выражение r p r уровень стандартиз ст н н.ст. ) Ст.ош.(р = ≈ Стандартизованное отношение смертности SMR: SMR = ∑ = k i i i n P r 1 Стандартная ошибка стандартизованного отношения Ст.ош.(SMR) = r SMR n P q p n k i i i k i i i i ≈ ∑ ∑ = = 1 2 1 ) ( , 172 приближенная формула для малых значений p i Логистическаярегрессия Логистическаярегрессиядлябинарногоотклика Линейная логистическая модель для зависимой переменной Y, имеющей два значения (y 1 =0 и y 2 =1), и независимых переменных X 1 , … , X p произвольной природы имеет вид: вероятность (Prob) того, что Y принимает значение 1, Здесь {β i } – логистические регрессионные коэффициенты. Их оценки обозначаются {b i }. Поскольку Prob (Y = 0) = 1 – Prob (Y = 1), эта модель может быть записана также и следующим – линейным – образом: Левая часть этого выражения называется логит-преобразованием вероятности или еще логарифмомотношенияшансов. Обозначим Prob(Y=1) = р. Тогда 1-р – вероятность отрицательного отклика (Y=0). Отношение р/(1-р) есть шансы события, а логитом называется логарифм шансов. Логистическое преобразование является обратным к логит- преобразованию и позволяет определить значение р по значению l. Общаялогистическаярегрессияилогит-модели В общем виде рассматривают множественную логистическую регрессию для описания дискретной зависимой переменной с конечным числом (2 и более) значений. Множественная логистическая регрессия представляет дискретную переменную Y, имеющую G (G ≥ 2) значений{Y 1 , Y 2 ,…,Y G } через набор из р независимых переменных X 1 , X 2 , …, X p Обозначим множество независимых переменных Х = (Х 1 , Х 2 , … , Х р ), а наборы соответствующих всем значениям зависимой переменной параметров β обозначим 173 Логистическая регрессионная модель определяется фактически G- 1 уравнением (g = 2,…, G): (1) p g – это вероятность того, что наблюдение, для которого независимые переменные имеют значения X 1 , X 2 , …, X p ,, относится к группе g, т.е. зависимая переменная Y принимает значение Y g p g = Prob(Y = Y g | X) Обычно Х 1 ≡ 1 (т.е. в модель включено пересечение, или свободный член), но это не обязательно. Величины Р 1 , Р 2 , … , Р G - это априорные вероятности групп. Если они предполагаются равными, тогда первый член в уравнениях ln(P g /P 1 ) равен 0 и исключается из уравнения. Если эти вероятности не предполагаются равными, они изменяют значения свободного члена в логистическом регрессионном уравнении. Первая группа называется референтной (reference). Выбор референтной группы произвольный. Обычно это наибольшая группа или контрольная группа, с которой сравниваются все остальные группы. Регрессионные коэффициенты β 11 , β 12 ,…, β 1р для референтной группы равны 0. {β ij } – это множество регрессионных коэффициентов (неизвестных), которые требуется оценить по имеющимся данным. Эти оценки обозначаются {b ij } Уравнения (1) линейны относительно логитов р. Но в терминах вероятностей они не являются линейными. Эта форма уравнений выглядит следующим образом В этом уравнении учтено, что =1, поскольку все регрессионные коэффициенты здесь нулевые. Решениеуравненийправдоподобия 174 Перепишем уравнения (2) в виде Тогда для выборки из N наблюдений отношение правдоподобия имеет вид Здесь y gj равно 1, если j–е наблюдение относится к группе g, и 0 в противном случае. Оценки максимального правдоподобия параметров {β ij } получаются с помощью нахождения точки экстремума логарифма этого выражения. Решение системы получившихся уравнений производится итерационным методом Ньютона – Рапсона. Статистическиекритерииидоверительныеинтервалы Для проверки значимости одной и более независимых переменных в логистической регрессии используются две процедуры: тест отношения правдоподобия и тест Вальда. Как правило, первая процедура более адекватна. Тест Вальда используется, в основном, из-за простоты вычислений. Отношениеправдоподобияиотклонение (deviance) Статистика теста отношения правдоподобия (LR) представляет собой разность отношений правдоподобия для двух моделей (полной и частичной), умноженную на число (-2) для того, чтобы распределение статистики аппроксимировалось распределением χ 2 LR = -2[Lчастичн. – Lполная] Отклонение (D) – это статистика LR для случая, когда полная модель является насыщенной (включает члены всех порядков). ∆D - изменение отклонения из-за включения или исключения одной или нескольких переменных, - в логистической регрессии используется так же, как F-статистика в множественной регрессии. Оно распределено асимптотически как χ 2 . Используется для тестирования значимости регрессионных коэффициентов, связанных с отдельной независимой переменной. 175 Статистика Вальда используется для проверки значимости отдельных регрессионных коэффициентов. Формула для статистики Вальда: z j = b j / s bj , где s bj – оценка стандартной ошибки b j , она задается корнем квадратным из соответствующего диагонального элемента ковариационной матрицы V(βH). При больших объемах выборки эта статистика хорошо аппроксимируется нормальным распределением, при малых или средних объемах – «адекватно». Доверительныеинтервалы Доверительные интервалы для регрессионных коэффициентов основаны на статистике Вальда. Формула для границ 100(1-α)% двустороннего доверительного интервала b j ± |z α/2 | s bj R 2 R L 2 = (L p -L 0 )/(L 0 -L S ), где L 0 – логарифм правдоподобия для модели, в которую включен только свободный член, L p – логарифм правдоподобия для модели, включающей независимые переменные, и L S – логарифм правдоподобия для насыщенной модели. Введение параметра L S необходимо для того, чтобы величина R L 2 была в пределах от 0 до 1, поскольку L p варьируется в пределах от L 0 до L S , однако это вносит некоторую неясность в данную характеристику, поскольку величина L S зависит от конфигурации независимых переменных. Если R L 2 = 1, это означает лишь, что получена максимально возможная подгонка данных при использовании выбранных независимых переменных. R 2 в логистической регрессии меняется в зависимости от того, какие переменные были включены в насыщенную модель. Поэтому ряд исследователей предлагает отказаться от этого показателя при оценке качества модели. Анализостатков Анализ остатков позволяет найти выбросы, определить соответствие данным выбранной логистической модели. Для анализа остатков используются: остатки Пирсона, остатки отклонения, диагональ матрицы h. |