Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Скачать 2.36 Mb.
|
(t i ) 35-44 0.287 45-54 0.448 55-64 0.209 65+ 0.056 Для таких возрастных групп стандартные ошибки стандартизованных показателей смертности становятся уже приемлемыми. Территория 2000 2001 2002 2003 2004 Стандартизованныйпоказательсмертности СПб 8.37 9.27 9.16 8.63 6.78 Ленобласть 17.80 21.46 27.13 31.53 25.96 Стандартная ошибка стандартизованного показателясмертности СПб 2.27 1.81 1.84 1.66 1.52 Ленобласть 6.61 6.47 3.31 5.55 5.69 96 Сравнительныйиндексстандартизованных показателейсмертности 2000 2001 2002 2003 2004 CMI 2.1 2.3 3.0 3.7 3.8 Рис. П14-2. Стандартизованные показатели смертности ликвидаторов Заметим, что прямая стандартизация не позволяет вычислить ошибки сравнительных индексов стандартизованных показателей, поскольку приведенные выше формулы применимы только в задаче сравнения со стандартной популяцией. Поэтому для оценки кратности превышения объединенных показателей смертности следует использовать методику вычисления объединенных рисков Мантеля- Ханзела. Эта методика вполне адекватна для данного примера. Объединенные риски были рассчитаны с учетом всех исходных возрастных групп. 97 Вычисление объединенных рисков (NCSS) Методы Оценки 2000 г. 2001 г. 2002 г. 2003 г. 2004 г. Мантеля - Ханзела Оценка отношения шансов 2.21 1.87 2.42 2.87 4.06 Робинса 95.0% доверит . интервал Нижняя граница 1.30 1.13 1.52 1.83 2.56 Верхняя граница 3.75 3.10 3.84 4.50 6.43 Тест однородности Вульфа р -значение 0.690 0.795 0.795 0.626 0.143 Рис. П14-3. Сравнение показателей смертности с помощью объединенного отношения шансов Таким образом, оба метода показывают существенное превышение уровней смертности ликвидаторов Ленобласти, по сравнению с ликвидаторами СПб, в 2000 – 2004 гг. Непрямая стандартизация Используется, если 1) неизвестны групповые уровни в исследуемой популяции, или 2) величина исследуемой популяции мала и, вследствие этого, количество случаев в каждой группе мешающего параметра мало, что приводит к большой выборочной ошибке. 98 ∑ = = k i i i ст н n P rP p 1 (4.11) В знаменателе – ожидаемое в соответствии со стандартными групповыми уровнями количество случаев в исследуемой популяции. В числителе – реальное число случаев, умноженное на стандартный уровень. Стандартная ошибка непрямого стандартизованного уровня Ст.ош.(р н.ст. ) = ∑ ∑ = = k i i i k i i i i n P q p n P 1 2 1 2 ) ( (4.12) При малых p i можно использовать приближенное выражение r p r уровень стандартиз ст н н.ст. ) Ст.ош.(р = ≈ (4.13) Стандартизованное отношение первичной заболеваемости – SIR. Вычисляется аналогично стандартизованному отношению смертности SMR: SMR = ∑ = k i i i n P r 1 (4.14) Стандартная ошибка стандартизованного отношения Ст.ош.(SMR) = r SMR n P q p n k i i i k i i i i ≈ ∑ ∑ = = 1 2 1 ) ( (4.15) - приближенная формула для малых значений p i Другие методы стандартизации существуют в большом количестве, но применяются достаточно редко. 99 ГЛАВА 5. ЛОГИСТИЧЕСКАЯРЕГРЕССИЯ: ОЦЕНКА ВЛИЯНИЯНЕСКОЛЬКИХФАКТОРОВНА РЕЗУЛЬТИРУЮЩИЙДИСКРЕТНЫЙПОКАЗАТЕЛЬ 5.1. Логистическаярегрессиядлябинарногоотклика. Часто в исследованиях встает вопрос оценки частот благоприятного и неблагоприятного исходов (бинарного отклика) в связи с несколькими факторами, часть из которых является дискретными переменными, остальные – непрерывными переменными. Для такой оценки применяется логистическая регрессия. В качестве меры воздействия фактора на частоту возникновения события логистическая регрессия использует отношение шансов. Логистическая регрессия аналогична обычной множественной регрессии, за исключением того, что зависимая переменная (Y) является бинарной (т.е. имеет два значения, 0 и 1), а не непрерывной. Этот метод конкурирует с дискриминантным анализом как способом анализа переменной, задающей бинарный отклик. Вообще для анализа такого отклика, если независимые переменные непрерывны, могут использоваться и дискриминантный анализ, и логистическая регрессия. Дискриминантный анализ является оптимальным методом анализа бинарного отклика в случае, когда выполнены основные условия его применения: данные получены из двух многомерных нормальных распределений с равными ковариационными матрицами. Если же какие- то из условий не выполнены, а это очевидным образом случится, если некоторые независимые переменные являются дискретными, а не непрерывными, данный метод уже не будет оптимальным, более того, он станет неадекватным исследуемым данным. В этом случае как раз применима логистическая регрессия. Для этого метода несущественно, являются ли независимые переменные дискретными или непрерывными, выполнены ли условия нормальности, каковы дисперсии переменных. Конечно, вычисления происходят намного медленнее, чем в дисперсионном анализе и регрессионном анализе. Замедление ощутимо при больших объемах выборок и большом количестве переменных. Именно это обстоятельство препятствовало использованию метода в прошлом, однако при нынешнем развитии компьютерных технологий уже не является существенным ограничением. Линейная логистическая модель для зависимой переменной Y, имеющей два значения (y 1 =0 и y 2 =1), и независимых переменных X 1 , … 100 , X p произвольной природы имеет вид: вероятность (Prob) того, что Y принимает значение y 2 , (5.1) Здесь {β i } – логистические регрессионные коэффициенты. Их оценки обозначаются {b i }. Вероятность второго исхода Prob (Y = 0) = 1 – Prob (Y = 1). Эта модель может быть записана линейным образом с использованием логарифмирования отношения вероятностей двух исходов: (5.2) Левая часть этого выражения называется логит-преобразованием вероятности или еще логарифмом отношения шансов. 5.2. Логитилогистическоепреобразование В множественной регрессии набор объясняющих переменных используется для того, чтобы предсказать среднее значение зависимой переменной. В логистической регрессии объясняющие переменные используются для предсказания логита зависимой переменной. Пусть бинарная зависимая переменная имеет значения 0 (отрицательный отклик) и 1 (положительный отклик). Тогда среднее значение этой переменной – это доля положительных откликов, и оно совпадает с вероятностью положительных откликов (1). Обозначим ее р. Тогда 1–р – вероятность отрицательного отклика (0). Отношение р/(1-р), называемое шансамисобытия, - это отношение вероятности осуществления события к вероятности его неосуществления. Шансы события являются одной из возможных характеристик распространенности явления, наряду с его вероятностью, но в отличие от нее могут иметь значения от 0 до бесконечности (границы максимальных значений нет). По шансам события можно вычислить его вероятность, а по вероятности – шансы. Для редких событий эти характеристики близки по величине. Логитом называется логарифм шансов. Это преобразование удобно для моделирования линейной комбинации объясняющих переменных, поскольку может иметь любое числовое значение. (5.3) 101 В таблице приведены значения шансов и логитов для различных значений р. P P/(1-P) Logit(P) P P/(1-P) Logit(P) 0.001 0.001 -6.907 0.999 999.0 6.907 0.01 0.010 -4.595 0.99 99.0 4.595 0.05 0.053 -2.944 0.95 19.0 2.944 0.10 0.111 -2.197 0.90 9.0 2.197 0.20 0.250 -1.386 0.80 4.0 1.386 0.30 0.429 -0.847 0.70 2.3 0.847 0.40 0.667 -0.405 0.60 1.5 0.405 0.50 1.000 0.000 Рис. 5.1. График функции l=logit(р) Логистическое преобразование является обратным к логит- преобразованию и позволяет определить значение р по значению l. (5.4) Логарифм отношения шансов Для сравнения двух пропорций (например, частоты положительного отклика для разных полов – мужского и женского) используется разница между двумя логарифмами шансов (глава 3, п.3.4). 102 l 1 – l 2 = logit(p 1 ) – logit(p 2 ) =(после преобразований) ln(OR 12 ) Эта разность обычно называется логарифмом отношения шансов. Отношение шансов используют для сравнения пропорций в разных группах. Заметим, что логистическое преобразование тесно связано с отношением шансов. Обратное преобразование (5.5) 5.3. Логистическаярегрессия – общиеуравнения В общем виде рассматривают множественнуюлогистическую регрессию для описания дискретной зависимой переменной с конечным числом (2 и более) значений. Множественная логистическая регрессия представляет дискретную переменную Y, имеющую G (G ≥ 2) значений {Y 1 , Y 2 ,…,Y G } через набор из р независимых переменных X 1 , X 2 , …, X p Заметим, что при применении логистической регрессии не предполагается какое-либо упорядочение значений зависимой переменной, Y используется как номинальная переменная. Одно из ее значений используется для определения базовой или референтной группы, а все остальные выступают равноправно как метки опытных или исследуемых групп. Разница между множественной логистической регрессией и логистической регрессией для бинарного отклика – чисто техническая, определяемая числом групп G. Однако в тех случаях, когда исследователь может выбирать между применением нескольких бинарных и полиномиальной зависимой переменной, следует остановить свой выбор именно на бинарных переменных, поскольку интерпретация полученных результатов будет проще. В частности, независимые переменные, необходимые для описания одной группы, могут оказаться излишними при описании другой. А при использовании множественной логистической регрессии они все должны быть включены в уравнения. Обозначим набор независимых переменных Х = (Х 1 , Х 2 , … , Х р ), а набор соответствующих всем значениям зависимой переменной параметров β обозначим Если для бинарной зависимой переменной логистическая модель задается одним уравнением, то в общем случае для этого требуется G-1 уравнение - по количеству значений зависимой переменной минус 1 – 103 из-за использования одной из групп, обычно первой, в качестве референтной. Необходимость референтной группы связана с тем, что логистическая модель описывает не вероятности, а отношения вероятностей принадлежности к группам: (5.6) p g – это вероятность того, что наблюдение, для которого независимые переменные имеют значения X 1 , X 2 , …, X p , относится к группе g, т.е. зависимая переменная Y принимает значение Y g p g = Prob(Y = Y g | X) Обычно в модель включено пересечение, или свободный член, но это не обязательно. Величины Р 1 , Р 2 , … , Р G - это априорные вероятности групп. Референтной (reference) называется первая по порядку группа в уравнениях. Выбор референтной группы произвольный, но осмысленный. Обычно это наибольшая группа или контрольная группа, с которой сравниваются все остальные группы. {β ij } – это множество регрессионных коэффициентов (неизвестных), которые требуется оценить по имеющимся данным. Эти оценки обозначаются {b ij }. Оценки максимального правдоподобия параметров {β ij } получаются с помощью нахождения точки экстремума логарифма отношения правдоподобия. Формулы приведены в Приложении. Там же описаны основные статистики, применяемые для оценки результатов применения логистической регрессии. 5.4. Интерпретациярегрессионныхкоэффициентов Интерпретация полученных оценок не так проста, как для случая множественной регрессии. Рассмотрим простой случай бинарной зависимой переменной Y и единственной независимой переменной Х. Пусть Y имеет значения 0 и 1. Тогда уравнение логистической регрессии (5.6) имеет вид (5.7) Соответственно, мы получим, что изменение логарифма шансов события (левая часть уравнения) при увеличении независимой переменной Х на 1 как раз и составит β 1 104 Если независимых переменных более одной, то такая интерпретация каждого коэффициента сохраняется, - имея в виду, что увеличивается на 1 только соответствующая переменная, а остальные переменные не меняются. Бинарная переменная Х Если Х имеет только два значения, 0 и 1, то последняя формула дает простую интерпретацию коэффициента β 1 как логарифма отношения шансов: (5.8) Если зависимая переменная имеет более двух значений, то модель определяется большим, чем одно, числом уравнений. Для каждого из них в отдельности интерпретация коэффициентов такая же, как для случая бинарного отклика. 5.5. Применениеметодалогистическойрегрессиидляанализа данныхвстатистическихпрограммах Пример 15(1) – данные НРЭР Северо-Запада. Данные НРЭР о ликвидаторах Северо-Запада включают информацию о их возрасте, времени и продолжительности участия в аварийно- восстановительных работах, месте постоянного проживания, полученной дозе внешнего облучения. Будет изучаться влияние этих факторов на статус ИНД_ИБС: нет ИБС(0) – есть ИБС(1) у ликвидаторов на момент исследования (2007 год). На первом этапе выбраны непрерывные числовые переменные: доза - DOSE, год рождения - Y_BIRTH, день начала работ (в днях после аварии) - moment, продолжительность работ (дней) - srok_days. В качестве модели рассматривается сумма факторов без взаимодействий, в качестве наблюдаемых – все находившиеся под наблюдением к началу 2007 года ликвидаторы Северо-Запада (не снятые с наблюдения по причине смерти, переезда и т.д.), у которых указаны значения всех независимых переменных. Программа NCSS В результате проведения логистического анализа получены следующие результаты. Model R-Squared 0.112 105 Раздел анализаотклика (Response Analysis Section) ИНД _ИБС Unique Act vs Pred % Correctly Categories Count Rows Prior R-Squared Classified Нет ИБС 2588 2575 0.500 0.143 64.915 есть ИБС 2082 2075 0.500 0.143 65.658 Total 4670 4650 65.246 В данном разделе описано исходное распределение зависимой переменной (Count), количество различных комбинаций независимых переменных в каждой категории зависимой переменной (Unique Rows), выбранные априорные вероятности для каждой категории (Prior), R 2 для регрессии зависимой переменной с предсказанной вероятностью принадлежности к категории (Act vs Pred R-Squared), % наблюдений, правильно классифицированных с помощью построенной логистической модели, в каждой категории и в целом (% Correctly Classified) Раздел проверкизначимостипараметров (Parameter Significance Tests Section). (Поотношениюкреферентнойгруппе - Reference Group: ИНД_ИБС = 0) Parameter Regression Coefficient (B or Beta) Standard Error Wald Z- Value (Beta=0) Wald Prob Level Odds Ratio Exp(B) B0: Intercept 247.528 10.687 23.163 0.000 10000+ B1: DOSE 0.006 0.004 1.552 0.121 1.007 B2: moment -0.001 0.000 -3.914 0.000 0.999 B4: Y_BIRTH -0.127 0.005 -23.150 0.000 0.881 B3: srok_days 0.000 0.000 -0.123 0.902 1.000 Список параметров (Parameter) включает все независимые непрерывные переменные в исходном виде. Заметим, что для дискретных переменных, если они участвуют в анализе, генерируются бинарные переменные по числу возможных значений, и каждая из созданных бинарных переменных включается в список параметров. В текущем анализе дискретных независимых переменных нет. Регрессионные коэффициенты (Regression Coefficient) представляют собой оценки соответствующих коэффициентов регрессии. Стандартные ошибки (Standard Error) регрессионных коэффициентов адекватны для больших выборок. Z-значение теста Вальда (Wald Z-Value) для проверки гипотезы о равенстве 0 регрессионного коэффициента (Beta=0). Используется для больших выборок. Для малых выборок следует использовать критерий отклонений. Уровень значимости критерия Вальда (Wald Prob Level). Переменная статистически значима, если этот уровень меньше заданной величины (обычно 0.05). В данном примере значимыми для описания переменной «ИНД_ИБС» являются переменные «год рождения» - Y_BIRTH и «день начала работ 106 (в днях после аварии)» - moment, а влияние переменных «доза» и «продолжительность работ» статистически незначимо. Отношение шансов (Odds Ratio) – это оценка отношения шансов, связанная с данным регрессионным коэффициентом. Она полезна только для бинарных независимых переменных со значениями 0 и 1. Для других дискретных переменных (у которых количество значений более двух) генерируются соответствующее количество бинарных переменных. Формула для вычисления отношения шансов в этом случае OR = e b Для непрерывных независимых переменных OR не имеет особого смысла. Раздел «доверительныеинтервалыдляпараметров» (Parameter Confidence Limits Section) (Reference Group: ИНД_ИБС = 0 «нетИБС |