Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Скачать 2.36 Mb.
|
Statistica v.5.x, 6.0 непосредственно риски не вычисляются. Более сложным образом их можно оценить с помощью модуля «Обобщенные линейные модели – логистическая регрессия». Для примера 11 результирующая таблица с оценкой OR имеет следующий вид. Model: Logistic regression (logit) N of 0's:54 1's:17 Dep. var: АР Loss: Max likelihood Final loss: 35.416 Chi 2 (1)=7.328 p=.0068 Группапостажу Estimate 1.689 Odds ratio (unit ch) 5.413 Odds ratio (range) 5.413 В программе risks2x2_ru.STB - вычисление рисков для таблиц 2 ×2 - сравнение оценок параметров двух биномиальных распределений – реализованы вычисления всех относительных рисков. Для Примера 11. Выходнаятаблица Относительный риск RR RR-b RR+b p1 p2 Для уровней (человеко-годы в строке наблюдений) 3.829 1.100 13.324 0.094 0.359 Для пропорций (количество наблюдений) 3.829 1.205 12.166 0.094 0.359 Для шансов – OR (количество наблюдений, редкие события) 5.413 1.502 19.508 0.103 0.560 74 В программе вычисляется как относительный риск (RR) для пропорций и уровней, так и отношение шансов (OR), с доверительными 95% интервалами (RR-b, RR+b), а также частота и шансы события в каждой группе (p1, p2). В данном примере можно использовать 2-ю и 3-ю строки таблицы для оценки влияния стажа на повышение уровня актуальной ригидности. Иллюстрация полученных результатов на рис.П11-1. 0 5 10 15 20 RR-относит.риск OR - отношение шансов 95% -95% риск 1 Рис.П11-1. Относительный риск и отношение шансов с 95% доверительными интервалами. Исследуемый фактор влияния может иметь более двух уровней, то есть он не обязательно дихотомический. В этом случае говорят о нескольких «уровнях экспонированности фактором» и о «дозовом отклике» или «дозовой зависимости». Например, если исследуемый фактор риска - масса тела, обычно вводятся градации этого фактора: масса тела недостаточная, в норме, избыточная. Для трех уровней индекса массы тела может вычисляться риск смерти, связанный с недостаточной массой тела (по сравнению с нормальной), и риск, связанный с избыточной массой тела (также по сравнению с нормальной). При исследованиях смерти от ИБС в зависимости от величины АДС выделяют, как правило, несколько дозовых групп, например: (1) менее 140 мм рт.ст., (2) 140-159 мм рт.ст., (3) 160 и выше. Количество таких групп может быть значительно больше, если позволяет объем выборки. Исследование линейного тренда пропорций в зависимости от дозы обсуждалось в Главе 2, как один из способов применения критерия хи- квадрат. 75 ГЛАВА 4. ОЦЕНКАРИСКАПРИНАЛИЧИИНЕСКОЛЬКИХ ФАКТОРОВ 4.1. Влияниесопутствующихфакторов Посторонние факторы, которые не являются предметом исследования, но также воздействуют на частоту события, называются «мешающими» (confounding). Их воздействие может исказить получаемые выводы о влиянии фактора на исследуемый показатель. Часто в качестве мешающего фактора выступает возраст. Если мы изучаем как фактор риска для здоровья стаж работы на опасном производстве, то в этом случае возраст, несомненно, является мешающим параметром, и его влияние следует исключить. Для исключения влияния мешающих факторов используют несколько приемов. Одним из них является стратификация выборки по мешающим параметрам. Стратификация - это разбиение выборки на части - страты, - в которых значения мешающих параметров не меняются (например, стратификация по полу) или меняются незначительно (возрастные группы с интервалом в 5 или 10 лет). Риски, относительные или абсолютные, вычисляются для каждой страты в отдельности. Таким образом можно получить свободную от влияния мешающего параметра оценку риска в каждой страте. Далее, если нужно получить одну совокупную оценку риска, можно осуществить стандартизацию набора рисков по эталонному распределению мешающего параметра или вычислить объединенный риск с проверкой однородности по стратам. Эта методика отражена на Схеме 7. Все эти приемы, с одной стороны, позволяют делать более обоснованные статистические выводы, исключая влияние посторонних, но связанных с оцениваемым эффектом факторов. С другой стороны, они уменьшают объем выборки, для которой производится отдельная оценка, что снижает достоверность результата. Предположим, что исходная выборка состоит из 1000 человек, из них половина экспонирована фактором риска, а половина – нет, и мы хотим исключить влияние пола и возраста на оценки риска. При стратификации по возрасту и полу, если введено 5 возрастных групп и 2 по полу, объем отдельной страты в среднем в 10 раз меньше, чем исходный. То есть в среднем каждая экспонированная и неэкспонированная фактором риска группа будет содержать 50 человек. Даже для такой большой исходной выборки из-за естественной неравномерности распределений по разным параметрам отдельные 76 страты могут оказаться слишком мелкими. В каждой практической задаче объем выборки определен и конечен. Поэтому при решении приходится выбирать между учетом всех возможных влияний и надежностью выводов. Схема 7. Вычисление рисков при наличии мешающего фактора 4.2. Вычислениеобъединенныхотносительныхрисковпри наличиимешающихфакторов Для вычисления рисков требуется сформировать имеющиеся данные в виде таблиц сопряженности по всем уровням изучаемого и мешающего факторов. Такую таблицу можно представить следующим образом. Р ф Р 0 Распростра- ненность явления во всей выборке Р Р ф1 Р ф2 Р ф3 Р ф4 Р 01 Р 02 Р 03 Р 04 77 Таблица 4.1. Исходные данные для вычисления объединенного риска Уровни мешающего фактора U Содержание таблиц Уровниизучаемогофактора F F 1 F 2 … F L U 1 Событий a 11 a 12 … a 1L Наблюдений c 11 c 12 … c 1L U 2 Событий a 21 a 22 … a 2L Наблюдений c 21 c 22 … c 2L … U K Событий a K1 a K2 … a KL Наблюдений c K1 c K2 … c KL Если ограничиться одной из таблиц 2х2, например, соответствующей первым уровням обоих факторов таблицы 4.1, то можно вычислить относительный риск появления события при уровне изучаемого фактора F 2 по сравнению с уровнем F 1 (или на уровне F 1 по сравнению с уровнем F 2 ) при значении мешающего фактора U 1 . Для этого используются формулы, методы и программы, описанные в предыдущей части (Глава 3, п.3.4). Таблица 4.2. Частичная таблица для вычисления риска Уровнимешающего фактора U Уровниизучаемого фактора F F 1 F 2 U 1 Событий a 11 a 12 Наблюдений c 11 c 12 Относительный риск R 21 для таблицы 4.2: 1 2 1 2 p p R = , где p i могут быть уровнями, пропорциями (частотой) или шансами осуществления события, а способ вычисления стандартной ошибки SE(p i ) зависит от содержания таблицы, как указано в главе 3. При наличии нескольких уровней мешающего фактора U (таблица 4.3) для оценки объединенного мультипликативного воздействия 78 уровней исследуемого фактора F на частоту осуществления событий используются тест Мантеля-Ханзела (Mantel-Haenszel) и тест Вульфа (Woolf). С помощью теста Вульфа проверяется однородность (равенство) отношений шансов по стратам. Это позволяет оценить связь исследуемого и мешающего факторов. Также вычисляется объединенный риск Вульфа, но он считается менее полезным и используется реже, чем объединенный риск Мантеля-Ханзела. Тест Мантеля-Ханзела позволяет решить две взаимосвязанные задачи: во- первых, проверить равенство единице отношений шансов (OR) в стратах, и во-вторых, вычислить совокупную оценку отношения шансов по уровням изучаемого фактора F с исключением влияния мешающего фактора U. При использовании этих тестов предполагается, что выполнены следующие условия: ► Наблюдения независимы. Практически это означает, как минимум, что выборка случайная, без повторений. ► Наблюдения одинаково распределены. Это значит, что все наблюдения получены одинаковым образом – нельзя смешивать данные исследований разного типа, например, телефонного опроса и личного анкетирования. Таблица 4.3. Исходные данные для вычисления объединенного риска при двух уровнях изучаемого фактора Уровнимешающего фактора U Содержание таблиц Уровниизучаемого фактора F F 1 F 2 U 1 Событий a 11 a 12 Наблюдений c 11 c 12 U 2 Событий a 21 a 22 Наблюдений c 21 c 22 … U K Событий a K1 a K2 Наблюдений c K1 c K2 79 Весь анализ проводится для двух уровней изучаемого фактора и К (K>=2) уровней мешающего фактора. Если изучаемый фактор имеет более двух уровней, весь анализ нужно повторять для каждой пары уровней. Каждому i-му уровню фактора U: U 1 , U 2 , …, U K , соответствует таблица Т i Таблица Т i : Статистика (риск) Мантеля-Ханзела для сравнения частот события на двух уровнях изучаемого фактора F 1 и F 2 вычисляется по формуле (в случае, когда уровней всего два, второй уровень – F 2 – может означать отсутствие действия фактора): ∑ ∑ = = − × − × = K i i i i K i i i i MH i n a c a i n a c a R 1 1 1 2 1 2 2 1 ) ( ) ( ) ( ) ( (4.1) Проверяется нулевая гипотеза Н 0 : R MH =1 ( точнаяформулировкапроверяемойгипотезыН 0 : всесоставляющиериски OR(i)=1 противальтернативнойгипотезыН 1 : хотябыодинизэтихрисковотличенот 1). Для проверки гипотезы используется статистика χ 2 . Формула для вычисления этой статистики приведена в Приложении (тест Мантеля- Ханзела). Вычисление доверительных интервалов для R MH было усовершенствовано Робинсом (Robins). Эти вычисления довольно трудоемки, поэтому для них разумно использовать статистические программы, в первую очередь NCSS, в которой наиболее полно проводится анализ объединенных рисков. Еще один способ вычисления объединенного риска был предложен Вульфом. С помощью объединенного относительного риска Вульфа вначале проверяется взаимодействие факторов U и F (анализ однородности таблиц). Для этого используется критерий χ 2 для статистики, связывающей риски в стратах и объединенный риск Вульфа. Предполагается, что в строке «Наблюдений» у нас количество наблюдений, а не число человеко-лет наблюдения, т.е. риск a i1 a i2 c i1 c i2 80 возникновения события оценивается с помощью пропорций или шансов, но не уровней. Для каждой из таблиц вычислим следующие величины: 1. Отношение шансов OR(i), или перекрестное произведение. 2. Весовые коэффициенты таблиц для вычисления взвешенного риска W(i). Эти коэффициенты обратно пропорциональны дисперсиям ошибок для каждой таблицы. 3. Объем выборки n(i). Объем вычисляется как сумма числа наблюдений по столбцам: n(i) = c i1 + c i2 Если выполнено следующее условие: ► a i1 >0, a i2 >0, c i1 -a i1 >0, c i2 -a i2 >0 (количество всех «событий» и «не событий» в таблице T i больше нуля), то ) ( ) ( ) ( 2 2 1 1 1 2 i i i i i i a c a a c a i OR − × − × = , (4.2) 2 2 2 1 1 1 1 1 1 1 ) ( 1 : ) ( i i i i i i a c a a c a i W i W − + + − + = (4.3) Если же хотя бы одно из чисел a i1 , a i2 , c i1 - a i1 , c i2 - a i2 равно 0, то все значения в ячейках увеличиваются для вычислений на 0.5 (в некоторых программах допускается увеличение на другое малое число, например, 0.25). Для вычисления объединенного взвешенного риска R w (Вульфа) сначала вычисляется логарифм R w как взвешенная комбинация логарифмов рисков OR(i): ∑ ∑ = = × = K i K i w i W i OR i W R 1 1 ) ( ) ( ln ) ( ) ln( (4.4) Логарифм объединенного риска распределен асимптотически нормально. Стандартная ошибка логарифма объединенного взвешенного риска R w определяется весовыми коэффициентами W(i). ∑ = = K 1 i w W(i) 1 ) ln(R SE (4.5) В некоторых работах (в частности, J.F.Osborn. Basic Statistical Methods for Epidemiological Studies) использование взвешенного риска предполагается в случае, когда для измерения взаимодействия факторов 81 используется относительный риск RR, т.е. используются пропорции или уровни для оценки частоты наблюдаемого явления. Объединенный взвешенный риск R w (Вульфа) используется не только как самостоятельная характеристика, но, что более существенно, является составной частью статистики для проверки однородности таблиц (однородности рисков по уровням мешающего фактора), т.е. для проверки наличия взаимодействия мешающего и изучаемого факторов. Для такой проверки используется статистика χ 2 . Ее выборочное значение вычисляется как 2 1 2 1 2 ) (ln )) ( ( )) ( (ln ) ( w K i K i в R i W i OR i W × − × = ∑ ∑ = = χ , (4.6) и она распределена асимптотически как χ 2 (K-1). 4.3. Вычислениеобъединенныхрисковсиспользованием статистическихпакетов В программе SPSS вычисляется риск Мантеля-Ханзела и приводится 95% доверительный интервал для R MH SPSS → → → → Analyze → → → → Descriptive Statistics → → → → Crosstabs …, далее определить флажки Risk и Cochran’s and Mantel-Haenszel statistics в опции Statistics ... Риски определяются для категорий первой переменной (переменная по строкам), в зависимости от категорий второй переменной (переменная по столбцам) по всем значениям переменной, задающей уровни (Layers) и объединенный риск Мантеля- Ханзела. И переменная строки, и переменная столбца должны иметь ровно 2 возможных значения, уровней может быть несколько. В программе SYSTAT вычисляется только сам риск Мантеля- Ханзела, без доверительных интервалов и проверки однородности. SYSTAT → → → → Statistics → → → → Tables → → → → Crosstabs …,→ → → → Multiway Tables далее определить флажок Mantel-Haenszel test for 2x2 sub-tables в опции Display ... Риски определяются для категорий первой переменной (переменная по строкам), в зависимости от категорий второй переменной (переменная по столбцам). Как и в программе SPSS, и переменная строки, и переменная столбца должны иметь 2 возможных значения, результат табуляции – таблица 2 ×2. Наиболее полные вычисления осуществляются в программе NCSS. В ней вычисляются OR(i) по стратам, риск Мантеля-Ханзела R MH , R MH с поправкой на непрерывность, приводятся 95% доверительный интервалы для R MH , в том числе с уточнением Робинса, а также объединенный риск Вульфа R w с доверительным интервалом, тест 82 проверки однородности рисков и тесты проверки отклонения рисков в стратах от 1. В качестве входной информации используется таблица перекрестного табулирования, заполненная специальным образом. NCSS → → → → Analysis → → → → Desriptive Statistics → → → → CrossTab → → → → Analysis → → → → Proportions → → → → Mantel-Haenszel Test Пример 12. (Данные НРЭР Северо-Запада). По результатам наблюдения за ликвидаторами за период 1986-2005 гг. получены следующие данные о смертности в связи с полученной дозой и возрастом участия в работах по ликвидации аварии. Таблица П12-1. Исходные данные Номер дозовой группы (dose_gr) Доза, сЗв Статус (ind_death) Age work group (группы по возрасту участия) 3 2 1 18 - 29 30 - 39 40+ 3 0-5 жив 167 1207 388 умер 14 268 108 Всего 181 1475 496 2 5.1-19.9 жив 595 1424 551 умер 59 340 182 Всего 654 1764 733 1 20+ жив 504 1017 372 умер 60 247 130 Всего 564 1264 502 Суммы 1399 4503 1731 На приведенном далее Рис.П12-1 видно, что доля умерших увеличивается как с увеличением возраста участия, так и с ростом полученной дозы. Требуется оценить риски смерти, связанные отдельно с возрастом и дозой. 83 0 5 10 15 20 25 30 18 - 29 30 - 39 40+ Возраст участиявработахнаЧАЭС % 0-5 сЗв 5.1-19.9 сЗв 20+ сЗв Рис. П12-1. Процент ликвидаторов, умерших к 2006 году, в зависимости от дозы и возраста участия в аварийно-восстановительных работах Данные таблицы П12-1 для работы программы NCSS - вычисление рисков Мантеля-Ханзела - должны быть представлены следующим образом в виде таблицы NCSS Data. ind_death (1 – умер, 2 – жив) dose_gr (по табл.П12-1) age_work_gr (по табл.П12-1) Count (количество) 1 1 1 130 2 1 1 372 1 2 1 182 2 2 1 551 1 3 1 108 2 3 1 388 1 1 2 247 2 1 2 1017 1 2 2 340 2 2 2 1424 1 3 2 268 2 3 2 1207 1 1 3 60 2 1 3 504 1 2 3 59 2 2 3 595 1 3 3 14 2 3 3 167 84 В программе уровни изучаемого фактора сравниваются попарно, поэтому для того, чтобы сравнить между собой три уровня, следует использовать фильтр и выбирать последовательно пары: F 1 – F 2 , F 1 – F 3 , F 2 – F 3 12.А. Вначале выберем в качестве мешающего фактора дозу и вычислим относительные риски смерти, связанные с возрастом ликвидаторов. Для сравнения 2 и 3 возрастной групп задается фильтр: age_work_gr>1. В качестве Count Variable задается переменная Count, Disease Variable – ind_death (меньшее значение этой переменной задает интересующее нас событие, риск которого требуется оценить, в данном случае – смерти: ind_death =1 означает «умер», ind_death = 2 – «жив»). Exposure Variable – age_work_gr (меньшее значение этой переменной соответствует наличию экспозиции, т.е. определяется риск в группе age_work_gr = 2 по сравнению с группой age_work_gr = 3). Stratum Variable – dose_gr (могут быть заданы от 1 до 4 переменных, определяющих стратификацию). Порядок значений стратифицирующей переменной не имеет значения. Delta Value – величина, которая добавляется к каждой ячейке таблицы 2×2 (T i ), если хотя в одной из них содержится 0 (формулы для вычисления OR(i)). Традиционно это 0.5, однако недавние исследования показали, что иногда более целесообразно использовать δ = 0.25. Alpha – уровень значимости, используемый при вычислении доверительных интервалов. Обычно выбирается α = 0.05. Результаты вычислений. |