Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Скачать 2.36 Mb.
|
ФГБУ ВЦЭРМ им. А.М. Никифорова МЧС России Н.В. Макарова Статистический анализ медико-биологических данных с использованием пакетов статистических программ Statistica, SPSS, NCSS, SYSTAT Методическое пособие Методика и условия применения статистических пакетов Примеры Словарь терминов Справочник формул Санкт-Петербург 2012 2 УДК 61:311(075.8) ББК 51.1(2)я73 М-15 Макарова Н.В. Статистический анализ медико-биологических данных с использованием пакетов статистических программ Statistica, SPSS, NCSS, SYSTAT : методическое пособие / Н.В. Макарова ; Всерос. центр экстрен. и радиац. медицины им. А.М. Никифорова МЧС России – СПб.: Политехника-сервис, 2012. – 178 с. Это пособие предназначено для научных работников, аспирантов, врачей с разным уровнем статистической подготовки, которые самостоятельно осуществляют анализ данных на компьютере. Большое число примеров позволит исследователям освоить технологии использования компьютерных программ, выбрать адекватные варианты статистической обработки и грамотно трактовать полученные результаты. В книге проведено сравнение возможностей статистического анализа в нескольких универсальных пакетах программ. Справочная информация о понятиях и методах статистики, описанных в пособии, а также формулы для вычисления приведены в «Приложении». Рецензент: В.И. Кувакин – доцент кафедры автоматизации управлением медицинской службой (с военно-медицинской статистикой) Военно- медицинской академии им. С.М. Кирова заслуженный работник высшей школы РФ доктор медицинских наук профессор ISBN 5-9231-0269-2 © Макарова Н.В., 2012 3 Оглавление Введение……………………………………………………………………..6 Схема 1. Выявление отличий анализируемого показателя в двух и более выборках………………………………………………………….. 9 Схема 2. Определение наличия и величины связи (или зависимости) двух показателей………………………………………………………...10 Схема 3. Исследование структуры данных……………………………11 Комментарии к схемам………………………………………………….12 Глава 1. Определение основных понятий………………………………..15 1.1. Виды данных………………………………………………………..15 1.2. Подготовка данных…………………………………………………16 1.3. Использование данных разных видов в анализе………………….18 1.4. Предположения……………………………………………………..19 1.5. Анализ мощности и оценка объема выборки в планировании эксперимента…………………………………………………………….20 Глава 2. Статистическая обработка таблиц……………………………...23 2.1. Использование критерия χ 2 . Схема 4……………………………...23 2.2. Проверка гипотезы согласия Н с …………………………………...24 2.3. Проверка гипотезы однородности Н о ……………………………..32 2.4. Проверка гипотезы независимости Н н …………………………….38 2.5. Проверка гипотезы наличия линейного тренда Н т ………………43 Глава 3. Сравнение частот событий………………………………………47 Схема 5. Основные типы задач………………………………………47 3.1. Оценка параметров биномиальных распределений и проверка гипотез……………………………………………………………...……48 3.2. Расчеты для задач I типа с использованием статистических пакетов…………………………………………………………………...50 3.3. Расчеты для задач II типа с использованием статистических пакетов…………………………………………………………………...55 3.4. Риски………………………………………………………………...67 Схема 6. Основные типы задач………………………………………68 Глава 4. Оценка риска при наличии нескольких факторов…………….75 4.1. Влияние сопутствующих факторов……………………………….75 Схема 7…………………………………………………………………..76 4.2. Вычисление объединенных относительных рисков при наличии мешающих факторов……………………………………………………76 4.3. Вычисление объединенных рисков с использованием статистических пакетов…………………………………………………81 4.4. Стандартизация……………………………………………………..87 Схема 8…………………………………………………………………...90 4 Глава 5. Логистическая регрессия: оценка влияния нескольких факторов на результирующий дискретный показатель…………………………....99 5.1. Логистическая регрессия для бинарного отклика……………….99 5.2. Логит и логистическое преобразование………………..………..100 5.3. Логистическая регрессия и логит-модели……………………….102 5.4. Интерпретация регрессионных коэффициентов………………..103 5.5. Применение метода логистической регрессии для анализа данных в статистических программах…………………………………………104 5.6. Выбор подмножества независимых переменных……………….118 Глава 6. Логлинейная модель (LLM)……………………………………120 6.1. Ограничения и предположения…………………………………..120 6.2. Основные принципы………………………………………………121 6.3. Обозначения……………………………………………………….121 6.4. Качество подгонки………………………………………………...122 6.5. Техника выбора модели в программах STATISTICAи NCSS ...122 6.6. Анализ остатков…………………………………………………...126 6.7. Структура данных…………………………………………………127 6.8. Задание параметров LLM для программы NCSS……………….128 6.9. Содержание отчетов программ NCSS и STATISTICA при реализации алгоритма LLM ………………………………………….129 Литература………………….…………………………………………..138 Приложение: СЛОВАРЬ и ФОРМУЛЫ………………………………..140 Распределения случайных величин и статистические характеристики выборки…………………………………………………………………140 Характеристики положения с.в……………………………………….142 Характеристики формы с.в……………………………………………145 Стандартная ошибка …………………………………………………..147 Доверительный интервал……………………………………………...148 Критерии согласия……………………………………………………..150 Характеристики связи (зависимости) случайных величин………...153 Непараметрические меры связи………………………………………154 Непараметрические критерии однородности выборок……………..157 Параметрические критерии однородности выборок………………..160 Критерии наличия линейного тренда …………………………….160 Риски……………………………………………………………………162 Стандартные ошибки и доверительные интервалы для рисков……163 Объединенные риски при наличии мешающих факторов…………165 Стандартизация………………………………………………………..170 Логистическая регрессия……………………………………………...172 Логлинейная модель (LLM)…………………………………………..176 5 Предисловиенаучногоредактора Данное пособие подготовлено в ФГБУ Всероссийский центр экстренной и радиационной медицины им. А.М. Никифорова МЧС России (ВЦЭРМ), в научно-исследовательском отделе «Медицинский регистр МЧС России» (начальник – Астафьев О.М.). Автор, являясь начальником лаборатории статистического анализа данного сектора, проводит статистическую обработку и анализ данных разнообразных исследований, осуществляемых во ВЦЭРМ, в течение многих лет. Пособие предназначено для научных работников, аспирантов и врачей с разным уровнем статистической подготовки, которые самостоятельно осуществляют анализ данных биологических, эпидемиологических, клинических, психологических, лабораторных и других исследований на компьютере. Большое число примеров позволит исследователям освоить технологии использования компьютерных программ, выбрать адекватные варианты статистической обработки и грамотно трактовать полученные результаты. В книге проведено сравнение возможностей статистического анализа в нескольких универсальных пакетах программ, наиболее распространенных среди исследователей медико-биологического профиля. Это позволит выбрать наиболее подходящий для целей исследования инструмент. Например, для оценки риска неблагоприятного исхода в связи с влиянием нескольких факторов наиболее широкие возможности предоставляет программа NCSS. Большинство использованных в книге примеров основано на данных из реальных медицинских исследований, проведенных в НИО «Медицинский регистр МЧС России» и других подразделениях ВЦЭРМ. В частности, использовались данные исследований сотрудников НИО Санникова М.В. и Шевченко Т.И. Ряд примеров связан с оценкой медико-биологических последствий для здоровья ликвидаторов, которые проживают на территории Северо-Запада России и включены в систему Национального радиационно- эпидемиологического регистра (НРЭР). Эта территориальная база данных НРЭР ведется и обрабатывается в НИО «Медицинский регистр МЧС России» с 1997 года и включает сведения о здоровье более 11000 ликвидаторов за весь период наблюдений – с 1986 по 2012 гг. Справочная информация о понятиях и методах статистики, описанных в пособии, а также формулы для вычисления приведены в «Приложении». Доктор медицинских наук профессор С.С. Алексанин 6 В результате применения статистического метода мы получаем не истину в последней инстанции, а всего лишь оценку вероятности того или иного предположения. Кроме того, каждый статистический метод основан на собственной математической модели и результаты его правильны настолько, насколько эта модель соответствует действительности. С. Гланц. Медико-биологическая статистика. ВВЕДЕНИЕ. При экспериментальных исследованиях медико-биологических систем их характерной особенностью является отсутствие полной воспроизводимости и стабильности. Это связано с очень большим числом факторов, влияющих на исход опыта, в том числе и не поддающихся измерению. Поэтому статистические методы являются основным способом количественного описания медико-биологических объектов и явлений. Существует множество учебников, в том числе и хороших, посвященных статистическим методам обработки данных. Однако для практического использования они не совсем удобны, поскольку описание методов начинается и заканчивается на уровне математических формул. Для понимания метода формулы незаменимы, но для реальных расчетов сейчас естественно использовать профессионально созданные пакеты прикладных статистических программ. Использование пакетов – это тоже технология, которую надо знать. С одной стороны, скорость получения статистических выводов стала неизмеримо выше, чем была при ручных подсчетах (не говоря о том, что многие методы были просто недоступны без качественного программного обеспечения и современных компьютеров), и это позволяет применять несколько альтернативных методов для проверки и подтверждения полученных выводов. С другой стороны, вопрос правильного использования статистических методов не снимается, и это относится как к выбору соответствующих модулей в пакете программ, так и конкретных опций, задающих параметры исследуемой модели. Кроме того, исторически сложилась традиционная тематика в учебниках по статистике на русском языке, и в этой традиции не нашлось места описанию ряда очень важных методов обработки данных. В частности, автору не удалось найти удовлетворительных описаний метода Мантеля-Ханзела (Mantel-Haenszel) вычисления 7 объединенного риска, логистической регрессии, логлинейного анализа. Эти методы изложены в настоящем руководстве, и их применение проиллюстрировано рядом примеров. Традиционные учебники, как правило, уделяют основное внимание статистическим выводам, основанным на предположении о нормальном распределении переменных, в том числе многомерным статистическим методам, таким как регрессионный, факторный, дисперсионный анализ. В практических же задачах часто требуется выявить отличия, связи, структуры для переменных, имеющих порядковую или дискретную структуру, или же для набора переменных разного типа. Для них также требуется выбор наилучшего метода, представление о границах применимости каждого из возможных способов обработки данных. Кроме того, даже для переменных непрерывного типа далеко не всегда возможно применение параметрических методов анализа, особенно при малых объемах выборок. В самом общем виде основные задачи, для решения которых применяются методы статистического анализа, можно сформулировать следующим образом: 1) выявление отличий анализируемых показателей и их связей в двух и более выборках; 2) определение наличия и величины связи (или зависимости) одного или нескольких факторов с другими показателями или процессом; 3) проведение анализа структуры данных. Для проведения статистического анализа, как правило, достаточно владения одной из компьютерных систем анализа данных. Наиболее распространенные и универсальные системы, такие как STATISTICA, SPSS, SAS, NCSS, SYSTAT, предлагают примерно совпадающий арсенал основных методов анализа данных. В предлагаемом пособии мы будем давать ссылки на все вышеуказанные системы, но в качестве основной выбрана STATISTICA. Такой выбор связан прежде всего с удобством экспорта-импорта данных и результатов в этой системе, а также наибольшей доступностью для русскоязычных пользователей. Для грамотного применения любого статистического пакета анализа данных нужно, во-первых, сформулировать задачу таким образом, чтобы для ее решения можно было использовать статистические методы, то есть создать математико-статистическую модель исследования. Для начинающих исследователей это наиболее трудный пункт плана работ. Как правило, статистическая модель практического исследования многовариантна и допускает 8 использование нескольких методов. Поэтому надо представлять себе возможности, которые есть в арсенале прикладной статистики, и понимать, какие из них могут быть использованы для решения конкретной задачи. Наконец, важно учитывать, какие требования к данным сопровождают использование этих методов, и проверять выполнение этих требований. Поскольку существует несколько возможных вариантов решения задачи, следует выбрать наиболее подходящие из них. Кроме того, использование нескольких методов позволяет проверить полученные выводы. Приведенные далее схемы показывают спектр методов, применяемых для решения наиболее распространенных задач. На схемах указаны самые известные методы, содержащиеся практически во всех статистических программах анализа данных. 9 Схема 1. Выявление отличий анализируемого показателя в двух и более выборках Проверка равенства пропорций (сравнение частот) Критерий χ 2 a ij Точный критерий Фишера Две независимые бинарные (дихотомические) выборки Две или более независимые выборки. Достаточное число наблюдений во всех ячейках таблицы ( ≥ 5). Проверка равенства медиан Две независимые выборки. Показатель измеряется по крайней мере в шкале порядка Две независимые выборки без повторяющихся значений. Показатель количественный Критерий Колмогорова- Смирнова Критерий Вилкоксона для связанных выборок Критерий Вилкоксона, Манна-Уитни Критерий Краскела- Уоллеса Более двух независимых выборок. Показатель измеряется по крайней мере в шкале порядка Критерий серий Вальда-Вольфовица Критерий знаков Две независимые выборки. Показатель измерен по крайней мере в шкале порядка Две выборки попарно связанных наблюдений. Показатель количественный Сравнение выборочных распределений (проверка однородности), включая равенство средних, медиан, дисперсий. Сравнение средних значений (проверка равенства) Двухвыборочный критерий Стьюдента Однофакторный дисперсионный анализ Вычисление доверительных интервалов Две независимые выборки. Распределения нормальны Дисперсии известны или проводится проверка их равенства для правильного использования критерия Распределения нормальны. Две или более несвязанных выборок. Дисперсии равны Известны законы распределения в выборках или возможна аппрокси- мация Парный критерий Стьюдента Две выборки попарно связанных наблюдений. Распределения нормальны Методырешения Постановказадачи Условияприменимости Критерий медианы Вычисление рисков Две выборки попарно связанных наблюдений. Показатель измеряется по крайней мере в шкале порядка 10 Схема 2. Определение наличия и величины связи (или зависимости) двух показателей Выявление связи порядкового или количественного показателя с качественным показателем с помощью проверки равенства рангов порядкового показателя или средних значений количественного показателя на разных уровнях качественного показателя. Однофакторный дисперсионный анализ Определение силы линейной связи двух количественных показателей (коэффициент корреляции) Совместное распределение нормально. Методырешения Постановказадачи Вычисление коэффициента корреляции Пирсона и проверка его значимости Условияприменимости Определение величины ранговой связи порядковых или количественных показателей Оба показателя измеряются по крайней мере в шкале порядка. Оба показателя порядковые или дискретные. Вычисление коэффициента ранговой корреляции Спирмена и проверка его значимости Вычисление коэффициента ранговой корреляции Кендалла и проверка его значимости Вычисление коэффициента ранговой корреляции гамма ( γ ) и проверка его значимости Определение наличия связи (проверка независимости) и ее силы для качественных, порядковых или количественных показателей Достаточное число наблюдений во всех ячейках таблицы ( ≥ 5). Не учитывается информация о порядке значений показателей. Вычисление рисков Точный критерий Фишера Меры связанности на основе статистики χ 2 : коэффициент связи Φ коэфф.сопряженности С коэфф.связанности Крамера V Критерий χ 2 a ij Распределения количественного показателя на каждом уровне качественного показателя нормальны с равными дисперсиями Критерий Вилкоксона, Манна-Уитни Критерий Краскела- Уоллеса Качественный показатель имеет более двух значений Качественный показатель бинарный (дихотомический) Распределения количественного показателя на обоих уровнях бинарного показателя нормальны. Критерий серий Вальда-Вольфовица Двухвыборочный критерий Стьюдента Оба показателя бинарные (дихотомические) 11 Схема 3. Исследование структуры данных. Методырешения Постановказадачи Анализ структуры показателей Иерархическая классификация Факторный анализ показателей Регрессионный анализ Канонический анализ Совместное распределение нормально. Корреляционная матрица положительно полуопределена Совместное распределение нормально. Кластерный анализ показателей Различные ограничения в зависимости от конкретного метода Дискриминантный анализ Различные ограничения в зависимости от конкретного метода Совместное распределение нормально. Равные ковариационные матрицы классов для линейной дискриминации Фишера. Распределения зависимой переменной на каждом уровне фактора (для ковариационного анализа) и при всех значениях независимых переменных нормальны с равными дисперсиями Совместное распределение нормально. Корреляционная матрица положительно полуопределена Распределения количественного показателя для каждой комбинации уровней качественных показателей нормальны с равными дисперсиями Дисперсионный анализ Анализ структуры объектов Условияприменимости Ковариационный анализ Факторный анализ объектов Иерархическая классификация Кластерный анализ объектов 12 Комментарииксхемам При изучении схем 1 (1’) и 2 (2’) нетрудно заметить, что одни и те же методы могут быть использованы для решения различных задач. С другой стороны, одну и ту же задачу можно сформулировать как в рамках схемы 1, так и в рамках схемы 2. Приведем примеры. 1. Был вычислен индекс функциональных изменений (ИФИ) для пожарных и спасателей, проходивших ежегодную диспансеризацию. Исследователь хочет выяснить, есть ли отличия по этому индексу у обследованных двух профессиональных групп. Вопрос можно сформулировать следующим образом: а) «отличается ли ИФИ у спасателей и пожарных?» или б) «зависит ли ИФИ от характера работы?». Для ответа на вопрос (а) следует искать методы на схеме 1, причем конкретизация вопроса может быть различной: (1) - отличаются ли средние значения ИФИ в группах спасателей и пожарных; (2) – отличаются ли распределения индекса в этих группах, включая и отличие средних; (3) – отличаются ли доли лиц с ИФИ более 3.1 (неудовлетворительная адаптация или срыв адаптации) в исследуемых группах. Для ответа на вопрос (б) методы следует искать на схеме 2. В рамках этой схемы вопрос может быть уточнен следующим образом: (1) - отличаются ли средние значения ИФИ при разных уровнях показателя «характер работы»; (3) – отличаются ли доли лиц с неудовлетворительной адаптацией для групп с различным характером работы. (а) и (б) отличаются только формулировкой вопроса, а не существом задачи, поэтому на обеих схемах присутствуют методы для ее решения. В данном случае это может быть двухвыборочный критерий Стьюдента, если выполнены необходимые условия нормальности и конкретная форма вопроса – (1) – проверка равенства средних значений. Может быть также использован критерий Вилкоксона, Манна-Уитни, если проверяется (2) – совпадение распределений. 2. Инструментом широкого применения является критерий χ 2 . В частности, он может использоваться для сравнения двух и более выборочных распределений. В этом случае говорят, что проверяется гипотеза об однородности двух или нескольких выборок. Особенно часто критерий χ 2 используется в тех случаях, когда интересующий нас показатель является качественным, т.е. его значения не связаны 13 отношением порядка. Характерная задача, в которой целесообразно использовать данный критерий, – сравнение структуры заболеваемости или смертности в нескольких группах наблюдения (например, на разных территориях). Значения исследуемого показателя – отдельные нозологические классы: инфекционные болезни, болезни органов дыхания и т.д. Количество выявленных болезней по этим классам (количество умерших по отдельным причинам) на каждой территории определяет выборочное распределение. С другой стороны, критерий χ 2 может быть использован для проверки гипотезы о независимости двух показателей. Показатели могут быть как количественными, так и качественными, но следует иметь в виду, что при применении этого критерия не учитывается информация о порядке и величине значений показателей. Поэтому разумно применять критерий χ 2 для проверки независимости в том случае, когда по крайней мере один показатель является качественным. Например, для выяснения связи профессиональной принадлежности со статусом курения. Пособие написано для практических исследователей, поэтому применение методов анализа разбирается на конкретных примерах, с использованием наиболее распространенных пакетов статистических программ. Особое внимание уделено вопросам применимости известных методов и выбора наиболее подходящего способа обработки в зависимости от параметров задачи: объемов, типов данных, постановки вопроса. В основном, предметом анализа в данном пособии являются задачи, в которых требуется проанализировать частоты различных событий. Такой выбор обусловлен, во-первых, распространенностью этих задач, а во-вторых, недостаточно полным освещением способов решения их в специальной литературе. Максимально возможное количество формул вынесено в Приложение, для того чтобы облегчить процесс чтения руководства исследователями, не обладающими математической подготовкой. Первая глава пособия посвящена определению основных понятий, которые используются на этапе планирования статистического анализа. Для того, чтобы получить достоверные результаты, необходимо корректно подготовить материал исследования для статистической обработки. Вторая глава содержит описание задач, для решения которых используются частотные таблицы и таблицы сопряженности. Основная часть главы посвящена способам и условиям применения критерия χ 2 14 В третьей главе подробно обсуждаются способы получения статистических выводов о частотах появления события в одной или нескольких выборках как частном случае обработки таблиц сопряженности и частотных таблиц. Описаны основные типы задач и способы решения. Глава 4 посвящена способам вычисления рисков при наличии мешающих параметров. В ней приведены способы вычисления объединенных рисков с проверкой однородности и значимости и способы стандартизации. В главе 5 изложена методика и практика применения логистической регрессии. Глава 6 содержит описание логлинейного анализа. В Приложении приведены точные формулы и определения статистических понятий и методов. Нумерация формул, рисунков и таблиц двойная: первая цифра соответствует номеру главы, вторая является порядковым номером формулы, рисунка, таблицы в данной главе. Схемы пронумерованы последовательно, независимо от глав. Таблицы и рисунки в примерах нумеруются в соответствии с номером примера: Таблица П1-1, Рис. П1- 1. Текст примеров и обсуждение полученных результатов приведено более мелким шрифтом. 15 ГЛАВА |