Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Скачать 2.36 Mb.
|
DFбэта (DFbeta) Применяется для изучения влияния отдельных наблюдений на каждый регрессионный коэффициент. Эта статистика – стандартизованная разность регрессионного коэффициента до и после исключения j-го наблюдения. РасстояниеКука: СиСbar Это расширение расстояния Кука для логистической регрессии. Так же измеряет влияние отдельных наблюдений на регрессионные коэффициенты. Статистики DFотклон. и DFχ 2 (DFDEV и DFCHI2) Эти статистики измеряют изменения отклонения и статистики хи- квадрат Пирсона, соответственно, при удалении одного наблюдения. Большие значения статистик позволяют обнаружить наблюдения, которые недостаточно хорошо описаны моделью. Предсказанныевероятности Здесь описано, как вычислить предсказанные вероятности принадлежности к группе и соответствующие доверительные интервалы. Основное уравнение (1) может быть представлено, если включить априорные вероятности в свободный член, следующим образом: После получения оценок регрессионных коэффициентов, , оценкой левой части уравнения для набора значений независимых переменных Х будет Доверительные интервалы для логитов можно получить в предположении, что регрессионные коэффициенты имеют асимптотически нормальное многомерное распределение. Однако их невозможно корректно преобразовать в доверительные интервалы для предсказанных вероятностей. Логлинейнаямодель (LLM) Логлинейные модели позволяют изучать соотношения между двумя и более дискретными переменными. Это метод многомерного анализа частот. 177 Обозначения Для таблицы с двумя входами, у которой переменная строк А имеет I категорий (уровней) i=1,…, I, а переменная столбцов В имеет J категорий j=1,…, J, точная мультипликативная модель, определяющая частоты в ячейках f ij , записывается как m ij = Nα i β j γ ij (1) Здесь m ij = E(f ij ) – ожидаемая частота в строке i и столбце j. Если m ij оцениваются с использованием метода максимального правдоподобия, результат обозначается mH ij . Заметим, что N = Σ i,j f ij Основной вопрос, связанный с таблицей: являются ли независимыми А и В. Это можно проверить с помощью соответствующего теста χ 2 . В модели (1) независимость будет установлена, если все γ ij будут равны 1. Для приведения формулы (1) к аддитивному виду проводится логарифмирование, после чего получим ln(m ij ) = θ + λ i A + λ j B + λ ij AB (2) Слагаемые λ называются эффектами. Верхние индексы обозначают переменные, нижние индексы – категории этих переменных. Порядок эффекта равен числу переменных в верхнем индексе. Поскольку полученная формула аддитивна, она называется логлинейной моделью. Из-за логарифмирования в данной модели присутствует ограничение: ни один из m ij не равен 0. В данной модели общее количество коэффициентов λ составляет 1 + I + J + I*J, что превышает количество частот в ячейках (которое составляет I*J). Если число параметров модели превышает или равно количеству ячеек, такая модель называется насыщенной (saturated). Насыщенная модель точно воспроизводит наблюдаемые частоты. Проверяя, равны ли определенные параметры λ нулю, мы проверяем различные связи между переменными. Например, проверяя, являются ли все коэффициенты {λ ij AB } i, j нулевыми, мы проверяем независимость переменных А и В. Качествоподгонки При выборе из нескольких вариантов моделей следует оценить качество каждой из них. Качество модели определяется качеством подгонки данных и проверяется с использованием одной из двух статистик χ 2 : 178 cтатистика Пирсона χ 2 : χ 2 = 2 Σ i,j,k [(f ijk - mH ijk ) 2 / mH ijk ] и cтатистика максимального правдоподобия G 2 = 2Σ i,j,k f i j k ln ( f i j k / m( i j k ) Обе эти статистики распределены как χ 2 , когда N велико и ни одна из частот mH ij не является малой. Обе статистики имеют n-p степени свободы, где n – количество ячеек таблицы, p – количество параметров в модели, для которой вычислены mH ijk . В отличие от статистики χ 2 Пирсона, отношение правдоподобия G 2 имеет одно важное свойство – оно является аддитивным для частичных связанных моделей. Это позволяет проверять значимость отдельных членов модели. С помощью этих статистик проверяется следующее утверждение: отличаются ли статистически значимо от 0 те члены насыщенной модели, которые не включены в текущую модель? |