Главная страница

Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие


Скачать 2.36 Mb.
НазваниеА. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Дата08.03.2023
Размер2.36 Mb.
Формат файлаpdf
Имя файлаСтатистический анализ медико-биологических данных.pdf
ТипМетодическое пособие
#975186
страница15 из 15
1   ...   7   8   9   10   11   12   13   14   15
DFбэта (DFbeta)
Применяется для изучения влияния отдельных наблюдений на каждый регрессионный коэффициент.
Эта статистика
– стандартизованная разность регрессионного коэффициента до и после исключения j-го наблюдения.
РасстояниеКука: СиСbar
Это расширение расстояния Кука для логистической регрессии.
Так же измеряет влияние отдельных наблюдений на регрессионные коэффициенты.
Статистики DFотклон. и DFχ
2
(DFDEV
и DFCHI2)
Эти статистики измеряют изменения отклонения и статистики хи- квадрат Пирсона, соответственно, при удалении одного наблюдения.
Большие значения статистик позволяют обнаружить наблюдения, которые недостаточно хорошо описаны моделью.
Предсказанныевероятности
Здесь описано, как вычислить предсказанные вероятности принадлежности к группе и соответствующие доверительные интервалы.
Основное уравнение (1) может быть представлено, если включить априорные вероятности в свободный член, следующим образом:
После получения оценок регрессионных коэффициентов,
, оценкой левой части уравнения для набора значений независимых переменных Х будет
Доверительные интервалы для логитов можно получить в предположении, что регрессионные коэффициенты имеют асимптотически нормальное многомерное распределение. Однако их невозможно корректно преобразовать в доверительные интервалы для предсказанных вероятностей.
Логлинейнаямодель (LLM)
Логлинейные модели позволяют изучать соотношения между двумя и более дискретными переменными. Это метод многомерного анализа частот.

177
Обозначения
Для таблицы с двумя входами, у которой переменная строк А имеет I категорий (уровней) i=1,…, I, а переменная столбцов В имеет J категорий j=1,…, J, точная мультипликативная модель, определяющая частоты в ячейках f ij
, записывается как m
ij
= Nα
i
β
j
γ
ij
(1)
Здесь m
ij
= E(f ij
)
– ожидаемая частота в строке i и столбце j. Если m
ij оцениваются с использованием метода максимального правдоподобия, результат обозначается mH
ij
. Заметим, что
N = Σ
i,j f
ij
Основной вопрос, связанный с таблицей: являются ли независимыми А и В. Это можно проверить с помощью соответствующего теста χ
2
. В модели (1) независимость будет установлена, если все
γ
ij будут равны 1.
Для приведения формулы (1) к аддитивному виду проводится логарифмирование, после чего получим ln(m ij
) = θ + λ
i
A
+ λ
j
B
+ λ
ij
AB
(2)
Слагаемые λ
называются эффектами. Верхние индексы обозначают переменные, нижние индексы – категории этих переменных. Порядок эффекта равен числу переменных в верхнем индексе.
Поскольку полученная формула аддитивна, она называется логлинейной моделью. Из-за логарифмирования в данной модели присутствует ограничение: ни один из m
ij не равен 0.
В данной модели общее количество коэффициентов λ
составляет 1
+ I + J + I*J, что превышает количество частот в ячейках (которое составляет I*J). Если число параметров модели превышает или равно количеству ячеек, такая модель называется насыщенной (saturated).
Насыщенная модель точно воспроизводит наблюдаемые частоты.
Проверяя, равны ли определенные параметры λ
нулю, мы проверяем различные связи между переменными. Например, проверяя, являются ли все коэффициенты

ij
AB
}
i, j нулевыми, мы проверяем независимость переменных А и В.
Качествоподгонки
При выборе из нескольких вариантов моделей следует оценить качество каждой из них. Качество модели определяется качеством подгонки данных и проверяется с использованием одной из двух статистик χ
2
:

178 cтатистика Пирсона
χ
2
: χ
2
= 2 Σ
i,j,k
[(f ijk
- mH
ijk
)
2
/ mH
ijk
] и cтатистика максимального правдоподобия
G
2
=

i,j,k
f
i j k
ln ( f
i j k
/
m(
i j k
)
Обе эти статистики распределены как χ
2
, когда N велико и ни одна из частот mH
ij не является малой. Обе статистики имеют n-p степени свободы, где n – количество ячеек таблицы, p – количество параметров в модели, для которой вычислены mH
ijk
. В отличие от статистики χ
2
Пирсона, отношение правдоподобия G
2
имеет одно важное свойство – оно является аддитивным для частичных связанных моделей. Это позволяет проверять значимость отдельных членов модели.
С помощью этих статистик проверяется следующее утверждение: отличаются ли статистически значимо от 0 те члены насыщенной модели, которые не включены в текущую модель?
1   ...   7   8   9   10   11   12   13   14   15


написать администратору сайта