Главная страница

Занятие Анализ качественных признаков


Скачать 2.8 Mb.
НазваниеЗанятие Анализ качественных признаков
Дата02.05.2023
Размер2.8 Mb.
Формат файлаpdf
Имя файлаLekciya.6.pdf
ТипЗанятие
#1101927
Занятие Анализ качественных признаков

Переменные
Количественные
Категориальные
(качественные)
Дискретные
(discrete)
Потеря информации и точности
Непрерывные
(continuous)
Порядковые
(
ordinal)
Номинальные
(nominal)
Категории
взаимоисключающие
(альтернативные) и неупорядоченные
Категории
взаимоисключающие
(альтернативные) и упорядоченные
Целочисленные
значения, типичные для
счета
Любые значения в определенном интервале
Эти признаки представлены неупорядоченными категориями, например, сельское или городское население, пол, группа крови, цвет и марка автомобиля, национальность и т. д.
Номинальные признаки
Номинальные признаки
часто встречаются в биологии и педагогике.
Порядковые признаки
Порядковые признаки отличаются от номинальных
тем,
что могут быть размещены в порядке возрастания
или
убывания например, уровень образования, степень тяжести состояния, балл успеваемости и т.п.).
Однако, в отличие от количественных признаков, они не дают информации о степени различий между находящимися рядом уровнями значений порядковой переменной. Не могут быть подвергнуты арифметическим

операциям.
Порядковые переменные, представляются
в виде чисел
Описательная статистика качественных данных
Данные представляют собой частоты) абсолютные в штуках) или) относительные в долях единицы, в процентах и др.).
Традиционен, но несколько более консервативен точный
метод Клоппера — Пирсона метод Джеффриса (Jeffreys’ CI for proportion) – наиболее рекомендуемый на сегодняшний день,
метод Уилсона (Wilson…), метод Агрести — Коулла Принято приводить и абсолютные, и относительные частоты, а последние снабжать 95% ДИ.
95% ДИ можно вычислить разными способами лучшие методы
Особенности использования методов расчёта доверительных интервалов для долей и частот
Ширина ДИ зависит от объема выборки чем > объем выборки, тем < будет его ширина
Изменение границ 95% ДИ
, рассчитанного по методу Уилсона
, в зависимости от объема выборки (значение долив выборке – 25%).
Пример. Из 100 проанализированных клеток 5 содержали хромосомные аберрации. Задание найти среднюю частоту аберрантных клеток и 95% ДИ для неё.
В пакете Границы 95% ДИ
по
Клопперу

Пирсону показаны в строке 95% conf.
interval (Средняя частота клеток с аберрациями составила (95% ДИ: от 1,6 % до Путь
Univariate

Single proportion test.
Графическое представление качественных (номинальных) признаков
Круговая диаграмма (Pie chart)
В пакете PAST
Параметры разброса для качественных данных:
Индексы разнообразия (indices of Показывают, насколько равномерно данные распределены по категориям. Разнообразие считается высоким, когда распределение более-менее равномерное, и низким, когда превалирует 1-2 категории
Индекс Шеннона-Винера (или Шеннона-Уивера)
p = доля объектов в той или иной категории число категорий.
Этих индексов много для разных целей это показатели
ОПИСАТЕЛЬНОЙ
статистики!
Сравнение двух выборок по качественным показателям
I.
Сравнение независимых выборок
Если категории упорядочить нельзя, то есть если данные представлены номинальной шкалой, анализ проводят критериями согласия или современными
рандомизационными критериями входе анализа
таблиц сопряжённости (ТС, contingency table).
Методов анализа ТС предложено много перечислим основные из них:
1)
критерий
хи-квадрат
Пирсона (Pearson’s Chi-square обозначается χ2 Пирсона или просто. Предложен Карлом Пирсоном ещё в 1901 г, но до сих пор популярен.
Есть во всех статистических пакетах Для критерия существует проблема допустимого

минимального значения в ячейке таблицы. То есть если это значение от 0 до 5 включительно, то
использовать этот критерии некорректно. Для анализа таких слабонасыщенных таблиц можно применить точный метод Фишера;
Критерии согласия
Распределение статистики χ
2
Условия применения критерия
χ2
:
1.
Включение в
анализ только качественных
(номинальных
или
порядковых) данных
(возможно создание порядковых категорий из непрерывных данных);
2.
Использование
только абсолютных фактических и
ожидаемых частот;
3.
Наблюдения должны быть независимы друг от друга;
4.
Сравниваемые
группы
должны быть также
независимы друг от друга
(критерий не может быть использован в случае исследований типа до – после»);
5.
Ожидаемое не фактическое) число наблюдений в
любой из ячеек таблицы должно быть не менее 5 или (для четырехпольных таблиц
).
6.
Доля ячеек таблицы с ожидаемым числом наблюдений
менее 5 не должна превышать 20% (для многопольных
таблиц
).
Познакомимся подробнее с критерием χ
2
Пирсона.
Пример. У пациентов определялся уровень общего холестерина в крови. Измерения разбиты на категории до 6,72 ммоль/л — норма 2) свыше 6,72 ммоль/л —
«повышенный»
уровень.
Параллельно отмечалось наличие заболеваний сердечно-сосудистой системы
(ССС).
Такая простейшая ТС называется таблицей 2×2 (два на два) или четырёхпольной таблицей.
Краевые частоты
Общее число наблюдений

Вопросы:
отличаются ли лица с
высоким и
нормальным холестерином частотами заболеваний ССС?
Если отличаются, то насколько сильно.
Расчёт относительных частот
Повышенный холестерин (ПХ). Доля больных равна 41 / 286 = 0,143, или 14,3 Нормальный холестерин
(НХ). Доля больных равна 51 / 1043 = 0,049, или 4,9 Необходимо убедиться, что эти два значения различаются статистически значимо
Риск заболеваний
ССС в группе с ПХ
-
0,143, в группе НХ
- 0,049.

2. Сравнение двух частот с помощью критерия Расчёт ожидаемых частот (expected По краевым суммам вычислим долю больных людей в популяции как 92/1329. Значит, в группе с повышенным

холестерином
должно наблюдаться 286 × 92 / 1 329, а в группе с нормальным холестерином 1043 × 92 /
1329 больных людей.

E
11
= 286
× 92 / 1 329 = 19,79 ≈ 19,8 (округлим до десятых 1 043
× 92 / 1 329 = 72,2;
E
12
= 286
× 1 237 / 1 329 = 266,2;
E
22
= 1 043
× 1 237 / 1 329 = Получим таблицу ожидаемых частот
Таблица ожидаемых частот имеет такую же общую сумму и такие же краевые частоты, как исходная, однако сами
частоты
внутри
соответствуют
нулевой
гипотезе
— отсутствию различий между выборками

2.2 Вычисление критерия χ
2
Пирсона
Критерий оценивает согласие наблюдаемых и ожидаемых частот (41
– 19,8)
2
/ 19,8 + (245
– 266,20)
2
/ 246,2 + (51
– 72,2)
2
/
72,2 + (992
– 970,8)
2
/ 970,8 = 22,70 + 1,69 + 6,22 + 0,46 = У людей с высоким холестерином больных было намного больше, чем ожидалось в соответствии с нулевой гипотезой.
Вклад первой ячейки- наибольший фактическое количество наблюдений в ячейке ij
E
ij
– ожидаемое число наблюдений в ячейке ij i
– номер строки (от 1 до r) j
– номер столбца (от 1 до с

2.3 Расчёт степеней свободы Оценка статистической значимости.
Полученное значение при нужном числе степеней свободы сравнивается с табличным 10.83 31.07 >>
10.83 Значит p << 0,001
→ отвергаем Н 31,07; P <<0,001 (различия высоко статистически значимы
распределение непрерывное.
И для заданного уровня значимости p мы не найдём точно соответствующего ему значения Вводиться поправка Йейтса на непрерывность (Yates’ с correction)
- уменьшали каждую разность между наблюдаемой и ожидаемой частотами в формуле на 0,5. Делает тест более консервативным.
Формула для расчета критерия с поправкой
Йейтса следующая

3. Оценка величины различий
В качестве показателей величины эффекта (effect

size) для различий частот используется несколько мер. Разность рисков (Risk Показывает, насколько риск события водной группе больше или меньше по сравнению с риском в другой.
Рассчитывается как простая арифметическая разность рисков, рассчитанных в п. 1. В нашем случае она равна 0,049 = п. 1

25 3.2. Отношение рисков или относительный риск, Risk
ratio, Relative risk
— Показывает, во сколько раз риск (частота) события водной группе больше или меньше по сравнению с риском в другой. Для равных рисков RR = 1. В нашем случае = 0,143 / 0,049 Тес увеличением содержания холестерина в сыворотке крови риск заболеваний ССС увеличиваются в раза
Отношение шансов (Odds ratio — Показывает, во сколько раз шанс события водной группе больше или меньше по сравнению с шансом в другой. Шанс отношение вероятности события к его альтернативе.
Шанс иметь заболевания
ССС
при
нормальном
холестерине:
51/992
=
0,0514
Следовательно, отношение шансов составляет = 0,16735/0,05141 = С увеличением содержания холестерина в сыворотке крови шансы заболеваний ССС увеличиваются в
3,26
раза.
В нашем случае при повышенном холестерине вероятность иметь заболевания ССС составляет 41/1329, а не иметь альтернатива) — 245/1329. Таким образом, шанс иметь заболевания ССС при высоком холестерине составляет
41/245 =
0,1673
В пакете PAST
точный метод Фишера
(Fisher’s exact предложен Р.
Фишером в 1954 г. для анализа слабонасыщенных таблиц и до сих пор популярен Однако теоретически он не очень хорош критерий основан на гипергеометрическом распределении, хотя используется для анализа
ТС
с данными,
имеющими биномиальное или полиномиальное распределение.
В настоящее время вместо него корректнее пользоваться рандомизационными критериями

Пример.
Изучается зависимость частоты рождения детей с
врожденными пороками развития (ВПР) от курения

матери вовремя беременности.
Две группы беременных женщин:
1.
Экспериментальная
- женщины, курившие в первом триместре беременности,
2.
Контрольная
- женщины,
ведущие здоровый образ жизни на протяжении всей беременности

N - общее число исследуемых в двух группах
! (факториал) - произведение числа на последовательность чисел, каждое из которых меньше предыдущего на 1 (например, 4! = 4 · 3 · 2 ·
1). В результате вычислений находим, что P = Исход есть Наличие ВПР)
Исхода нет Отсутствие ВПР)
Всего
Фактор риска есть Курящие = 10
B = 70
(A + B) = Фактор риска отсутствует Некурящие = 2
D = 88
(C + D) = Всего + C) = 12
(B + D) = 158
(A + B + C + D) = Точный критерий Фишера рассчитывается по формуле

Полученное
значение
0,0137
и есть уровень значимости различий сравниваемых групп по частоте развития ВПР плода.
Сопоставим данное число с критическим уровнем значимости,
обычно принимаемым в
медицинских исследованиях за В нашем примере P < 0,05, в связи с чем делаем вывод о наличии взаимосвязи курения и вероятности развития
ВПР
плода.
Частота
возникновения
врожденной
патологии
у
детей
курящих
женщин статистически значимо выше, чему некурящих
В пакете PAST

3)
рандомизационный критерий Монте-Карло
(permutation test, Monte Carlo случайным образом генерирует большое число (десятки и сотни тысяч) ТС с такими же краевыми частотами, как у исходной.
Название метода происходит от района
Монте-Карло,
известного своими казино.
Годом рождения термина метод Монте-Карло»
считается 1949 год, когда в свет вышла статья Н.
Метрополиса и С. Улама Метод Монте-Карло».
Стал практически доступен только с появлением компьютеров уровнях гг.

— похож на 3), но генерируются неслучайные таблицы с такими же краевыми частотами, а в точности всевозможные. Для ТС с большим числом наблюдений это может быть непосильной задачей даже для современных компьютеров, и тогда можно использовать предыдущий критерий.
Точный
рандомизационный
критерий

наиболее точный и современный метод, который
рекомендуется использовать во всех случаях, а
особенно — для анализа слабонасыщенных таблиц.
Не во всех статистических пакетах он есть) точный рандомизационный (перестановочный) критерий (Exact permutation test)

Сравнение зависимых выборок
В случае качественных номинальных признаков две зависимые выборки сравнивают критерием Макнемара
(McNemar testof Для не слишком малых выборок статистика критерия имеет распределение хи-квадрат с одной степенью свободы.
В случае малых выборок критерий становится слишком либеральным, поэтому вводится поправка
Эдвардса на непрерывность (Edwards’ с
Пример. Исследование до – после».
Оценка наличия изжоги до начала и
после окончания курса комплексного лечения язвенной болезни таблице.
В клетке A
- количество благоприятных исходов после воздействия фактора (исчезновение изжоги после курса лечения)
В клетке D
– количество неблагоприятных исходов после курса лечения изжоги, которой изначально не было).
Для расчета критерия Мак-Нимара используются данные только в этих двух клетках и значение, равное сумме значений этих двух клеток
(N = A + D). Значения в клетках B и С, также, как и общий объем выборки, при расчете критерия Мак-Нимара не используются
Для проверки гипотезы в случае, когда N > 50 (сумма значений в ячейках A и D, ноне объем выборки, рассчитывается значение χ2 по упрощенной формуле с числом степеней свободы, равным где | A – D | – абсолютное значение (модуль) разности значений соответствующих клеток (модуль разности, а единица вычитается с целью выполнения поправки на непрерывность.
Рассчитываем фактическое значение χ
2
:
χ
2
(31,13) >>
χ
2
cv
(10.83) Таким образом, предложенное комплексное лечение язвенной болезни статистически значимо уменьшает количество
пациентов, страдающих изжогой отвергается на уровне значимости (p << 0,001).
Оценка силы различий. В качестве показателя величины эффекта используется отношение шансов. Рассчитывается как отношение наддиагонального
и поддиагонального элементов таблицы OR = A / D. В нашем случае OR = 48 / 6 = Шансы выраженного лечебного эффекта предложенного комплексное лечение язвенной болезни враз выше, чем без него
Сравнение трёх и более выборок по качественным показателям
Таблицы сопряжённости (ТС) больше, чем таблицы Это таблицы
сопряжённости r×c
r
— rows — ряды, строки c — columns — колонки, столбцы)
I.
Сравнение независимых выборок
Этап 1. Омнибусный критерий. Проверяет согласие наблюдаемых и ожидаемых частот для всех ячеек таблицы. Используются критерии согласия или современные рандомизационные критерии, рассмотренные для таблиц 2×2. Если принимается, то констатируем отсутствие различий. Если отклоняется (р ≤ 0,05), то далее
Этап 2. Вместо апостериорных сравнений для таблиц сопряжённости проводят выявление ячеек, давших
наибольший и неслучайный вклад в отклонение от
нулевой гипотезы.
отклонений Фримана — Тьюки
(FreemanTukey deviation, или согласованных стандартизованных остатков residuals, AR)
, называемых также остатками Хабермана
С помощью расчёта:
Пример. Среди 282 членов актёрской ассоциации был проведён социологический опрос. При этом отмечался пол и цвет волос респондента. Задание оценить различия между мужчинами и женщинами по соотношению обладателей волос разного цвета. Если различия есть, то установить, в чём они?
Вопрос можно переформулировать и для задачи сравнения нескольких групп различаются ли обладатели волос разного цвета соотношением полов
В пакете Если в таблице есть значения
5 и менее (наш случай) выписываем p, вычисленное рандомизационной процедурой Монте-Карло.
Вывод промежуточный мужчины и женщины статистически значимо различались соотношением обладателей волос разного цвета критерий хи-квадрат Пирсона χ
2
(3)
= 9,19; р =
0,026.
Различия обнаружены, но пока непонятно, в чём именно они заключаются.
Далее
1)
расчёт относительных частоты (в процентах)
2)
выявление ячеек, давших неслучайный вклад в статистику критерия
Построим мозаичный график, где площадь плитки пропорциональна частоте. Видно - в выборке почтив раза больше женщин. Наиболее сильные различия между полами наблюдались по светлому цвету волос женщин-блондинок было заметно больше

1)
Расчёт относительных частот.
Например, для ячейки 11 (r = 1, c = 1 — мужчины сч рными волосами) имеем 32 / (32 + 43 + 16 + 3) = 32 / 94 = или 34,0 Итоговая таблица в процентах:
Наиболее сильные различия наблюдаются подоле обладателей светлых волос:
среди мужчин - 17,0 среди женщин - 34,0 %
Выявление ячеек,
давших неслучайный вклад в
статистику критерия
Расчёт согласованных стандартизованных остатков.
Знак остатков указывает на направление отклонения.
плюс - несколько больше, минус - несколько меньше, чем ожидалось в соответствии с нулевой гипотезой.
Статистическая значимость остатков.
Сравнение зависимых выборок
При зависимых выборках в ячейках таблицы два или более раз фигурируют одни и те же объекты исследования (образцы,
животные, люди и т. д.).
Анализ обычно проводят с
использованием
критерия
симметрии Боукера (Bowker’s symmetry test), который является обобщением критерия
Макнемара на случай нескольких зависимых выборок, и может называться в критерием Макнемара — Боукера.
Реже применяют критерии краевой однородности (marginal
homogeneity tests)
Стюарта — Максвелла (или Бхапкара (Bhapkar’s Их числовые значения близки и на практике все они обычно приводят к одинаковым выводам
В исследования у пациентов глазной клиники, имеющих катаракту обоих глаз, регистрировался её тип в левом и правом глазу. Получены следующее данные:
Пример. Разные типы катаракты - разная этиология.
Вероятно должно наблюдаться соответствие между типами катаракты,
развивающейся в
левом и правом глазу больного.
Задание: определить, отличаются ли левый и правый глаза по частотам развития катаракты трёх типов

Критерий
Боукера
оценивает
нарушение
симметрии
наддиагональной и поддиагональной частей таблицы
Критерии краевой однородности Стюарта — Максвелла и Бхапкара оценивают различия в краевых частотах.
Расчёт критерия Боукера.
1. Находим диагональ таблицы, значения в ячейках которой указывают на сходство зависимых выборок. Они не помогают нам выявить различия между выборками, а потому не участвуют в расчётах: зачеркнём диагональю значения
Находим пары значений, симметричные относительно диагонали, и подставляем их в формулу критерия Боукера.
В ходе расчёта критерия подчеркнём слагаемое, давшее максимальный вклад в статистику критерия 4,5714. Значение статистики округлим до сотых Рассчитываем степени свободы как число слагаемых в критерии Боукера или по формуле df = i (i – 1) / 2, где число категорий
= 3
× (3 – 1) / 2 = 3 × 1 = Оценка статистической значимости
.
Полученное значение с табличным. В нашем случае 5,82
<7,81 и р 0,05, следовательно, различия незначимы.
Наиболее сильные различия наблюдались для пары ядерной и кортикальной катаракты 4,5714 / 5,8214 = 0,785, или 78,5 % всех различий между правыми левым глазом. Если бы различия были статистически значимы, то мы бы считали, что при ядерной катаракте в левом глазу в правом чаще развивается кортикальная катаракта отношение шансов OR = 11 / 3 = 3,67.
В
нашем случае различия небыли статистически значимыми.
Констатируем отсутствие каких бы тони было различий
между правыми левым глазом в развитии катаракты
трёх типов
Сравнение экспериментальных и теоретических частот
При скрещивании двух гетерозиготных гибридов гороха было получено потомство 84 желтых и 16 зеленых выборка получена из популяции,
где соотношение желтых и зеленых – выборка получена из популяции,
где соотношение желтых и зелёных неравно желтые зелёные всего 75 16 25 100 100
E
i

 

320 4
240 3
080 1
25 25 16 75 75 84 2
2 2








χ
2
cv
= отвергнута, те. соотношение гороха не соответствует ожидаемому = k-
1=2-1=1






k
i
i
i
i
E
E
O
1 2
2

4.320 ≥ 3.841, → отвергаем Н
Поправка Йейтса для критерия χ
2
(
Yates correction for Для заданного теоретического распределения может принимать только строго определённые значения для разных наблюдаемых распределений.
Например: если ожидаемые частоты – 75 и 25, то значения будут для 84 и 16 – для 83 и 17 – для 82 и 18 – промежуточных значений не может быть для данных ожидаемых частот
Но распределение непрерывное. И для заданного уровня значимости p мы не найдём точно соответствующего ему значения с поправкой Йейтса:
В пакете Вывод соотношение мышей в
эмпирической выборке не соответствует ожидаемому соотношению 3:1 (χ
2
(1)
= Р = 0,038).
Анализ связей между номинальными показателями
Традиционно связь между двумя и более качественными номинальными показателями —
ассоциацией
(association).
Для качественных номинальных признаков оценка силы связи

(ассоциации)
признаков проводится
по
таблицам
сопряжённости.
Для оценки ассоциации на этапе мы рассчитываем критерии типа хи-квадрат, 2 этапе — специфические меры ассоциации. Наиболее часто используются коэффициент сопряжённости Пирсона в том числе в модификации Сакоды)
коэффициенты ассоциации Крамера или Чупрова
Коэффициент ассоциации Крамера
где min (r – 1, c – 1) — минимальное из двух значений числа рядов или числа колонок таблицы за вычетом единицы
(для таблицы 2×2 это всегда 1); n общий объем выборки.
Коэффициент сопряжённости Пирсона
Основные критерии, используемые для оценки силы связи между номинальными переменными
Все эти коэффициенты изменяются от 0 (отсутствие связи) до +1 (максимально возможная связь. Если есть возможность установить направление связи, то он м судят по частотам ТС. Интерпретация значений критериев φ и V Крамера согласно рекомендациями
Пример.
Проанализируем уже знакомые данные по холестерину и заболеваниям сердца:
Сформулируем задачу не в терминах поиска различий, а в терминах поиска связи.
Задание: определить, существует ли связь между уровнем холестерина и заболеваниями ССС?
В пакете Обе меры близки и с точностью до десятых равны 0,15. Значения <
0,2 -слабая по силе ассоциация.
Коэффициент ассоциации
Крамера (Cramer’s V) Коэффициент сопряжённости
Пирсона (Contingency C).
Вывод.
Обнаружена слабая, но высоко статистически значимая прямая связь между уровнем холестерина в
сыворотке и
заболеваниями сердечно-сосудистой системы:
коэффициент ассоциации Крамера V = 0,15; р
<<0,001.
Спасибо за внимание


написать администратору сайта