Описательная статистика Литература - Гланц С. Медико-биологическая статистика. Пер с англ. - М.: Практика, 1998. – 459 с.
- Зайцев В.М., Лифляндский В.Г., Маринкин В.И. Прикладная медицинская статистика. СПб.: Фолиант., 2006.- 432 с.
- Банержи А. Медицинская статистика понятным языком / Пер. с англ. В.П. Леонова. М.: Практическая медицина, 2007. – 287 с.
- Петри А., Сэбин К. Наглядная статистика в медицине / Пер. с англ. В.П. Леонова. – М.: ГЭОТАР-МЕД, 2009. – 168 с.
- «Придет время, и статистическое мышление станет таким же необходимым качеством для истинного гражданина, как умение читать и писать»
Герберт Уэллс - Слово «статистика» происходит от латинского status — состояние дел.
- Примеры использования в странах Древнего мира: переписи населения в Древнем Китае, сравнение военного потенциала государств, учёт имущества граждан в Древнем Риме и.т.д.
Статистика – наука, в которой излагаются общие вопросы сбора, измерения и анализа массовых количественных или качественных данных Биометрия (биостатистика) – статистика медико-биологических исследований. Значение статистики: • это инструмент для анализа экспериментальных данных и результатов популяционных исследований; • это язык, с помощью которого исследователь сообщает полученные им результаты и благодаря которому он понимает медико-статистическую информацию; • это элемент доказательной медицины; • это база для обоснования принятия управленческих решений. Анализ результатов исследования 1. Описательная статистика (средние величины, относительные величины, параметры разброса) 2. Сравнительная статистика (выбор критерия для сравнения) 3. Определение связей между признаками (корреляционный анализ) 4. Прогнозирование (регрессионный анализ, оценка выживаемости) 5. Классификация (дискриминантный анализ, кластерный, факторный анализ) Цель описательной (дескриптивной) статистики Количественные
(числа)
Учетные признаки
Непрерывные (шкалы измерения не прерываются –рост, вес и др.)
Дискретные
(только целочислен-ные значения)
Порядковые
(стадия заболевания, степени выраженности)
Номинальные
(пол, должность, место жительства)
Качественные
(понятия)
Виды учетных признаков
Вариационный ряд (frequency table)- ранжированный ряд распределения
по величине какого-либо признака.
Признак носит название варьирующего, а его отдельные числовые значения называются вариантами (v).
Число, показывающее, сколько раз данная варианта встречается в вариационном ряду, называется частотой (р), общее число значений в ряду - n
- В совокупности индивидуальные значения признаков сливаются в общую массу и как бы растворяются.
- Отсюда и средняя выступает как «обезличенная» величина, которая может отклоняться от индивидуальных значений признаков, не совпадая количественно ни с одним из них.
- это обобщающий показатель статистической совокупности, который погашает индивидуальные различия значений статистических величин, позволяя сравнивать разные совокупности между собой.
- это обобщающий показатель, характеризующий типичный уровень варьирующего признака в расчете на единицу однородной совокупности в конкретных условиях места и времени
Средняя величина –
Среднее арифметическое Среднее арифметическое n значений обозначают М и определяют как
Взвешенное
Простое Группы студентов по весу, кг
| Количество студентов, чел.
| Середина интервала
| vp
| до 60
| 60
| 55
| 3300
| 60 – 70
| 80
| 65
| 5200
| 70 - 80
| 50
| 75
| 3750
| более 80
| 50
| 85
| 1700
| Итого
| 210
| | 13950
| M=13950/210 = 66,4 кг
Главное условие! - Для того чтобы М отражала наиболее типичное значение признака, она должна определяться не для любых совокупностей, а только для совокупностей, состоящих из качественно однородных единиц.
- Средняя, рассчитанная по совокупности в целом, называется общей средней, средние, исчисленные для каждой группы, – групповыми средними.
- Общая средняя отражает общие черты изучаемого явления, групповая средняя дает характеристику размера явления, складывающуюся в конкретных условиях данной группы.
Средние величины - Мода (Мо) (mode)- наиболее часто встречающаяся в вариационном ряду варианта
- Медиана (Me)(median) -варианта, которая делит вариационный ряд на две равные части.
Выбор среднего значения для описательной статистки Вид распределения - соответствие, устанавливаемое между всеми возможными числовыми значениями случайной величины и вероятностями их появления в совокупности
Кривая нормального распределения
Нормальное (гауссово, симметричное, колоколообразное) распределение – описывает совместное воздействие на изучаемое явление случайно сочетающихся факторов, число которых неограниченно велико.
Характеризует распределение непрерывных случайных величин.
Р
Х
х – значения случайной величины;
р – вероятность появления данного значения в совокупности.
Ассиметричное распределение Кривая нормального распределения
Ассиметричное распределение
Мода (Мо) (mode)- наиболее часто встречающаяся в вариационном ряду варианта. Мода используется для дискретных величин: - - при малом числе наблюдений, когда велико влияние состава совокупности на среднюю
- - для характеристики центральной тенденции при ассиметричных распределениях, когда велико влияние на среднюю крайних вариант
Пример использования моды: требуется определить среднюю длительность нетрудоспособности рабочих промышленного предприятия. М = 7,3 Мо=4 Число дней госпитализации
| 3
| 4
| 5
| 6
| 7
| 18
| 20
| 25
| 40
| Итого
| Число рабочих
| 3
| 20
| 9
| 7
| 5
| 2
| 1
| 2
| 1
| 50
| Бимодальное распределение - Если 2 числа в ряду встречаются одинаковое число раз, но больше всех остальных – в ряду 2 моды
- Если эти числа расположены рядом – мода будет равна их сумме, разделенной на 2.
Медиана (Me)(median) -варианта, которая делит вариационный ряд на две равные части. Медиана используется для дискретных и непрерывных величин: - - при необходимости знать, какая часть вариант лежит выше и ниже срединного значения ;
- - для характеристики центральной тенденции при ассиметричных распределениях.
- Форма отображения – Ме (Q25;Q75)
Пример: - вариационный ряд возраста заболевших имеет следующий вид – 5,5,5,5,5,5,5,5,6,6,30,80.
- Средняя арифметическая составляет 13,5 лет, в то время как ни одного больного с таким возрастом в этом ряду нет.
- Медиана, равная, 5 гораздо точнее характеризует центральную тенденцию признака в данной совокупности.
Правила определения медианы - В ряду с нечетным количеством значений – медиана находится посередине ряда.
- При четном количестве значений – медиана равна полусумме двух центральных чисел.
Название квантилей
Число частей, на которые
разбивается ряд
Медиана
2
Терциль
3
Квартиль
4
Дециль
10
Процентиль
100
Вариационный ряд можно разбивать на отдельные (по возможности равные) части, которые называются квантилями (quantile). Наиболее часто употребляемые квантили:
Как определить квартили? - 1.Вариационный ряд длительности заболевания в годах (нечетный):
- 1, 5, 6, 7, 9, 12, 15, 19, 20
- Делим ряд на 2 половины
- (1, 5, 6, 7, 9) и (9, 12, 15, 19, 20).
- Квартили - 6 и – 15
- 2.Ряд четный: 5, 6, 7, 9, 11, 12, 15, 20
(Ме=10) - делим на ряд на 2 половины
- (5, 6, 7, 9) и (11, 12, 15,20).
- Квартили - 6,5 и 13,5
Медиана и квартили - Например, исследуемый признак – «срок, в котором ребенок начал самостоятельно ходить» - в исследуемой группе имеет ассиметричное распределение.
- При этом, нижнему квартилю (Q25) соответствует срок начала ходьбы – 9,5 месяцев, медиане – 11 месяцев, верхнему квартилю (Q75) – 12 месяцев.
- Соответственно, характеристика средней тенденции указанного признака будет представлена, как
11 (9,5; 12) месяцев. Внешний предел = 2 шага от 1(3) квартиля
Внутренний предел = 1 шаг от 1(3) квартиля (ВК+1,5(ВК-НК))
МКД (межквартильный диапазон) разница между значением 1го и 3го квартилей
Области:
Смежная – от МКД до внутреннего предела
Внешняя – от внутреннего до внешнего предела
Удаленная – дальше внешнего предела
Выброс – во внешней области (кружок)
Экстремум – в удаленной области (звездочка)
Стандартный вариант графика с для медиан
Ящичная диаграмма (box and whiskers) Почему необходимо отражать разнообразие признака в описательной статистике? Средний рост данных групп одинаков! - Наиболее полную характеристику разнообразия признака в статистической совокупности дает среднее квадратическое отклонение
- (σ, standart deviation (SD)),
- является общей мерой отклонения вариант от своей средней величины. - Форма отображения M±σ
D = σ2
68,3 % всех вариант отклоняются от своей средней не более, чем на σ
95,4% вариант находятся в пределах М ± 2σ
99,7% вариант находятся в пределах М ± 3σ.
Отклонение параметра от его средней арифметической в пределах σ расценивается как норма, субнормальным считается отклонение в пределах ± 2σ и патологическим - сверх этого предела, т.е. > ± 2σ»
Правило «трех сигм»
Основные характеристики (параметры) нормального распределения
Среднее арифметическое значение (М)
Стандартное (среднеквадратическое) отклонение (σ)
Количество наблюдение (n)
D = σ2
Применение среднеквадратического отклонения - для суждения о степени однородности вариационных рядов и оценки типичности средних арифметических величин.
- для выявления «выскакивающих» вариант
- для определения параметров нормы и патологии с помощью сигмальных оценок
- для расчета коэффициента вариации
- для расчета стандартной ошибки средней арифметической величины
Коэффициент вариации - отношение среднего квадратического отклонения к средней величине признака. Выражается в процентах.
Коэффициент вариации - градации степени разнообразия признака:
- - слабое — до 10 %
- - среднее — 10 - 20 %
- - сильное — более 20 %
- Совокупность считается однородной, если коэффициент вариации не превышает 30%
- Сильное разнообразие свидетельствует о нецелесообразности использования М в практических целях.
Учетный признак
| Среднее арифметическое
| Среднее квадратическое отклонение σ
| Коэффициент вариации, %
| Стаж работы (лет)
| 8,7
| 2,8
| 32,1
| Возраст (лет)
| 37,2
| 4,1
| 11,0
| Образование (классов)
| 9,2
| 1,1
| 11,9
| Состав работников промышленного предприятия
Доверительный интервал - Средние значения отражают только уровень признака в выборке!!!
- Как перенести эти данные на генеральную совокупность?
Доверительный интервал - вокруг выборочного среднего значения строится интервал, который бы с заданной вероятностью – доверительной вероятностью – «накрывал» бы истинное значение этого параметра в генеральной совокупности.
- Этот интервал называется доверительным интервалом.
Центральная теорема Муавра - Устанавливает природу выборочного распределения большого числа средних, извлеченных из генеральной совокупности.
- Для бесконечного числа независимых случайных выборок одинакового объема, извлеченных из генеральной совокупности, распределение их выборочных средних будет стремиться к нормальному распределению, при объеме выборки, стремящемся к бесконечности
Кривая распределения
для выборочных средних
Р
Х
Стандартная ошибка - Для средней:
- Для доли:
Например, процент выздоровления среди больных составил (95,2±1,5)%. В малых выборках – n-1 Доверительный интервал - Для нормального распределения:
- 68,3% всех выборочных средних попадают в интервал M±m
- 95,5% - в интервал M±2m
- 99,9% - в интервал M±3m
Форма записи (пример) - Частота пульса
- М = 70 уд/мин, m=2 уд/мин
- 70 (ДИ 95% 66-74) уд/мин
Пример ошибок - М±m или М±σ?
- Возраст 8±2 лет
- Если это m, то по σ получаем - 8±9 лет
- По медиане – 8 (7; 32) лет
!!!!! - Для выбора метода, сравнительной статистики необходимо знать распределение переменной.
- Для этого применяются критерии Колмогорова-Смирнова и Шапиро-Уилкса.
- Можно построить гистограмму
- Можно посмотреть ящичную диаграмму (должна быть симметрична)
Гистограмма Вариационный ряд разбивается на одинаковые интервалы.
Высота столбика – количество единиц наблюдения в интервале.
Таким образом - Среднее арифметическое наиболее точно характеризует центральную тенденцию при нормальном распределении.
- Медиана – при ассиметричном распределении и при высокой вариабельности признака.
|