Главная страница

Тема 6. Вероятностные распределения данных V1. Типы вероятностных распределений Types of probability distributions Вариационный ряд


Скачать 1.12 Mb.
НазваниеТипы вероятностных распределений Types of probability distributions Вариационный ряд
Дата30.11.2022
Размер1.12 Mb.
Формат файлаpptx
Имя файлаТема 6. Вероятностные распределения данных V1.pptx
ТипДокументы
#820973

Типы вероятностных распределений

Types of probability distributions

Вариационный ряд (variational series) – это ряд числовых значений случайным образом изменяющегося признака, упорядоченных по величине (обычно – по нарастанию). Значения в вариационном ряду называют вариантами (variant).

Для удобства восприятия и анализа (чтобы не указывать одинаковые варианты, количество которых может быть весьма велико) вариационный ряд обычно представляют в виде упорядоченного списка значений вариант с указанием количества повторов каждой из них. Это количество повторов называется «частота варианты».

1) Исходный вид: 5 3 3 4 2 4 4 3 5 4 4 5 5 4 4 3 3 3 2 5 5 4 4 4 3 4 3 4 5 4 4 4 4 3 3 4 3 4 3 2 3 2 3 3 3.

2) 2 (n=4), 3 (n=16), 4 (n=18), 5 (n=7). Вместо 45 чисел осталось 8, при этом повысилась информативность представления данных.

Графическим выражением вариационного ряда является полигон частот – график, где значения оси Х соответствуют ряду вариант, упорядоченных по величине (по возрастанию), а значения оси Y – частотам соответствующих вариант.

Каждый вариационный ряд характеризуется особой формой полигона частот, определяемой специфическими закономерностями, управляющими соответствующим явлением или признаком.

Вид полигона частот при количестве замеров величины признака, стремящемся к бесконечности, называется вероятностным распределением данных (probability distribution). Вероятностное распределение данных – одно из основных понятий математической статистики.

Любое вероятностное распределение может быть охарактеризовано при помощи показателей центральной тенденции и разброса (дисперсии) данных.

К показателям центральной тенденции относятся: среднее арифметическое, медиана, мода.

К показателям разброса данных относятся:

– размах, минимальное значение, максимальное значение ряда данных (range/amplitude, minimal value, maximal value)

– процентили, квартили, межквартильный размах (percentile, quartile, interquartile range)

– дисперсия, среднеквадратическое отклонение, стандартная ошибка среднего (dispersion, standard deviation, standard error of the mean)

– доверительный интервал (confidence interval)

Распределения, являющиеся симметричными, могут описываться средним арифметическим и среднеквадратическим отклонением (M ± σ);

Для описания распределений, не являющихся симметричными, рекомендуется применять медиану и межквартильный размах. Межквартильный размах указывается в виде 25% и 75% процентилей. Пример: Ме (25%; 75%) = 60 (23; 78).

Во всех случаях, при любом виде распределений анализируемых данных допустимо использование 95% доверительного интервала как характеристики разброса значений в вариационном ряду.

Наиболее общеупотребительная и удобная форма представления вариационных рядов - т.н. ящичная диаграмма или «ящик с усами» (box-and-whisker plot)

Обычно центр «ящика» – это, по выбору исследователя, либо среднее арифметическое, либо медиана

Нижняя кромка «ящика» – чаще Q1, реже – (М–σ)

Верхняя кромка «ящика» – чаще Q3, реже – (М+σ)

Нижняя и верхняя засечки «усов» – обычно минимальное и максимальное значения вариант в ряду данных.

По выбору исследователя (либо программы) это могут быть 10-й и 90-й (или другие) процентили, а точки выше и ниже их будут показаны как т.н. «выбросы» – случайные артефакты измерений.

Ящичные диаграммы позволяют полностью представить себе все свойства анализируемых вариационных рядов, ввиду чего их используют чаще, чем постро­ение полигона частот либо гистограммы частот.

Один из важнейших видов распределений – т.н. нормальное или Гауссово распределение (может также называться «распределение Гаусса-Лапласа»).

Для ученого, занятого обработкой результатов биомедицинских исследований, фактически существует два варианта вероятностных распределений – нормальное и все остальные, поскольку в случае нормального (или близкого к нему) распределения анализируемых данных возможно применение т.н. параметрических методов статистической обработки, все же прочие варианты требуют использования т.н. непараметрических методов.

Важное значение нормального распределения в математической статистике вытекает из центральной предельной теоремы теории вероятностей: если результат наблюдения является совокупностью большого количества случайных слабо взаимозависимых величин, каждая из которых вносит малый вклад относительно общей суммы, то при увеличении числа наблюдений распределение получаемых данных стремится к нормальному.

Проще говоря, вероятностное распределение значений признака стремится к нормальному, если разница между результатами замеров величины данного признака обусловлена только случайными факторами, а число замеров стремится к бесконечности. Данное свойство нормального распределения чрезвычайно широко используется в различных (т.н. параметрических) методах статистического анализа, являясь их отправной точкой.

Нормальное распределение обладает рядом особенностей:

1. График плотности вероятности нормального распределения имеет колоколообразную форму и симметричен относительно вертикальной оси;

2. У графика нормального распределения одна мода, причем значения моды, медианы и среднего арифметического совпадают;

3. Расстояние от 25-го процентиля (1-го квартиля, 25‰) до медианы (2-го квартиля, 50‰) вариационного ряда равно расстоянию от медианы до 75-го процентиля (3-го квартиля, 75‰);

4. Главнейшим свойством графика плотности вероятности нормального распределения является то, что расстояние по абсциссе (горизонтальной оси) от среднего арифметического вариационного ряда (М), измеренное в единицах стандартного отклонения (σ), всегда дает одинаковую общую площадь под кривой:

– между ±1 стандартным отклонением находится 68,26% площади под кривой графика распределения;

– между ±2 стандартными отклонениями – 95,44% площади;

– между ±3 стандартными отклонениями – 99,72% площади.

Вероятность того, что значение, относящееся к данному вариационному ряду, окажется удалено от его среднего арифметического более, чем на три «сигмы», очень мала, составляя <0,3% («правило трёх сигм»).

Всякий вариационный ряд перед началом статистического анализа должен быть проанализирован на предмет соответствия нормальному распределению с целью выбора адекватных методов статистической обработки (параметрических либо непараметрических). Нормальное распределение в чистом виде в биологии и медицине почти никогда не встречается. Как правило, исследователи имеют дело либо с более-менее хорошим приближением наблюдаемого распределения к нормальному, либо с ассиметричными распределениями.

Хорошее приближение наблюдаемого распределения к нормальному (уровень тревожности среди респондентов на Украине (n=1725), данные 2008 г.)

Распределение, пик которого сдвинут влево, а «хвост» – вправо, называется «положительно смещенным» или «смещенным вправо». Распределение, пик которого находится справа, а «хвост» – слева, называется «отрицательно смещенным» или «смещенным влево». В обоих случаях распределение данных, внешне напоминая «колокол», не является нормальным и не подходит для обработки параметрическими методами статистического анализа. К сожалению, в большинстве случаев распределение данных, полученных в ходе биомедицинских исследований, является ассиметричным.

Нормальное распределение может иметь место только для непрерывных количественных признаков, таких, как рост, вес, возраст, температура тела, концентрация какого-либо метаболита и т.п.

Если изучаемый признак – качественный, порядковый либо количественный дискретный (например, число членов семьи, количество назначенных антибиотиков, число смен антибактериальной терапии, количество комнат в помещении и т.д.), его распределение априори не может быть нормальным, и статистическая обработка подобных признаков должна производиться с использованием непараметрических методов.

Способы выявления нормального характера распределения:

1. Визуальный анализ предварительно построенного полигона либо гистограммы частот – симметричность, колоколообразный вид;

2. Строгое доказательство симметричности распределения: среднее арифметическое = медиана = мода, расстояние от 25‰ до медианы равно расстоянию от медианы до 75‰;

3. Асимметрия (skewness) нормального распределения равна 0. Асимметрия распределения с длинным правым хвостом (смещенного вправо) положительна, с длинным левым хвостом (смещенного влево) – отрицательна;

4. Эксцесс (kurtosis), показывающий «остроту пика» распределения, для стандартного нормального распределения равен 0. Если эксцесс положителен, то пик заострен, если отрицателен – соответственно, закруглен;

5. Для проверки нормальности распределения можно также использовать построение графиков квантилей (т.н. Q-Q plot). На таких графиках по осям откладываются квантили двух распределений – эмпирического (т.е. построенного по анализируемым данным) и теоретически ожидаемого стандартного нормального распределения. При нормальном распределении данных в вариационном ряду точки на графике квантилей должны выстраиваться в прямую линию, исходящую из левого нижнего угла графика под углом 45° и приходящую в верхний правый угол. Графики квантилей особенно полезны при работе с небольшими по размеру выборками, для которых невозможно построить гистограммы, принимающие какую-либо определенную форму.

При небольшом числе наблюдений точки на графике квантилей не всегда могут образовывать четко выраженную прямую линию. Тем не менее, если график квантилей имеет однозначно криволинейный вид при большом числе наблюдений в выборке, это определенно свидетельствует о том, что распределение значений изучаемого признака в данной выборке не является нормальным.

Графики квантилей для пяти случайным образом сгенерированных нормально распределенных выборок (для каждой n=20)

В тех нередких случаях, когда график квантилей практически прямолинеен, за исключением нескольких крайних значений, можно попробовать удалить несколько наименьших и наибольших вариант из вариационного ряда (рассматривая их как артефакты, связанные с погрешностями измерений крайне низких и крайне высоких значений изучаемого признака); при этом распределение приобретет вид нормального. Тем не менее, такой подход нельзя рекомендовать, пока не исключены все остальные причины отличия вида наблюдаемого в эксперименте распределения от нормального.

График квантилей для выборки, распределение которой очевидным образом отличается от нормального (n=200)

График квантилей для выборки, распределение которой почти не отличается от нормального, за исключением нескольких крайних значений (n=200)

Более точную информацию о форме распределения можно получить с помощью критериев нормальности: критерия Колмогорова-Смирнова и W-критерия Шапиро-Уилка. Общепринятым методом проверки формы распределения является тест Колмогорова-Смирнова с поправкой Лиллиефорса. Считается, что указанный метод применим при числе наблюдений не менее 60; если же размер выборки (n) менее 60, лучше использовать критерий Шапиро-Уилка.

В общем виде проверяемую при помощи обоих тестов нулевую гипотезу можно сформулировать так: «Анализируемый вариационный ряд имеет нормальное распределение».

Если вычисляемая при помощи любого из перечисленных методов вероятность нулевой гипотезы р оказывается ниже некоторого уровня (обычно <0,05), нулевая гипотеза отклоняется, т.е. анализируемое распределение не является нормальным. Наоборот, если вычисленное значение р оказывается ≥0,05 (обычно ≥ 0,1), анализируемое распределение признается соответствующим нормальному.

Прочие часто встречающиеся виды вероятностных распределений:

Биномиальное распределение: напоминает нормальное, но описывается не плотностями вероятности, а вероятностями отдельных значений, т.е. оно не непрерывное, а дискретное.

Распределение Бернулли: дискретное распределение вероятностей, моделирующее случайный эксперимент, который может закончиться либо успехом, либо неудачей.

Распределение Пуассона: дискретное распределение количества событий, произошедших за фиксированное время, при условии, что данные события происходят с постоянной средней интенсивностью и независимо друг от друга.

Для ученого, занятого обработкой результатов биомедицинских исследований, фактически существует два варианта вероятностных распределений – нормальное и все остальные, поскольку в случае нормального (или близкого к нему) распределения анализируемых данных возможно применение т.н. параметрических методов статистической обработки, все же прочие варианты требуют использования т.н. непараметрических методов.

Понятие о норме

и патологии

с точки зрения статистики

Хотя распределения, с которыми имеет дело клиническая медицина, часто напоминают нормальное, это сходство поверхностное. Согласно экспериментальным данным, для большинства физиологических переменных вероятностные распределения представляют собой гладкие унимодальные ассиметричные кривые, причем площадь под кривой, ограниченная средним арифметическим ± 2σ, не включает желаемых ≈95% значений. Математических, статистических или каких-либо иных подходов, которые позволили бы предсказать форму вероятностного распределения результатов физиологических измерений, не существует.

Соответственно, большинство значений переменных, встречающихся в клинической практике, непросто разделить на «нормальные» и «патологические», поскольку эти переменные по природе своей не дихотомические.

Диапазон концентраций фенилаланина сыворотки крови у здоровых (белая кривая) и пациентов с фенилкетонурией, ФКУ (серая кривая)

У некоторых новорожденных с ФКУ уровень фенилаланина находится в пределах нормы либо в связи с тем, что они еще не потребляют достаточного количества белка, либо потому, что они имеют такой генотип, при котором заболевание протекает мягко. Вместе с тем, у некоторых детей, не имеющих ФКУ, регистрируются относительно высокие уровни фенилаланина, например, из-за нарушений его метаболизма у матери. Ввиду этого, результат теста принято считать положительным уже в нижней области патологических значений; сделано это для того, чтобы выявить максимально возможное число младенцев с ФКУ.

Итак, если между нормой и патологией не существует четкой границы, и врач выбирает ее по своему усмотрению, то какими основными правилами ему следует руководствоваться в случае принятия решения? Целесообразно использование трех критериев оценки состояния как патологического:

– состояние должно быть необычным,

– состояние должно проявляться болезнью,

– состояние должно улучшаться при лечении.

Эти три критерия не связаны между собой, поэтому, оценивая конкретный показатель, мы можем обнаружить, что по одним критериям он должен рассматриваться как патологический, а по другим – как нормальный.

Патология – необычное состояние

Норму принято рассматривать как наиболее часто встречающееся (обычное) состояние. Все, что случается часто, считается нормальным, и, наоборот, редкие события рассматриваются как патологические. Это статистическое определение, основанное на исследованиях частоты и уровня изучаемого признака в определенной популяции.

Однако, как уже указывалось, большинство биологических процессов описывается распределениями, отличными от нормального. Поэтому лучше представить необычные величины как часть (или процентиль) фактического распределения. Подобный подход позволяет непосредственно оценить, насколько редко встречается тот или иной признак, не вдаваясь в предположения о форме его распределения. При этом считается, что все величины, выходящие за пределы оговоренного промежутка значений, например, >95‰ или <5‰ распределения, являются патологическими (типичный пример – процентильные таблицы соотношения роста и веса детей в зависимости от их возраста.

В основе подобного определения нормы и патологии лежат тщательные многолетние популяционные исследования соответствующих признаков, важных для диагностики и лечения (например, уровня гемоглобина и лейкоцитов у здоровых лиц), причем подобные исследования необходимо регулярно (1 раз в 20-30 лет) повторять, поскольку человек и его условия обитания постепенно меняются, и параллельно изменяется характер распределения многих важнейших антропометрических и лабораторных признаков.

Некоторые крайние, явно необычные значения на самом деле предпочтительнее «нормальных». Это в первую очередь относится к величинам, находящимся вблизи нижней границы некоторых распределений. Такие значения свидетельствуют о том, что уровень состояния здоровья у обследуемого выше среднего, а риск заболевания – ниже среднего.

Иногда пациенты могут быть явно больны, несмотря на отсутствие отклонений результатов лабораторных диагностических тестов от обычных значений

Примерами служат гидроцефалия с низким внутричерепным давлением, глаукома без повышения внутриглазного давления, гиперпаратиреоз при нормокальциемии и т.д.

Патология – болезнь

Более строгий подход к разграничению нормы и патологии состоит в том, чтобы называть патологическими те признаки, которые обусловлены болезнью, инвалидностью или смертью, т.е. проявляются клинически значимыми отклонениями от здорового состояния.

Патология – состояние, поддающееся лечению

При некоторых состояниях, особенно таких, которые не сопровождаются жалобами (т.е. протекают бессимптомно), тот или иной признак следует считать патологическим только в случае, если лечение по поводу состояния, связанного с наличием этого признака, улучшает исход.

Представления о том, изменение каких признаков следует считать существенным в процессе лечения, меняются со временем. Например, накопленные данные о лечении больных артериальной гипертензией показали, что чем ближе значения диастолического давления к норме, тем лучше эффект от терапии.

Смещение к среднему

Когда результат теста слишком сильно отличается от нормы, врач склонен повторить анализ. Часто повторный результат оказывается ближе к норме. Почему это происходит? И следует ли доверять результатам повторного обследования?

У пациентов, отобранных по крайним значениям признака в вероятностном распределении, при последующих измерениях можно в среднем ожидать значения, меньше отклоняющиеся от нормы. Это обусловлено чисто статистическими причинами, а не улучшением состояния. Явление называется «смещение к среднему»(regression to the mean).

Феномен смещения к среднему можно объяснить так: пациентов отбирают для дальнейшей диагностики из-за того, что результат первого тестирования некоего показателя у них оказался выше произвольно выбранной точки его разделения на норму и патологию. Для многих пациентов результат останется патологическим и при последующих измерениях, поскольку у них истинные значения данного показателя действительно выше среднего. Однако у некоторых пациентов в момент первого измерения высокие значения были зарегистрированы лишь в силу случайной вариации. При повторном измерении у таких пациентов определяются более низкие значения, чем во время первого тестирования. Это явление определяет тенденцию к смещению среднего значения при повторных замерах в сторону средней популяционной величины для всей подгруппы лиц, имевших при первом измерении значение признака выше точки диагностического разделения.

Таким образом, у пациентов, отобранных в группу по необычно низкому или необычно высокому результату лабораторного теста, при повторном тестировании следует в среднем ожидать сдвига результатов к центру распределения. Более того, результаты повторных измерений будут все больше приближаться к истинному значению признака, а именно к тому, которое можно было бы получить при многократном повторении измерения у одного и того же пациента. Таким образом, проверенную временем практику повторения лабораторных тестов, результаты которых оказались патологическими, и использования нередко нормальных результатов повторных тестов в качестве истинных следует признать статистически обоснованной. Однако чем сильнее первоначальные значения отклоняются от нормы, тем выше вероятность обнаружения патологии и при повторном тестировании.


написать администратору сайта