Главная страница
Навигация по странице:

  • 3.8. Анализ взаимосвязи между параметрами статистической совокупности

  • Обратная – динамика параметров разнонаправлена – увеличение одного параметра обуславливает уменьшение другого.

  • Средняя r=0.30-0.69 Сильная

  • Коэффициент ранговой корреляции Спирмена

  • 3.9. Методы многофакторного анализа

  • Благодаря использованию методов корреляционно-регрессивного, факторного, дисперсионного, кластерного анализа медицинская статистика превратится из описательной в аналитическую

  • Книга БИОСТАТИСТИКА (Автосохраненный). Биостатистика


    Скачать 1.08 Mb.
    НазваниеБиостатистика
    АнкорКнига БИОСТАТИСТИКА (Автосохраненный).docx
    Дата13.03.2017
    Размер1.08 Mb.
    Формат файлаdocx
    Имя файлаКнига БИОСТАТИСТИКА (Автосохраненный).docx
    ТипДокументы
    #3728
    страница14 из 19
    1   ...   11   12   13   14   15   16   17   18   19

    Таблица 22. Результаты лечения больных по отдельным методикам


    Методика лечения

    Всего

    больных

    Результаты лечения – Р (фактические данные)

    хорошо

    удовлетворительно

    неудовлетворительно

    I

    50

    36

    11

    3

    II

    80

    48

    17

    15

    III

    70

    25

    25

    20

    Всего

    200 (100%)

    109

    53

    38




    1. Рассчитываем «ожидаемые» результаты согласно «нулевой» гипотезе, основой|основанием| которой|какой| является доказательство, что разницы|разности| между результатами лечения за отдельными методиками нет. В этом случае за основу|основание| берем общее деление|разделение| больных, вылеченных всеми методами. Числовая характеристика «нулевой» гипотезы составляет: хорошие результаты в целом имели 54,5 %, удовлетворительные — 26,5 % | и неудовлетворительные — 19 % больных. В соответствии с|соответственно| указанным делением|разделением| определяют «ожидаемые» данные результатов лечения за отдельными методиками (значение определяем в целых числах) — таблица. 23.

    Таблица 23.



    Методика лечения

    Всего

    больных

    Результаты лечения – Р1 (ожидаемые данные)

    хорошо

    удовлетворительно

    неудовлетворительно

    I

    50

    27

    13

    10

    II

    80

    44

    21

    15

    III

    70

    38

    19

    13

    Всего

    200 %

    109 (54,5%)

    53 (26,5%)

    38 (19%)

    1. Сопоставляем фактические и теоретические данные (их разницу|) с расчетом величины отклонения и учетом| его направления (знака) — таблица. 24.


    Таблица 24.


    Методика лечения

    ( Р - Р1 )

    хорошо

    удовлетворительно

    неудовлетворительно

    I

    9 (36-27)

    -2 (11-13)

    -7 (3-10)

    II

    4 (48-44)

    -4 (17-21)

    0 (15-15)

    III

    -13 (25-38)

    6 (25-19)

    7 (20-13)

    Всего

    0

    0

    0




    1. Рассчитываем квадрат отклонения теоретических данных от фактических и средний квадрат отклонения на одну «ожидаемую» группу. Данный этап расчета имеет такой вид в связи с тем, что на основе фактических отклонений невозможно определить его суммарную величину, поскольку она равняется нулю. При возведении отклонений в квадрат определяем их параметры для каждой группы (р — р1)2. Учитывая разное число больных в исследуемых группах величина отклонений может быть разной, потому квадрат их делимо на число соответствующих наблюдений каждой группы — (р — р1)2 / р1. Проведя расчеты, определяем (р — р1)2 и (р — р1)2 / р1. (таблица 25).


    Таблица 25.


    Методика лечения

    ( Р - Р1 ) 2

    ( Р - Р1 ) 2 / Р1

    хорошо

    удовлетворительно

    неудовлетворительно

    хорошо

    удовлетворительно

    неудовлетворительно

    I

    81

    4

    49

    3

    0,3

    4,9

    II

    16

    16

    0

    0,4

    0,8

    0

    III

    169

    36

    49

    4,4

    1,9

    3,8

    Σ=19,5




    1. Определяем X2— итог результатов последнего этапа расчетов. В нашем случае X2= 19,5.
      Сравниваем его с табличным значением, учитывая число степеней свободы (n1), которые определяют по формуле:


    n1= (S-| 1) (г-| 1),

    где S — число групп больных (для нашего примера |приклада| - три).

    г — число результативных групп (три).

    |Число степеней свободы n1= (3 - 1) (3 - 1) = 4.


    Выбор метода оценивания достоверности в пользу непараметрического решается в случаях, когда:

    — есть сомнения в нормальности распределения чисел;

    — если недостает данных;

    — если анализируется качественный признак.


    Полученный результат превышает табличное значение X2 для n1 = 4 по всем уровням достоверности. Следовательно, мы можем сделать вывод о существенности (достоверность) разницы между показателями при разных методах лечения — «нулевая» гипотеза не подтвердилась.
    Вопросы для контроля:

    • В каких случаях целесообразно использовать параметрические критерии?

    • Какие преимущества имеют непараметрические критерии?

    • Какие непараметрические критерии используют для оценивания достоверности разности |разносрезультатов исследования во взаимосвязанных совокупностей?

    • Какие непараметрические критерии используют для оценки достоверности разности|разность| результатов исследования в независимой совокупности?

    3.8. Анализ взаимосвязи между параметрами статистической совокупности
    В подразделе описана сущность метода корреляционно регрессионного анализа, его практическое значение и методика расчета коэффициентов корреляции и регрессии.

    Вопросы для изучения:

    Когда возникает необходимость применения корреляционного анализа?

    • В чем заключается адекватность выбора рангового или линейного коэффициента корреляции?

    • Что характеризует коэффициент регрессии?

    Цель: обосновать необходимость использования метода корреляционно регрессионного анализа; научить рассчитывать ρ и анализировать коэффициенты корреляции и регрессии.

    Все изменения, которые происходят в природе, являются взаимосвязанными и взаимообусловленными. Изменчивость определенного признака как следствие изменчивости других параметров, в свою очередь, обуславливают изменчивость других признаков. Однако, указанная зависимость в отдельных ситуациях проявляется по-разному. Функциональная связь часто присутствует при изучении химических и физических явлений, в математике, геометрии.


    Когда при изменении одного параметра на определенную величину всегда происходит изменение другого также на определенную фиксированную величину, можно говорить о функциональной зависимости между ними.



    В медико-биологических исследованиях зависимость между отдельными параметрами не является функциональной связью. При изменении одного признака невозможно абсолютно точно спрогнозировать величину, на которую изменяются другие. Примером такой корреляционной связи является зависимость веса и роста детей, тяжести патологии и сроков лечения, концентрации вредных веществ в рабочей зоне и уровень заболеваемости работников.


    Когда определенному значению одного параметра может отвечать несколько значений другого, идет речь о корреляционной связи.



    Определение характера связи между определенными параметрами проводят путем расчета коэффициента корреляции, который в зависимости от его характера и формы представления данных может быть рассчитан разными методами.
    Таблица 26.


    Направленность связи – определяется по знаку коэффициента корреляции.

    Прямая связь – динамика параметров является однонаправленной – увеличение одного параметра обуславливает увеличение другого.

    Обратная – динамика параметров разнонаправлена – увеличение одного параметра обуславливает уменьшение другого.

    Сила связи

    Слабая

    r=0.01-0.29

    Средняя

    r=0.30-0.69

    Сильная

    r=0.70-0.99


    Коэффициент парной корреляции отображает характер связи 2 признаков. Он может быть рассчитан при сопоставлении двух рядов в виде рангового коэффициента корреляции (ρ) и линейного коэффициента корреляции (r).

    Парный коэффициент корреляции дает характеристику обобщенного «неочищенной» связи между параметрами. При этом возможное влияние других факторов, которые не учитываются, потому самостоятельная ценность парного коэффициента несколько ограничена.



    Корреляционная зависимость различается по направлению, силе и форме связи (таблица 26).

    По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.
    Максимальное возможное абсолютное значение коэффициента корреляции r = 1,00; минимальное r = 0,00.

    Коэффициенты регрессии достаточно широко используются для построения уравнений регрессии при разработке многих медико-социальных и клинических проблем, в том числе для оценивания физического развития детей и подростков. Данные уравнения — это математическая модель, которая описывает характер взаимосвязи между исследуемыми параметрами. Это особенно актуально при построении многофакторных моделей и прогнозировании уровней результативного параметра системы при фиксированных уровнях отдельных компонентов (показателей). Коэффициент регрессии показывает, на какую величину в среднем изменится второй параметр при изменении первого на определенную единицу измерения.



    Коэффициент ранговой корреляции Спирмена - это непараметрический метод, который используется с целью статистического изучения связи между явлениями.

    Практический расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:

    1) Определить каждому из признаков их порядковый номер (ранг) по возрастанию (или убыванию).

    2) Определить разности рангов каждой пары сопоставляемых значений.

    3) Возвести в квадрат каждую разность и суммировать полученные результаты.

    4) Вычислить коэффициент корреляции рангов по формуле:
    ρ =1-

    где s05_2- сумма квадратов разностей рангов, а s05_3 - число парных наблюдений.

    Для оценки достоверности коэффициент корреляции должен превышать свою погрешность не меньше, чем в 2,5 – 3 раза при достаточном числе наблюдений.


    Методика расчета на примере характеристики взаимосвязи стажа работы работников угольной промышленности и частотой заболеваний на бронхит в них.

    Стаж работы (годы)

    Х

    Частота заболеваний на бронхит (на 100 работников)

    У

    Порядковый номер (ранги)

    Разница рангов

    Квадрат разницы рангов

    Х

    У

    До 5

    3,31

    1

    1

    0

    0

    5-9

    3,91

    2

    2

    0

    0

    10-14

    8,06

    3

    3

    -1

    1

    15-19

    5,77

    4

    4

    1

    1

    20 и больше

    10,76

    5

    5

    0

    0


















    Подставляем полученные результаты в формулу:

    =1-6*2/5*(25-1)=

    ВЫВОД: между стажем работы работников и частотой заболевания на бронхит выявлено сильную, прямую корреляционную связь.

    Ошибка рангового коэффициента корреляции для нашего случая исчисляется по формуле:

    m=

    для нашего случая m1=0,245 и t=3,67, что, соответственно, выше граничных значений. Полученный результат позволяет сделать вывод о вероятности данного рангового коэффициента корреляции.

    При большом числе наблюдений ( n> 100) средняя погрешность рангового коэффициента корреляции может быть определена по формуле:

    mp=
    Оценка достоверности коэффициента корреляции проводиться по тем же принципами, что используются для других показателей с учетом числа наблюдений (числа степеней свободы вариационных рядов n` = n – 2).

    Один из методов расчета коэффициента линейной корреляции был предложен К.Пирсоном. Формула для подсчета коэффициента корреляции Пирсона такова:

    r =

    X и Y – варианты сравниваемых вариационных рядов;

    dx и dy – отклонение каждой варианты от своей средней арифметческой

    Таблица 28. Зависимость между составом железа в крови и уровнем гемоглобина в крови.

    Содержание железа у крови (мг/л)

    Уровень гемоглобина в крови (%)












    57

    71

    5.2

    1.9

    9.88

    27.04

    3.61

    50

    68

    -1.8

    -1.1

    1.98

    3.24

    1.21

    54

    70

    2.2

    0.9

    1.98

    4.84

    0.81

    48

    65

    -3.8

    -4.1

    15.58

    14.44

    16.81

    58

    72

    6.2

    2.9

    17.98

    38.44

    8.41

    54

    70

    2.2

    0.9

    1.98

    4.84

    0.81

    53

    70

    1.2

    0.9

    1.08

    1.44

    0.81

    49

    68

    -2.8

    -1.1

    3.08

    7.84

    1.21

    43

    68

    -8.8

    -1.1

    9.68

    77.44

    1.21






















    Xx=51.8

    Xy=69.1











    =34.89

    Подставив полученные значения в формулу Пирсона, получаем:

    r =

    Вывод: между составом железа в крови и уровнем гемоглобина существует сильная прямая связь. Для нашего случая коэффициент вероятности=3,6, что свыше гранично допустимых значений при вероятности ошибки меньшей 0,05



    Расчет линейного коэффициента корреляции:

    1. Определяют средние значения для каждого ряда (Хх, Ху).

    1. Определяют отклонение каждого из значений ряда от средней величины (dх, dу).

    2. Возводят определенные отклонения в квадрат и определяют их суммы:


    Особенность коэффициента Спирмена – простота вычисления при недостаточной точности позволяет его использовать для ориентировочного анализа с проведением быстрых расчетов, при определении данных в получисленном описательном виде.



    Достоверность полученного результата определим соотношением t = r / mr, где mr при малом числе наблюдений (n < 30) равняется:

    mr=
    При большом числе наблюдений (n > 100) формула для расчета средней погрешности коэффициента корреляции может иметь вид:

    m=

    Прямолинейная корреляционная связь между параметрами характеризуется тем, что каждому из одинаковых измерений одного показателя отвечает определено среднее значение другого показателя. Данную зависимость можно описать коэффициентом регрессии. Рассчитывается коэффициент регрессии по формуле:

    Rx/y=rxy*

    Где: Rx/y - коэффициент регрессии от Х до У;

    rxy - коэффициент корреляции;

    и средние квадратические отклонения рядов Х и У.



    Рассмотрим использование коэффициента регрессии на примере.
    При анализе данных физического развития 10-летних мальчиков получены такие параметры рост (Хх) и веса (Ху):

    Хх = 137,2 см; Х = 3,2 см и Ху = 30,7 кг; у = 1,76 кг; rху = 0,81.

    Коэффициент регрессии при данных условиях составляет:

    Rx/y=rxy*(кг)
    Вывод:при изменении роста на 1 см вес мальчиков в среднем изменится на 1,47 кг. Определенный коэффициент регрессии можно использовать в уравнении регрессии при прогнозировании ситуации - какой вес в среднем будет отвечать возрасту мальчиков 140,0 см:

    Вывод: возрасту мальчиков 140,0 см будет отвечать вес 34,8 кг.


    Выше приведенные методики расчета парных коэффициентов корреляции являются основой и только первым этапом многофакторного корреляционной анализа. Парные коэффициенты показывают характер связи (общего, «неочищенного») между исследуемыми параметрами без учёта влияния других факторов. Оценивание «чистой» взаимосвязи в многофакторных моделях определяется на основе парциальных коэффициентов корреляции, основой для расчета которых являются парные и множественные коэффициенты.

    В практике медицинских исследований достаточно часто возникает вопрос об определении влияния нескольких разных факторов на определенное явление, например, на частоту осложнений при родах влияет возраст женщины, наличие акушерской и экстрагенитальной патологии, качество предоставления медицинской помощи и др. В таких случаях для выявления комбинированного влияния нескольких факторов на размер исследуемого явления пользуются методом множественной корреляции. Использование этого метода проводиться в несколько этапов. Математический аппарат данного анализа является достаточно сложным и выходит за пределы программы подготовки врачей. В настоящее время существует много специализированных программ статистического анализа, которые позволяют рассчитать множественный коэффициент корреляции для определенной совокупности показателей. Важным является оценка результата: в случае, когда сумма парциальных коэффициентов корреляции меньше величины множественного коэффициента корреляции, мы можем говорить о потенцируемом действии исследуемых параметров относительно результативного признака. Иначе (что, по нашему опыту, случается чаще) мы можем отмечать параллельное влияние факторов с невыраженным взаимным потенцируемым эффектом с условия, когда сумма парциальных коэффициентов значительно превышает значение множественного коэффициента корреляции.

    Следовательно, множественный коэффициент корреляции отображает связь одновременно комплекса факторов с исследуемым результативным фактором (клиническими показателями и др.).

    Вопросы для контроля:

    1. Что такое корреляционная связь ? Чем она отличается от функциональной?

    1. Дайте характеристику формы, направления и силы связи.

    2. Что такое регрессия?



    3.9. Методы многофакторного анализа

    Одним из важных моментов при изучении состояния здоровья населения и деятельности системы охраны здоровья является анализ действия многочисленных факторов, которые формируют здоровье людей, влияют на рост заболеваемости, приводят к инвалидности или смерти пациентов. Тем более при разработке профилактических способов улучшения состояния здоровья населения, состояния окружающей среды, деятельности медицинских учреждений растет значимость оценивания факторов. Биостатистика владеет большим количеством возможностей для этого, необходимо только научиться правильно подбирать методы статистического анализа, которые являются наиболее адекватными для данного конкретного исследования. Благодаря использованию методов корреляционно-регрессивного, факторного, дисперсионного, кластерного анализа медицинская статистика превратится из описательной в аналитическую.

    Одним из распространенных методов анализа является корреляционный анализ(см.выше). Коэффициент линейной корреляции существует 3 типов:

    • парный;

    • парциальный;

    • множественный.


    Парный коэффициент корреляции дает характеристику обобщенной, «неочищенной» связи между параметрами. При этом возможно влияние других факторов, которые не учитываются, поэтому самостоятельная ценность парного коэффициента не высока. Поэтому чаще используют парциальные коэффициенты (которые можно рассчитать при наличии парных коэффициентов корреляции). Они отражают связь между факторами и уровнем здоровья в чистом виде, исключая влияние других факторов. Множественный коэффициент корреляции отражает одновременно связь изучаемых факторов с результативным признаком.

    Степень влияния факторов характеризуется т.н. коэффициентом детерминации-квадраты парциальных коэффициентов, перемноженные на 100 (в процентах). . Коэффициент детерминации отображает искомый вес влияния на здоровье данного фактора среди других.

    Регрессионный анализ чаще проводится вместе с корреляционным, поэтому его и называют корреляционно-регрессионным. Главная задача регрессионного анализа -составить уравнение регрессии, которое описывает «поведение», например, профессионального заболевания при изменении интенсивности влияния включенных в исследование факторов (пола, возраста, профессии, стажа работы, условий работы).

    Дисперсионный анализ. Основной целью дисперсионного анализа является исследование значимости различия между средними. Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (т.е. анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ. Чтобы проиллюстрировать логику дисперсионного анализа, рассмотрим простой план эксперимента, включающий одну независимую переменную (или фактор А) и, скажем, 3 группы испытуемых. Целью такого плана обычно является выяснение того, изменяется ли зависимая переменная как функция фактора А.. Дисперсионный анализ позволяет нам проверить нулевую гипотезу об отсутствии действительных эффектов данного фактора - и тогда различия в показателях вызваны исключительно случайной изменчивостью. Предполагая, что нулевая гипотеза верна, можно получить две разные оценки дисперсии генеральной совокупности. Одна из этих оценок вычисляется на основе изменчивости групповых средних, а другая - на основе дисперсии показателей внутри каждой включенной в план группы. Если нулевая гипотеза и в самом деле верна, то обе оценки являются, по существу, оценками одной и той же генеральной дисперсии. Как следствие, эти оценки будут иметь одинаковую величину, за исключением случайной изменчивости, а их отношение будет иметь известное теоретическое. Если нулевая гипотезе не верна, то наши выборочные оценки не являются оценками дисперсии одной и той же генеральной совокупности, т. к. на первую будут влиять любые реальные эффекты фактора, а на вторую – нет.

    Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Предположим, что вы измеряете рост в случайной выборке из 50 мужчин и 50 женщин. Женщины в среднем не так высоки, как мужчины, и эта разница должна найти отражение для каждой группы средних (для переменной Рост). Поэтому переменная Рост позволяет вам провести дискриминацию между мужчинами и женщинами.

    Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе.


    Каждый статистический метод основан на собственной математической модели, и результаты его правильны настолько, насколько эта модель отвечает действительности. Необходимо научиться понимать и оценивать правильность применения статистических методов, которые используются для анализа результатов.



    Таким образом, все указанные методы многофакторного анализа расширяют возможности исследователя относительно статистического анализа полученных результатов, необходимо только научиться их правильно подбирать и смело использовать.
    Вопросы для контроля:

    1. В чём принципиальное отличие описательной от аналитической статистики?

    2. Почему возникает необходимость в использовании методов многофакторного анализа?


    1   ...   11   12   13   14   15   16   17   18   19


    написать администратору сайта