Главная страница
Навигация по странице:

  • Корреляционный анализ

  • Чем ближе модуль коэффициента корреляции к единице, тем сильнее

  • Вычисление ошибки коэффициента корреляции.

  • Оценка достоверности коэффициента корреляции, полученного ме- тодом ранговой корреляции и методом квадратов.

  • Определение объемов выборок при планировании исследования

  • Медицинская информатика


    Скачать 5.08 Mb.
    НазваниеМедицинская информатика
    Дата18.05.2023
    Размер5.08 Mb.
    Формат файлаpdf
    Имя файлаPosobie Informatica.pdf
    ТипМетодическое пособие
    #1141670
    страница6 из 16
    1   2   3   4   5   6   7   8   9   ...   16
    ТЕМА 7
    КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ. ПЛАНИРОВА-
    НИЕ КЛИНИЧЕСКИХ ИССЛЕДОВАНИЙ
    При изучении общественного здоровья и здравоохранения в научных и практических целях исследователю часто приходится проводить статистиче- ский анализ связей между факторными и результативными признаками стати- стической совокупности (причинно-следственная связь) или определение зави- симости параллельных изменений нескольких признаков этой совокупности от какой либо третьей величины (от их общей причины). Необходимо уметь изу- чать особенности этой связи, определять ее размеры и направление, а также оценивать ее достоверность. С этой целью используется корреляционный и
    регрессионный анализ.
    Этапы проведения анализа связи переменных.
    1. Корреляционный анализ. Его цель – определить характер связи (прямая, обратная) и силу связи (связь отсутствует, связь слабая, умеренная, заметная, сильная, весьма сильная, полная связь). Корреляционный анализ дает информа- цию о характере и степени выраженности связи (по величине коэффициента корреляции), которая используется для отбора существенных факторов, а также для расчета параметров регрессионных уравнений.
    2. Расчет параметров и построение регрессионных моделей. Здесь стре- мятся отыскать наиболее точную меру выявленной связи, для того чтобы мож- но было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин X
    1
    , Х
    2
    , .... Х
    п
    3. Выяснение статистической значимость, т.е. пригодности постули- руемой модели для использования ее в целях предсказания значений.
    4. Применение статистически значимой модели для прогнозирования
    (предсказания), управления или объяснения. Если же обнаружена незначи- мость, то модель отвергают, предполагая, что истинной окажется какая-то дру- гая форма связи, которую надо поискать. Например, с самого начала работы
    (как бы по умолчанию) строилась и проверялась линейная регрессионная мо- дель. Незначимость ее служит основанием для того, чтобы отвергнуть только линейную форму модели. Возможно, что более подходящей будет нелинейная форма модели.
    Корреляционный анализ. Отличительной чертой биологических объек- тов является многообразие признаков, характеризующих каждый из них. Так, человека можно охарактеризовать возрастом, ростом, весом, различными фи- зиологическими показателями и т. д. Имея однородную совокупность объектов, можно изучить распределение их по любому из их признаков. Весьма часто можно усмотреть известную связь между вариациями по различным признакам.
    Например, вес образцов, сделанных из одного и тoгo же материала, полностью определяется их объемом. Такую зависимость принято называть функциональ-
    ной. Для биологических объектов связь обычно бывает менее «жесткой»: объ- екты с одинаковым значением одного признака имеют, как правило, разные значения по другим признакам. Такую связь между вариациями разных призна-

    84 ков называют корреляцией (дословный перевод: соотношение) между призна- ками.
    Практическое значение установления корреляционной связи – выявление возможной причинно-следственной связи между факторными и результатив- ными признаками (при оценке физического развития, для определения связи между условиями труда, быта и состоянием здоровья, при определении зависи- мости частоты случаев болезни от возраста, стажа, наличия производственных вредностей и др.), а также – выявление зависимости параллельных изменений нескольких признаков от какой-то третьей величины (например, под воздейст- вием высокой температуры в цехе происходят изменения кровяного давления, вязкости крови, частоты пульса и др).
    Стандартный способ выявления взаимосвязи нескольких переменных, измеряемых в порядковой или интервальной шкалах, – подсчет коэффициента
    корреляции. Коэффициент корреляции одним числом измеряет силу связи меж- ду изучаемыми явлениями и дает представление о ее направленности. По на- правлению связь может быть прямой или обратной. По силе связи коэффициен- ты корреляции колеблются от 1 (полная связь) до 0 (отсутствие связи). Коэф- фициент корреляции может иметь значение от –1 до +1, т.е. иметь отрицатель- ное либо положительное значение. В этих случаях говорят об обратной или прямой корреляционной взаимосвязи. Величина коэффициента характеризует силу корреляционной взаимосвязи.
    Чем ближе модуль коэффициента корреляции к единице, тем сильнее
    или глубже корреляционная взаимосвязь между двумя вариационными ря-
    дами. Модульное значение выше 0,8 характеризуют сильную взаимосвязь, в
    интервале 0,8-0,5 – выраженную взаимосвязь, 0,5-0,2 – слабую взаимосвязь,
    менее 0,2 (0,2 – 0) – отсутствие взаимосвязи(рис. 7.1).
    Рис. 7.1. Схема оценки силы корреляционной связи по величине коэффициента
    корреляции.
    Коэффициент корреляции для нормально распределенных наблюдений
    (коэффициент корреляции Пирсона) рассчитывается по формуле (7.1):
    2 2
    y
    x
    y
    x
    XY
    d
    d
    d
    d
    r




    , (7.1)

    85 где
    X
    и
    Y
    варианты сопоставляемых вариационных рядов,
    X
    d
    и
    Y
    d

    отклонение каждой варианты от своей средней арифметической (
    X
    M
    и
    Y
    M
    ).
    В случае работы с данными, распределение которых отлично от нормаль- ного, необходимо пользоваться ранговыми методами – вычислять коэффициент корреляции Кендалла (для порядковых переменных) или, лучше, коэффициент корреляции Спирмена (непараметрический аналог коэффициента Пирсона для интервальных и порядковых переменных). Коэффициент Пирсона равен едини- це (или минус единице) тогда и только тогда, когда две переменные (х и у) свя- заны линейной зависимостью (
    b
    ax
    y


    ). Коэффициент Спирмена (или Кен- далла) равен 1, если две переменные связаны правилом: большему значению переменной х всегда соответствует большее значение переменной у. Чем ниже коэффициент корреляции, тем сильнее отклонение от этих правил.
    Коэффициент ранговой корреляции Кендалла
    Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показате- ля X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла
    (7.2):
    )
    1
    (
    2


    n
    n
    S

    (7.2) где
    Q
    P
    S


    , P – суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y,
    Q – суммарное число наблюдений, следующих за текущими наблюдения- ми с меньшим значением рангов Y (равные ранги не учитываются).
    Коэффициент ранговой корреляции Спирмена
    Каждому показателю X и Y присваивается ранг. На основе полученных рангов рассчитываются их разности d и вычисляется коэффициент корреляции
    Спирмена (7.3):
    )
    1
    (
    6 1
    2 2




    n
    n
    d

    (7.3)
    Положительная корреляционная взаимосвязь между двумя вариационны- ми рядами
    X
    и
    Y
    свидетельствует о том, что величина
    X
    прямо зависит от величины
    Y
    , отрицательная говорит об обратной зависимости.
    Важно отметить, что установление корреляции между признаками само по себе еще не дает оснований делать какие-либо заключения о причинно- следственных связях между ними. В случае несгруппированной совокупности может быть получено наглядное представление о наличии или отсутствии кор- реляции путем построения так называемого корреляционного поля (рис. 7.2).
    Вытянутость корреляционного поля в диагональном направлении свидетельст- вует о наличии корреляции между обоими признаками. Если число вариант ве- лико, то корреляционное поле часто имеет вид более или менее правильного эллипса со сгущением точек в центре и сравнительно редким их расположени-

    86 ем на периферии; отклонение осей эллипса от координатных направлений ука- зывает на наличие корреляции.
    Рис. 7.2. Корреляционное поле.
    Вычисление ошибки коэффициента корреляции.
    1. Ошибка коэффициента корреляции, вычисленного методом квадратов
    (Пирсона) (7.4):
    2 1
    2



    n
    r
    m
    xy
    rxy
    , (7.4) где
    xy
    r
    – коэффициент корреляции, n – объем выборки.
    2. Ошибка коэффициента корреляции, вычисленного ранговым методом
    (Спирмена) (7.5) :
    2 1
    2



    n
    p
    m
    xy
    pxy
    , (7.5) где
    xy
    p – коэффициент корреляции, n – объем выборки.
    Оценка достоверности коэффициента корреляции, полученного ме-
    тодом ранговой корреляции и методом квадратов.
    Способ 1. Достоверность определяется по формуле:
    xy
    xy
    mr
    r
    t
    (7.6) или
    xy
    xy
    mp
    p
    t
    (7.7)
    Критерий t оценивается по таблице значений t с учетом числа степеней свободы (n–2), где n – число парных вариант. Критерий t должен быть равен или больше табличного, соответствующего точности оценки данных ≥99%..
    Способ 2. Достоверность оценивается по специальной таблице стандарт- ных коэффициентов корреляции. При этом достоверным считается такой коэф- фициент корреляции, когда при определенном числе степеней свободы (n–2), он равен или больше табличного, соответствующего степени безошибочного прогноза ≥95%.

    87
    Регрессионный анализ. При наличии корреляционной связи между фак- торными и результативными признаками врачам нередко приходится устанав- ливать, на какую величину может измениться значение одного признака при изменении другого.
    Например, как изменится масса тела школьников 1-го класса (девочек или мальчиков), если рост их увеличится на 1 см. В этих целях применяется метод
    регрессионного анализа.
    Наиболее часто метод регрессионного анализа применяется для разработ- ки нормативных шкал и стандартов физического развития.
    Регрессия – функция, позволяющая по средней величине одного признака определить среднюю величину другого признака, корреляционно связанного с первым.
    Весьма часто исследуемая зависимость принадлежит к хорошо изученно- му типу, и ее аналитическое (алгебраическое) выражение точно известно; при этом целью исследования является определение численных параметров этой за- висимости. Например, при радиометрическом исследовании образца крови мы заранее знаем, что уменьшение активности происходит по закону радиоактив- ного распада:
    t
    e
    A
    A



    0
    (А
    0
    – начальное число атомов в момент времени t=0,

    - постоянная распада). Вид функции, с помощью которой приближенно вы- ражается форма связи, выбирают заранее, исходя из содержательных сообра- жений или визуального анализа данных.
    С этой целью применяется коэффициент регрессии и целый ряд других параметров. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.
    Коэффициент регрессии – абсолютная величина, на которую в среднем изменяется величина одного признака при изменении другого связанного с ним признака на установленную единицу измерения. Формула коэффициента рег- рессии (7.8)
    x
    y
    xy
    x
    y
    r
    R



    /
    , (7.8) где R
    у/х
    – коэффициент регрессии; r ху
    – коэффициент корреляции между признаками х и у; (σ
    у и σ
    x
    ) – среднеквадратические отклонения признаков x и у.
    Назначение уравнения регрессии.
    Уравнение регрессии используется для построения линии регрессии. По- следняя позволяет без специальных измерений определить любую среднюю ве- личину у одного признака, если меняется величина х другого признака. По этим данным строится график – линия регрессии, по которой можно определить, на- пример, среднее число простудных заболеваний при любом значении среднеме- сячной температуры в пределах между расчетными значениями числа простуд- ных заболеваний.
    Сигма регрессии является характеристикой регрессионного анализа и да- ет величину меры разнообразия результативного признака у (7.9).

    88 2
    1
    /
    xy
    y
    R
    r
    x
    y




    ,
    (7.9) где
    y

    - среднее квадратическое отклонение для ряда y,
    xy
    r
    - коэффициент корреляции.
    Например, характеризуется разнообразие числа простудных заболеваний при определенном значении среднемесячной температуры воздуха в осеннне- зимний период. Так, среднее число простудных заболеваний при температуре воздуха х
    1
    = -6° может колебаться в пределах от 15,78 заболеваний до 20,62 за- болеваний.
    При х
    2
    = -9° среднее число простудных заболеваний может колебаться в пределах от 21,18 заболеваний до 26,02 заболеваний и т.д.
    Сигма регрессии используется при построении шкалы регрессии, которая отражает отклонение величин результативного признака от среднего его значе- ния, отложенного на линии регрессии.
    На основании известных значений х
    i
    и соответствующих им средних зна- чений y
    i
    ,а также наименьших (у-
    x
    y
    R
    /

    )и наибольших (у+
    x
    y
    R
    /

    ) значений (у) строится шкала регрессии.
    На ее основе разрабатываются нормативные шкалы и стандарты, в част- ности по физическому развитию.
    По стандартной шкале можно дать индивидуальную оценку развития де- тей. При этом физическое развитие оценивается как гармоничное, если, напри- мер, при определенном росте масса тела ребенка находится в пределах одной сигмы регрессии к средней расчетной единице массы тела – (у) для данного роста (x) (у±1
    x
    y
    R
    /

    ). Физическое развитие считается дисгармоничным по массе тела, если масса тела ребенка для определенного роста находится в пределах второй сигмы регрессии: (у±2
    x
    y
    R
    /

    ). Физическое развитие будет резко дисгар- моничным как за счет избыточной, так и за счет недостаточной массы тела, ес- ли масса тела для определенного роста находится в пределах третьей сигмы регрессии (у±3
    x
    y
    R
    /

    ).
    Чтобы оценить, насколько точно уравнение регрессии описывает реаль- ные соотношения между переменными, нужно ввести меру рассеяния фактиче- ских значений относительно вычисленных с помощью уравнения. Такой мерой служит средняя квадратическая ошибка регрессионного уравнения, вычисляе- мая по приведенной формуле (7.10):






    n
    i
    i
    yx
    m
    n
    y
    y
    1 2
    ))
    1
    (
    /(
    )
    (

    (7.10).
    Чем больше фактические значения отклоняются от выровненных, тем большую ошибку следует ожидать; чем меньше число наблюдений, на основе которых строится уравнение, тем больше будет ошибка.
    Определение объемов выборок при планировании исследования
    Определение объемов выборок необходимо при планировании контроли- руемых исследований, т.е. исследований, в которых сопоставляются выборки

    89 независимых наблюдений. Основной смысл определения объема выборок за- ключается в том, чтобы иметь в результате исследования высокую вероятность выявления реальных различий между выборками как статистически значимых, т.е. обеспечить необходимую статистическую мощность (чувствительность) ис- следования. Прежде чем оценивать требуемый объем групп для данного иссле- дования, необходимо:
    1. Понять, переменные какого типа (количественные, качественные и др.) будут измерять эффект в данном исследовании;
    2. Выбрать, исходя из специфики данного исследования, подходящий план;
    3. Оценить величину различий между эффектами, приемлемую для данного исследования с клинической точки зрения;
    4. Выбрать подходящий статистический тест для последующего анализа ин- тересующих различий, это определит выбор конкретных формул для рас- чета;
    5. Определить, односторонний или двусторонний тест будет уместен в дан- ном случае и, в соответствии с этим, установить подходящие уровни ошибок первого и второго рода;
    6. Оценить по данным литературы, пилотному исследованию или результа- там сходных исследований величины показателей, входящих в выбран- ные для расчета формулы;
    7. Увеличить рассчитанные по формулам значения объема с учетом воз- можного исключения в процессе исследования.
    Существуют графики, номограммы и таблицы, связывающие чувстви- тельность теста с величиной различий для наиболее встречающихся значений альфа и различных объемов выборок. Известны формулы расчета и соответст- вующие таблицы требуемых объемов выборок для различных планов клиниче- ских исследований.
    Приведенные ниже формулы предназначены для оценки числа пациентов, необходимого для установления различий в эффекте при сравнении двух групп в контролируемых клинических исследованиях.
    Если критериями эффекта в контролируемых клинических исследованиях служат количественные признаки, распределенные нормально и выражаемые статистическими средними величинами, то формула расчета минимального объема групп для сравнения показателя в двух независимых группах с учетом вероятности ошибок первого и второго рода имеет вид (7.11):
    ,
    (7.11)
    где и
    — дисперсии показателей сравниваемых опытной и контроль- ной групп,
    — требуемая величина различий между средними значениями сравни- ваемых групп,

    90 и
    — критические значения нормального распределения, соответст- вующие установленным уровням ошибок и , определяемые по специальным таблицам.
    Из приведенной формулы видно, что для оценки необходимого объема выборки важно, скорее, соотношение дисперсии и требуемой величины разли- чий, чем их численные значения. Это обстоятельство имеет важное практиче- ское значение при планировании исследования, когда конкретные точные зна- чения дисперсий и  могут быть еще неизвестны. Обычно для таких прибли- женных предварительных оценок объема выборки используют отношения, рав- ные 1, 0,9, 0,8 и т.д.
    При альтернативной форме описания эффекта с помощью частот (или до- лей) po и pk необходимое число наблюдений при равных по численности опыт- ной и контрольной групп определяются по формуле (7.13):
    (7.13) где

    - величина разности между частотами (po - pk).
    Хотя на практике вычисление требуемого объема выборок является ско- рее оправданием уже выбранной численности групп, результаты исследований
    не могут считаться достоверными без вычисления оценки чувствительности
    или мощности критериев, применявшихся для проверки статистически значи-
    мых различий.
    Более наглядным способом отображения расчета объема выборок являет- ся номограмма Альтмана (рис. 7.3). Для ее построения используются следую- щие параметры:
    1.
    Необходимая пользователю статистическая мощность исследования
    (обычно устанавливается в пределах 80-90%).
    2.
    Уровень статистической значимости различий между выборками
    (например, 0,05 или 0,01).
    3.
    Стандартизированное различие исследуемого статистического па- раметра в сравниваемых группах. Для количественных данных оно определяет- ся как
    s
    d
    , где d —абсолютное значение минимального среднего различия меж- ду группами, имеющего клиническую значимость, s— известное априори, из ранее проводившихся исследований, среднего квадратического отклонения изучаемого признака у данной категории пациентов.

    91
    Рис. 7.3. Пример номограммы для вычисления объемов выборок при планирова-
    нии исследования.
    Контрольные вопросы
    1. Перечислите этапы проведения анализа связи переменных.
    2. В чем суть корреляционного анализа?
    3. В чем суть регрессионного анализа?
    4. Что характеризует коэффициент корреляции? В каких пределах он находит- ся?
    5. Что такое корреляционное поле?
    6. Как рассчитываются ошибка и достоверность коэффициента корреляции?
    7. Что такое уравнение регрессии?
    8. Для чего применяется сигма регрессии?
    9. Что такое шкала регрессии? Как она строится?
    10. Как рассчитать ошибку регрессии? Для чего она применяется?

    92 11. Что такое объем выборки? Для чего необходимо производить ее расчет?
    12. Какие этапы составляют план расчета объема выборки?
    13. Какие параметры используются для расчета объема выборки?
    Список литературы
    1. Гланц С. Медико-биологическая статистика. Пер. с англ. – М.: Практика,
    1998. – 459 с.
    2. Лях Ю.Е., Гурьянов В.Г., Хоменко В.Н., Панченко О.А. Основы компьютер- ной биостатистики: анализ информации в биологии, медицине и фармации статистическим пакетом Medstat. – Донецк: Папакица Е.К., 2006. – 214 с.
    3. Островок здоровья. – Режим доступа: www.bono-esse.ru
    4. Петри А., Сэбин К. Наглядная статистика в медицине. – М.: Издательский дом ГЭОТАР-МЕД, 2003. – 139 с.
    5. Платонов А.Е. Статистический анализ в медицине и биологии: задача, тер- минология, логика, компьютерные методы. – М.: Издательство РАМН, 2000.
    – 52 с.
    6. Реброва О.Ю. Статистический анализ медицинских данных. Применение па- кета прикладных программ STATISTICA. – М.: МедиаСфера, 2002. – 312 с.
    7. Сергиенко В.И., Бондарева И.Б. Математическая статистика в клинических исследованиях. - М.: ГЭОТАР-МЕД, 2001. – 256 с.

    93
    1   2   3   4   5   6   7   8   9   ...   16


    написать администратору сайта