Главная страница
Навигация по странице:

  • 4.8 Обобщенная схема корреляционного анализа

  • Биометрия верстка_. Учебнометодическое объединение по медицинскому и фармацевтическому образованию вузов России биометрия


    Скачать 0.93 Mb.
    НазваниеУчебнометодическое объединение по медицинскому и фармацевтическому образованию вузов России биометрия
    Дата31.05.2019
    Размер0.93 Mb.
    Формат файлаpdf
    Имя файлаБиометрия верстка_.pdf
    ТипДокументы
    #79721
    страница7 из 12
    1   2   3   4   5   6   7   8   9   ...   12
    4.4 Вычисление коэффициента корреляции Корреляционный анализ в реальных условиях производится при ограниченном объеме выборки. Следовательно, значение эмпирического коэффициента корреляции является случайной величиной и представляет собой лишь приближенную оценку коэффициента корреляции генеральной совокупности. В связи с этим обстоятельством расчет коэффициента корреляции по эмпирическим данным проводится в два этапа. На первом этапе вычисляют значение коэффициента корреляции, а на втором - оценивают достоверность полученного результата. Вычислить коэффициент корреляции можно по формуле
    y
    x
    n
    i
    i
    i
    n
    Y
    Y
    X
    X
    r
    σ
    σ





    =

    =1
    )
    (
    )
    (
    . (4.1) где X
    i и Y
    i
    - сопряженные значения величин X и Y; и
    Y
    - усредненные по всей выборке значения X и Y;
    σ
    x и σ
    y
    - средние квадратические отклонения X и Y; n - объем выборки. В практических расчетах это соотношение преобразуют к более удобному виду
    )
    (
    )
    (
    1 1
    1 1
    y
    x
    n
    i
    i
    i
    y
    x
    n
    i
    n
    i
    n
    i
    i
    i
    i
    i
    C
    C
    Y
    X
    n
    Y
    X
    C
    C
    n
    Y
    X
    Y
    X
    r





    =




    =




    =
    =
    =
    =
    (4.2)
    В этой формуле
    ;
    /
    )
    (
    )
    (
    2 1
    1 2
    2 Из приведенных формул следует, что безразлично какую величину принимать за X, а какую за Y, т.к. они входят в расчетные соотношения равнозначно. Для вычисления коэффициента корреляции r необходимо предварительно рассчитать значения следующих величин и 2
    1 1
    2 Разберем последовательность вычисления r на примере. Пример 1 Изучали зависимость между массой тела гамадрилов - матерей и их новорожденных детенышей. Под наблюдением находилось 20 обезьян. Результаты наблюдений приведены в табл. 4.1 [1]. В этой же таблице приведены значения всех вспомогательных величин, что позволяет использовать ее в качестве контрольного теста при отработке программы вычисления r на ЭВМ. Таблица 4.1 Значения массы тела гамадрилов- матерей X и их детенышей Y. кг кг
    X
    i
    * Y
    i
    X
    i
    2
    Y
    i
    2 10.0 0.70 7.000 100 00 0.49 10.8 0.73 7.884 116.64 0.533 11.3 0.75 8.475 127.69 0.563 10.0 0.70 7.000 100 00 0.490 10.1 0.65 6.656 102.01 0.423 11.1 0.65 7.215 123.21 0.423 11.3 0.70 7.910 127.69 0.490 10.2 0.61 6.222 104.04 0.372 13.5 0.70 9.450 182.25 0.490 12.3 0.63 7.749 151.29 0.369 14.5 0.70 10.150 210.25 0.490 11.0 0.65 7.150 121.00 0.427 12.0 0.72 8.640 144.00 0.518 11.8 0.69 8.142 139.24 0.476 13.4 0.78 10.452 179.56 0.608 11.4 0.70 7.980 129.96 0.490 12.0 0.60 7.200 244.00 0.360 15.6 0.85 13.260 243.36 0.730 13.0 0.80 10.400 169.00 0.640 12.1 0.75 9.075 146.41 0.560
    ;
    /
    )
    (
    )
    (
    2 1
    1 2
    2 1
    n
    X
    X
    X
    X
    C
    n
    i
    i
    n
    i
    i
    n
    i
    i
    x



    =
    =
    =

    =

    =

    58

    =
    n
    i
    1 237.4 14.06 167.939 2861.60 9.9598 Получим предварительные данные о корреляции между массой тела гамадрила
    - материи массой детеныша Y, построив корреляционное поле. Корреляционное поле приведено на рис. 4.2.
    кг
    0.9

    0.8




    0.7








    0.6

    10 11 12 13 14 15 кг Рис. 4.2 Корреляционное поле поданным таблицы 4.1: Оно указывает на наличие корреляции между X и Y. Так как с ростом
    X наблюдается тенденция к росту величины Y, то корреляция является положительной. Характер зависимости приблизительно линейный. Следовательно, в качестве параметрического показателя может быть использован коэффициент корреляции r. Рассчитаем коэффициент r, подставив в формулу (4.2) все необходимые величины
    (237.4)
    2
    C
    x
    = 2861,60 - = 43.662;
    20
    (14,06)
    2
    C
    Y =
    9,9598 - - = 0,076;
    20 564
    ,
    0 076
    ,
    0 662
    ,
    43 20
    /
    06
    ,
    14 4
    ,
    237 Полученное значение r подтверждает наличие положительной корреляции. По величине корреляция является средней. Близость корреляции к линейной можно проверить, рассчитав корреляционные отношения q(y,x) и q(x,y) (см. 4.7).
    4.5 Оценка достоверности значения коэффициента корреляции Ошибочность выводов о наличии корреляции по найденному значению r может быть связана с двумя причинами. Первой причиной является случайность полученного значения r из-за малого объема выборки. Это означает, что возможна ситуация, когда r ≠

    59 0 даже, если зависимость между изучаемыми величинами в генеральной совокупности абсолютно симметрична, те. генеральное значение коэффициента корреляции равно нулю. Вторая причина заключается в отклонении закона распределения сопряженных пари в выборке от нормального. Как известно из математической статистики, это отклонение может быть особенно значительным в малых объемах выборки при сильной корреляции. В связи с этими обстоятельствами после вычисления эмпирического коэффициента корреляции необходимо провести оценку его достоверности. Оценка достоверности r с помощью Z- критерия

    Фишера Если заранее неизвестно, подчиняются ли исследуемые величины в выборке нормальному закону распределения (те. правомерность применения r неочевидна, то доверительную оценку r проводят, рассчитав Z - критерий Фишера по формуле
    1 1
    15129 1
    1 1
    2 1
    r
    r
    Lg
    r
    r
    Ln
    Z

    +

    =

    +

    =
    ( 4.3) Преобразование Z - величины в r и наоборот можно выполнить с помощью таблицы Приложения. По найденному значению Z находят критерий достоверности T
    z по формуле
    3


    =
    n
    Z
    T
    z
    (4.4) Затем, задавшись уровнем значимости a (в биологии обычно принимают α =
    0.05) и для k = n - 2 по таблице 2 Приложения, находят коэффициент Стьюдента t Значение r считается достоверным, если T
    z
    ≥ t Оценка достоверности r без Z - преобразования

    Фишера При уверенности в нормальном распределении величин X,Y в выборке процедура оценки достоверности r упрощается. Критерием достоверности в этом случае является параметр T
    r
    , который рассчитывается по формуле
    1 2
    r
    n
    r
    T
    r



    =
    (4.5) Значение r считается достоверным с заданным уровнем значимости α, если выполняется условие T
    r
    ≥ t k,p
    . Невыполнение условий T
    z
    ≥ t k,p или T
    r
    ≥ t k,p может быть вызвано недостаточностью объема выборки n. Для проверки этого обстоятельства можно рассчитать минимальное необходимое число наблюдений n min
    , чтобы обеспечить нужную достоверность r. Если окажется, что n min
    > n, то нужно увеличить объем выборки n стем, чтобы выполнилось условие n min
    ≤ n .
    4.6 Нахождение минимального объёма выборки Минимальный объем выборки (те. наименьшее число наблюдений) парных значений X и Y, при котором обеспечивается необходимая достоверность, рассчитывается по формуле

    60 3
    2 2
    min
    +
    =
    Z
    n
    ε
    (4.6) В этой формуле ε - коэффициент, определяющий границы доверительного интервала генерального параметра при заданной доверительной вероятности. Напомним, что прите. при уровне значимости α = 0.05) ε =1.96, при p = 0.99 ( α = 0.01 ) ε
    = 2,58, а при p = 0,999( α = 0.001) ε= 3,29. Рассмотрим последовательность оценки достоверности коэффициента корреляции и вычисления минимального объема выборки n min на примере. Пример. Установлена корреляция между массами тел гамадрила - материи но- ворождённого детеныша с коэффициентом корреляции r =0.564 при числе наблюдений
    20. Требуется оценить достоверность этого результата при условии, что справедливость нормального распределения в данной выборке неочевидна. Задача решается с помощью Z - преобразования Фишера. По таблице 4 Приложения при r=0.564 находим Z= 0.633. Вычислим критерий T
    z
    :
    61
    ,
    2
    )
    3 По таблице 2 Приложения находим коэффициент Стьюдента, задавшись уровнем значимости α = 0.05 при k = 20-2=18; t k,p
    = 2,1. Так как T
    z
    = 2.61 > t k,p
    = 2,1, то значение можно считать достоверным при уровне значимости α = 0.05. Найдем минимальный допустимый объем выборки при достоверности r не хуже
    0.05. Уровень значимости α = 0.05 означает , что доверительная вероятность P
    дов
    = 1 - α =
    0.95, а коэффициент ε = 1.96. Рассчитаем необходимый минимальный объем выборки n min
    : n = (1.96)
    2
    /(0.633)
    2
    + 3 = 12.58 ≈ 13. Это означает, что достоверность значения r при уровне значимости не хуже
    0.05 может быть достигнута уже при числе наблюдений n = 13.
    4.7 Вычисление корреляционного отношения q Также как и коэффициент корреляции корреляционное отношение вычисляется в два этапа сначала вычисляют значения q , а затем оценивают его достоверность. а) Вычисление q(y/x) и q(x/y) Для вычисления значений q(y/x) и q(x/y) необходимо составить две таблицы парных значений X ив каждой из которых величина, являющаяся независимой переменной, выписывается в порядке возрастания. Таблицы, в которых парные значения расположены в порядке возрастания X
    i или Y
    i
    , называются ранжированными поили, соответственно. Для каждого значения независимой переменной рассчитываются значения частных (групповых) средних значений зависимой переменной , соответственно и
    x
    Y
    Значения q(x/y) и q(y/x) вычисляются по формулам
    ;
    )
    (
    )
    (
    )
    /
    (
    2 2




    =
    Y
    Y
    Y
    Y
    x
    y
    q
    i
    x
    ;
    )
    (
    )
    (
    )
    /
    (
    2 2




    =
    X
    X
    X
    X
    y
    x
    q
    i
    y
    (4.7) Суммирование осуществляется по i от 1 до n. Групповые средние рассчитывают следующим образом

    61
    y
    X = (X
    1
    +X
    2
    +...X
    m
    )/m;
    x
    Y
    = (Y
    1
    +Y
    2
    +...+Y
    k
    )/k, В практических расчетах эти формулы удобнее использовать в следующем виде где
    ;
    )
    )
    /
    (
    ;
    )
    (
    )
    /
    (
    1 2
    1 2


    =
    =

    =

    =
    n
    i
    yi
    n
    i
    i
    x
    X
    X
    y
    x
    D
    Y
    Y
    x
    y
    D
    )
    (
    )
    (
    ;
    )
    (
    )
    (
    1 2
    1 В этих формулах Y
    xi и X
    yi групповые средние соответственно для каждого X
    i ив) Оценка достоверности значения q Оценка достоверности значений q производится сравнением значений критерия достоверности T с коэффициентом Стьюдента при заданном уровне значимости α и k = n - 2, где n - объeм выборки. Критерий T рассчитывается по формуле
    1 2
    q
    n
    q
    T
    q



    =
    (4.8) где q принимает значения q(y/x) или q(x/y). Значение Т считается достоверным, если выполняется условие T
    q
    > t Вычисление обоих значений q не является обязательным. Знание q(y/x) и q(x/y) необходимо лишь в некоторых специальных задачах, например, при оценке близости вида корреляции к линейной с помощью показателя линейности корреляции. Показатель линейноcти корреляции При неточном выполнении равенства q(y/x) = q(x/y) вопрос о близости вида корреляции к линейной решается с помощью вычисления показателя линейности по формуле
    β
    γ
    =
    l
    T
    , (4.9)
    20
    ))
    2
    (
    (
    2
    ;
    2 2
    2 Если T
    l
    ≤ 2.5, то связь между X и Y может считаться линейной. Разберем последовательность вычисления корреляционного отношения и оценки его достоверности на примере. Пример 2 Воспользовавшись данными таблицы 4.1 о зависимости массы тела детенышей
    - гамадрилов от массы тела их матерей - гамадрилов, вычислим коэффициенты корреляционного отношения и оценим их достоверность. Составим две таблицы . Водной расположим парные значения Y ив порядке возрастания X (табл. 4.2), а в другой - в порядке возрастания Y (табл. Для последующих расчетов понадобятся значения следующих величин

    62

    =
    n
    i
    i
    X
    1
    = 237.4;

    =
    n
    i
    i
    Y
    1
    = 14.06 ;
    2 1
    )
    (
    Y
    Y
    n
    i
    i
    x


    =
    =0.0558;
    2 1
    )
    (
    x
    n
    i
    i
    Y
    Y


    =
    = 0.0658;
    20 4
    ,
    237
    =
    X
    =11,84 кг ;
    20 06
    ,
    14
    =
    Y
    =0.703 кг

    =

    n
    i
    yi
    X
    X
    1 2
    )
    =25.75;

    =

    n
    i
    i
    X
    X
    1 2
    )
    (
    =40.386;
    0756
    ,
    0
    )
    (
    1 2
    =


    =
    n
    i
    i
    Y
    Y

    =

    n
    i
    yi
    i
    X
    X
    1 2
    )
    (
    = 26.59; Вычисление группового среднего поясним примером для X=11,3 Y принимает два значения - 0.7 и 0.75. Следовательно, групповое среднее
    x
    Y
    = (0.7+0.75)/2 =
    0.725 ≈ 0,73. Подставляя полученные значения вспомогательных величин и данные таблиц в формулу (4.7) находим q(Y/X) и q(X/Y): q(Y/X) =
    0756
    ,
    0 0558
    ,
    0
    = 0,859 , q(X/Y) =
    386
    ,
    40 75
    ,
    25
    = 0,798 . По формуле (4.8) оценим достоверность полученных значений q, подставив в нее значения q(Y/X) и q(X/Y):
    5
    ,
    7 798
    ,
    0 1
    2 20 798
    ,
    0
    ;
    7
    ,
    9 859
    ,
    0 1
    2 20 Задавшись уровнем значимости α = 0.05 для k = 20-2, по таблице 2 Приложения находим коэффициент Стьюдента t k,p
    = 2.1. Выполнение условий T
    q(y/x)
    = 9,7 > t k,p
    =2,1 и T
    q(x/y)
    = 7,5 > t k,p
    =2,1 подтверждает достоверность найденных значений q, а, следовательно, наличие корреляции между X и Y. Близость значений T
    q(y/x)
    и T
    q(x/y)
    указывает на примерно линейный характер этой корреляции. Более определенно на вопрос о близости вида корреляции к линейной можно ответить, рассчитав показатель линейности связи. Расчет показателя линейности связи Расчет проводим по формулам (4.9) для r = 0.564
    γ
    = (0.859)
    2
    - (0.564)
    2
    = 0.42 ;
    ;
    225
    ,
    0 20
    )
    )
    564
    ,
    0 859
    ,
    0 2
    (
    42
    ,
    0 42
    ,
    0
    (
    2 2
    2 2
    =





    =
    β
    T
    l
    = 0.42 / 0,225 = 1.9 Так как T
    l
    =1.9 < 2.5, то корреляция между X и Y может считаться линейной.
    4.8 Обобщенная схема корреляционного анализа
    1. Построить корреляционное поле. По виду корреляционного поля определить наличие корреляции.
    2. Если корреляция линейная, по формулам (4.1) или (4.2) вычислить коэффициент корреляции r. В случае неочевидности линейного характера корреляции рассчитать по формулам (4.7) корреляционные отношения q(y/x) и предварительно ранжировав таблицу значений X,Y пои. При q(x/y)=q(y/x) корреляция является линейной. При несовпадении значений q(y/x) и q(x/y) по формуле (4.9) рассчитать показатель линейности корреляции T
    l
    При T
    l
    >2.5 связь между X и Y может считаться линейной.
    3. Оценить достоверность полученного значения коэффициента корреляции. Для этого воспользоваться формулой (4.5), если есть уверенность в том, что значения
    X ив выборке подчиняются нормальному закону распределения. Если же справедливость нормального закона неочевидна, то рассчитать по формуле (4.3) критерий
    Фишера, а по формуле (4.4) -критерий достоверности (T
    Z
    Задавшись уровнем значимости по таблице 2 Приложения найти коэффициент Стьюдента t Если T
    Z
    > t k,p
    , то значение r считается достоверным. Оценить достоверность значений q(x/y) и q(y/x) можно, рассчитав по формуле (4.8) критерий T
    q и сравнив его с t k,p
    При T
    q
    > t k,p значения) и q(y/x) достоверны.
    4. Если значения r и q недостоверны, то по формуле (4.6) рассчитать минимальный объем выборки n min
    , при котором r и q становятся достоверными. Таблица 4.2 Таблица значений Y и X, ранжированная по X масса мате- ри(кг}
    X масса детё- ныша кг) Y кг) кг) масса матери кг) X масса детё- ныша кг) кг) кг)
    10.0 0.70 0.70 0.660 11.8 0.69 0.69 0.703 10.0 0.70 0.70 0.660 12.0 0.72 0.66 0.703 10.1 0.65 0.65 0.624 12.0 0.60 0.66 0.708 10.2 0.61 0.61 0.669 12.1 0.75 0.75 0.710 10.8 0.73 0.73 0.680 12.3 0.63 0.63 0.715 11.0 0.65 0.65 0.684 13.0 0.80 0.80 0.732 11.1 0.65 0.65 0.684 13.4 0.78 0.78 0.794 11.3 0.70 0.73 0.690 13.5 0.70 0.70 0.744 11.3 0.75 0.73 0.690 14.5 0.70 0.70 0.768 11.4 0.70 0.70 0.693 15.6 0.85 0.85 0.794 Таблица 4.3 Таблица значений Y и X, ранжированная по Y масса детё- ныша кг)
    Y масса матери кг
    X кг)
    )
    ( кг) масса детё- ныша кг)
    Y масса матери кг
    X кг)
    )
    ( кг)
    0.6 12.0 12.0 10.52 0.7 14.5 12.02 11.82 0.61 10.2 10.2 10.65 0.7 13.5 12.02 11.82 0.63 12.3 12.3 10.91 0.7 11.4 12.02 11.82 0.65 10.1 10.73 11.17 0.72 12.0 12.0 12.0 0.65 11.1 10.73 11.17 0.73 10.8 10.8 12.2 0.65 11.0 10.73 11.17 0.75 11.3 11.7 12.5 0.69 11.8 11.8 11.69 0.75 12.1 11.7 12.5 0.7 11.4 12.02 11.82 0.78 13.4 13.4 12.9 0.7 10.0 12.02 11.82 0.8 13.0 13.0 13.1 0.7 11.3 12.02 11.82 0.85 15.6 15.6 13.8
    Очевидно, что этап построения корреляционного поляне является обязательным, так как наличие корреляции , а также близость ее к линейной могут быть установлены непосредственным расчетом корреляционного отношения. Но этот путь может оказаться более трудоемким. Следует также отметить, что изложенная схема анализа не является исчерпывающей, так как корреляция может быть множественной, наряду с параметрическими показателями существуют непараметрические и т.д. Рассмотрение этих и других вопросов выходит за рамки настоящего пособия.

    65
    1   2   3   4   5   6   7   8   9   ...   12


    написать администратору сайта