Главная страница
Навигация по странице:

  • 7.1. ОСНОВНЫЕ ПОНЯТИЯ КОРРЕЛЯЦИОННОГО И РЕГРЕССИОННОГО АНАЛИЗА

  • 7.2. ПАРНАЯ КОРРЕЛЯЦИЯ И ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

  • 7.3. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ СВЯЗИ

  • Контрольные вопросы

  • Статистика лекции. Методические рекомендации по изучению учебной дисциплины курс Статистика состоит их трех разделов Теория статистики


    Скачать 2.08 Mb.
    НазваниеМетодические рекомендации по изучению учебной дисциплины курс Статистика состоит их трех разделов Теория статистики
    АнкорСтатистика лекции.pdf
    Дата24.04.2018
    Размер2.08 Mb.
    Формат файлаpdf
    Имя файлаСтатистика лекции.pdf
    ТипМетодические рекомендации
    #18440
    страница6 из 23
    1   2   3   4   5   6   7   8   9   ...   23
    Тема 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ
    7.1. ОСНОВНЫЕ ПОНЯТИЯ КОРРЕЛЯЦИОННОГО
    И РЕГРЕССИОННОГО АНАЛИЗА
    Оценка связей между явлениями и процессами, характера этих связей, особенностей воздействия одних факторов на другие, выделение наиболее существенных взаимозависимостей между изучаемыми статистическими показателями являются одними из основных задач статистики. Для описания статистических связей разработана система количественных оценок.
    Формы проявления взаимосвязей весьма разнообразны. В самом общем виде выделяют связи
    функциональные и связи корреляционные. В случае функциональной связи величине факторного признака строго соответствует одно или несколько значений функции (признака-результата). Достаточно часто функциональная связь проявляется в естественных науках. В экономике примером может

    38
    служить пропорциональная зависимость объема произведенной продукции от уровня производитель- ности труда, зависимость суммы выручки от количества товара и его цены и т.д.
    Корреляционная или статистическая связь проявляется в среднем, для массовых наблюдений,
    когда каждому конкретному значению независимой переменной X (фактору) соответствует некоторое вероятное значение зависимой переменной Y (результата). В общем случае – конкретным значениям одного или нескольких факторных признаков соответствует некоторое вероятное значение результата.
    Объяснение этому и в сложности непосредственных взаимосвязей между анализируемыми признаками, и в том, что на характер этих связей влияют случайные причины. Поэтому общая связь между признаками проявляется лишь в среднем, в массе случаев. Некоторое изменение аргумента повлечет лишь среднее увеличение (или уменьшение – в зависимости от направленности связи)
    функции. Конкретные значения функции-результата у отдельных единиц наблюдения будут отличаться от среднего уровня функции при конкретном для данного наблюдения значении аргумента.
    Такие зависимости встречаются повсеместно. В сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что количество удобрений важно для формирования урожая. Но для каждого конкретного участка одно и то же количество внесенных удобрений определяет разный уровень урожайности, поскольку во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. В среднем же такая связь наблюдается: увеличение массы внесенных удобрений ведет к росту урожайности.
    По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, когда рост факторного признака сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.
    По своей аналитической форме связи проявляются как линейные или нелинейные. В первом случае между признаками в среднем проявляются линейные соотношения. Во втором – переменные связаны между собой нелинейно, например, зависимостью параболической, экспоненциальной,
    гиперболической и т.д.
    Важной является характеристика связей с точки зрения количества взаимодействующих факторов. Если изучается связь двух признаков, то ее принято называть парной. Если изучаются зависимости между системами признаков (предполагается, что хотя бы в одной из систем число признаков больше 2), связь принято называть множественной.
    По степени (силе, тесноте) различаются связи слабые и сильные. Эта формальная характе- ристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.
    Дли изучения взаимосвязи в статистике используются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая – регрессионный анализ. Иногда эти методы объединяют в один корреляционно-регрессионный анализ (КРА), что имеет под собой определенные основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов. Поэтому можно говорить о корреляционном анализе в широком смысле,
    когда взаимосвязь характеризуется всесторонне. В то же время выделяют корреляционный анализ
    в узком смысле, когда исследуется сила связи, и регрессионный анализ, в ходе которого оцениваются форма связи и воздействие одних признаков на другие.
    Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов,
    оказывающих наибольшее влияние на вариацию результативного признака. Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии,
    использования уравнения для оценки неизвестных значений зависимой переменной.
    Методы оценки тесноты связи разделяются на параметрические (корреляционные) и непараметрические. Параметрические методы основаны на использовании оценок параметров распределения вероятностей изучаемых величин: математического ожидания, дисперсии и т.д., и,
    следовательно, применяются в случаях, когда эти параметры можно предварительно вычислить. На практике в начале исследования обычно считают, что первичные данные подчиняются закону нормального распределения вероятностей.
    Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин и обычно более просты в вычислениях. Поэтому их применяют и для оценки корреляционных связей, и особенно широко для оценки связи атрибутивных (качественных) признаков.
    7.2. ПАРНАЯ КОРРЕЛЯЦИЯ И ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
    Простейшим приемом выявления связи между двумя признаками является построение
    корреляционной таблицы. В основу таблицы положена группировка двух изучаемых во взаимосвязи признаков – X и Y. Частоты f
    ij
    показывают количество соответствующих сочетаний X и Y. Если f
    ij
    расположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными.

    39
    В случае образования какого-либо характерного сочетания f
    ij
    допустимо утверждать о связи между X и Y. При этом, если f
    ij
    концентрируются около одной из двух диагоналей, имеет место прямая или обратная линейная связь.
    Уровни признака Y
    Уровни признака X
    Y
    1
    Y
    2

    Y
    m
    Ито го
    i
    Y
    X
    1
    f
    11
    f
    12

    f
    1m

    z
    j
    f
    1 1
    1
    Y
    X
    2
    f
    21
    f
    22

    f
    2m

    z
    j
    f
    1 2
    2
    Y







    X
    k
    f
    k1
    f
    k2

    f
    km

    z
    kj
    f
    1
    k
    Y
    Всего

    =
    k
    i
    i
    f
    1 1

    k
    i
    f
    1 2


    k
    iz
    f
    1
    n
    Y
    j
    X
    1
    X
    2
    X

    z
    X
    X

    Рис. 7.1. Схема корреляционной таблицы
    Наглядным отображением корреляционной таблицы служит корреляционное поле. Оно представляет график, где по оси абсцисс откладываются значения X, по оси ординат – Y, а точками показывается сочетание первичных наблюдений X и Y. По расположению точек, их концентрации в определенном направлении можно судить о наличии и форме связи.
    В итогах корреляционной таблицы по строкам и столбцам приводятся два распределения –
    одно по X, другое по Y. Рассчитаем для каждого X
    i
    среднее значение Y, для Y
    j
    – среднее значение X.
    ;
    1 1


    =
    =
    =
    m
    j
    ij
    m
    j
    ij
    j
    i
    f
    f
    Y
    Y


    =
    =
    =
    k
    ij
    k
    1
    i
    ij
    i
    j
    f
    f
    X
    X
    1
    i
    ; i = 1, 2, …, k; j = 1, 2, …, m.
    Последовательность точек
    )
    Y
    ,
    (X
    i
    i
    на графике иллюстрирует зависимость среднего значения результативного признака Y от факторного X; соединяя точки линиями, получаем эмпирическую
    линию регрессии, наглядно показывающую, как изменяется Y по мере изменения X. Аналогичным образом, последовательность точек
    )
    Y
    ,
    X
    (
    j
    j
    на графике иллюстрирует зависимость среднего значения факторного признака X от результативного Y; соединяя точки линиями, также получаем
    эмпирическую линию регрессии, наглядно показывающую, как изменяется X по мере изменения Y.
    Таким образом, на одном графическом поле можно расположить две линии регрессии.
    Пример. Ниже в корреляционной таблице представлены итоги статистического наблюдения уровня оплаты труда и производственного стажа работников.
    Уровень оплаты (Y
    j
    ), руб.
    Стаж работы (X
    i
    ), лет
    1500–1750 1750–2000 2000–2250 2250 и выше
    Итого
    Средний уровень оплаты,
    (
    i
    Y
    ), руб.
    0 2
    1


    3 1708,3 1
    1 1
    1

    3 1875,0 2

    1

    1 2
    1875,0 3



    1 1
    2375,0 4



    2 2
    2375,0
    Всего
    3 3
    1 4
    11

    Средний стаж
    )
    (
    j
    X
    ,
    лет
    0,333 1
    1 3,25


    На графике (рис. 7.2) по данным таблицы показаны две эмпирические линии регрессии. Одна из них иллюстрирует изменение среднего уровня оплаты труда по мере увеличения производственного стажа (Х). Вторая линия показывает средний стаж работы при данном уровне оплаты труда (уровень
    Y
    i
    в серединах интервалов равен 1625, 1875, 2125 и 2375 руб.).

    40
    Рис. 7.2. Эмпирические регрессии оплаты труда и стажа работы
    Для количественной оценки тесноты связи в первую очередь используется линейный
    коэффициент корреляции (или коэффициент линейной корреляции). Корреляция переменных X и Y
    оценивается по формуле:
    (
    )
    σ
    σ
    σ
    ·
    σ
    ·
    Y
    X
    Y
    X
    XY
    YX
    Y
    X
    XY
    n
    )
    Y
    (Y
    ·
    X
    X
    r
    r



    =


    =
    =

    Известны и другие модификации этого выражения. Здесь n – количество наблюдений;
    X
    σ ,
    Y
    σ
    соответствующие средние квадратические отклонения. Коэффициент корреляции принимает значения в интервале от –1 до +1. Принято считать, что если |r| < 0,3, то связь слабая; при |r| = (0,3–0,7) –
    средняя; при |r| > 0,7 – сильная или тесная. Когда |r| =1, связь функциональная. Если же r
    ≈ 0, то этоо дает основание говорить об отсутствии линейной связи между Y и X. Но в этом случае вполне возможно нелинейное взаимодействие, что требует дополнительной проверки и других измерителей
    (см. ниже).
    Для характеристики влияния X на изменение уровня Y служат методы регрессионного анализа.
    В случае парной линейной зависимости строится регрессионная модель:
    Y
    i
    = a
    0
    + a
    1
    X
    i
    + ,
    i
    ε
    i = 1, …, n,
    где i – номер наблюдения;
    n – число наблюдений;
    а
    0
    , а
    1
    – неизвестные параметры уравнения регрессии;
    i
    ε
    – случайная составляющая (ошибка) переменной Y.
    Собственно уравнение регрессии записывается как
    Y
    i.теор
    = a
    0
    + a
    1
    · X
    i
    ,
    где Y
    i.теор
    – рассчитанное по уравнению регрессии значение результативного признака (после подста- новки в уравнение числового значения X
    i
    ).
    Параметры а
    0
    и а
    1
    оцениваются с помощью процедур, наибольшую известность из которых полу- чил метод наименьших квадратов. Суть его в том, что наилучшие оценки а
    0
    и а
    1
    получают, когда
    (
    )
    min
    1 2
    теор
    =


    =
    n
    i
    i
    i
    Y
    Y
    Иначе говоря, сумма квадратов отклонений фактических значений зависимой переменной Y от значений, вычисленных по уравнению регрессии, должна быть минимальной. Сумма квадратов отклонений является функцией параметров а
    0
    и а
    1
    . Минимальному значению суммы квадратов отклонений соответствует решение системы линейных относительно а
    0
    и а
    1
    уравнений:
    n · а
    0
    + а
    1
    · Σ X =
    Σ Y;
    a
    0
    ·
    Σ X + a
    1
    ·
    Σ X
    2
    =
    Σ XY.
    Можно воспользоваться и другими формулами, вытекающими из метода наименьших квадратов,
    например:
    ( )
    .
    X
    ·
    a
    Y
    a
    ,
    ·
    r
    X
    X
    Y
    X
    XY
    a
    x
    y
    XY
    1 0
    2 2
    1
    σ
    σ

    =
    =



    =

    41
    Аппарат линейной регрессии достаточно хорошо разработан и обязательно имеется в наборе стандартных программ статистического анализа на ПЭВМ. Смысл параметров: а
    1
    – это коэффициент регрессии, характеризующий влияние, которое оказывает изменение X на Y. Он показывает, на сколько единиц в среднем изменится Y при изменении X на одну единицу
    4
    . Если а
    1
    больше 0, то наблюдается положительная связь. Если а
    1
    отрицателен, то увеличение X на единицу влечет за собой уменьшение
    Y в среднем на а
    1
    . Параметр а
    1
    обладает размерностью отношения Y к X. Например, по данным о стоимости оборудования X и уровне производительности труда Y методом наименьших квадратов получена зависимость Y = –12,14 + 0,208 · X. Коэффициент а
    1
    = 0,208 означает, что увеличение стои- мости оборудования на 1 тыс. руб. ведет к среднему росту производительности труда на 0,208 тыс.
    руб. Параметр а
    0
    – это постоянная величина в уравнении регрессии. Его интерпретируют как начальное значение Y (или значение Y при X = 0). Значения функции Y = а
    0
    + а
    1
    · X на графике образуют
    теоретическую линию регрессии. Смысл теоретической регрессии в том, что это оценка среднего значения переменной Y для любого возможного значения X.
    Получив оценки параметров регрессии и корреляции, необходимо убедиться, что эти значения не случайны и действительно выражают наличие, характер и тесноту зависимости признаков. Системы анализа статистических данных на ЭВМ обязательно включают процедуры оценки значимости.
    По традиционной методике, исследователь задает численную оценку уровня значимости,
    например α = 0,05. Под эту вероятность выбирается табличное значение t-статистики Стьюдента,
    если оценивается значимость параметра регрессии либо коэффициента парной линейной корреляции,
    или табличное значение F-статистики Фишера-Снедекора для оценки значимости уравнения регрессии в целом. Далее величина конкретного полученного параметра регрессии или коэффициента корреляции пересчитывается в фактическое значение t-статистики, а для уравнения регрессии в целом в фактическое значение F-статистики. Фактические t-статистики показывают, на сколько средних квадратических отклонений соответствующий фактический параметр регрессии или корреляции отклонился от своего гипотетического нулевого среднего уровня. Для коэффициента парной линейной корреляции и параметра а
    1
    в уравнении парной регрессии фактическое значение t-статистики определяют
    1 2
    2
    факт
    XY
    xy
    r
    n
    r
    t



    =
    Для параметра а
    0
    :
    ,
    r
    ·
    n
    ·
    a
    t
    XY
    Y
    2 0
    0 1
    σ
    2


    =
    где n – количество наблюдений;
    2
    XY
    r – коэффициент линейной корреляции признаков X и Y.
    Если фактическое значение t-статистики Стьюдента больше табличного значения (t
    табл
    ), то утверждается, что коэффициент корреляции или параметр регрессии статистически значим с уровнем,
    не менее
    α
    При назначении табличного значения t-статистики необходимым параметром является число
    степеней свободы (
    ν
    ). Для анализа парных линейных зависимостей число степеней свободы равно количеству наблюдений за минусом 2 (числа параметров регрессии в уравнении парной линейной связи), т.е.
    ν
    = n – 2. Для уравнений множественной линейной регрессии соответственно имеем
    ν
    = n – (k + 1) = n – m,
    где m – количество параметров в уравнении регрессии,
    n – количество наблюдений, по которым составляется уравнение множественной регрессии.
    Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F-критерия, определяя расчетное (фактическое) значение
    F-статистики. На основе квадрата коэффициента множественной корреляции (R
    2
    ), числа наблюдений
    (n) и количества параметров в уравнении множественной линейной регрессии (m) определяем:
    .
    m
    R
    m
    n
    ·
    R
    F
    )
    1
    ·(
    )
    1
    (
    )
    (
    2 2
    расч



    =
    Полученное по этой формуле значение F
    расч
    также должно быть больше F
    теор
    (табличного) при
    v
    1
    = m – 1 и v
    2
    = n – m степенях свободы и выбранном уровне значимости .
    α
    4
    Следует учитывать, что достаточно много статистических и просто экономических показателей по своему содержанию не могут изменить свое численное значение на 1. Например, доля рабочих в общей численности,
    доля затрат на покупные комплектующие, доля брака в производстве и т.п. В этих случаях интерпретируется изменение признака Х на 0,01 своей величины.

    42
    7.3. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ СВЯЗИ
    В методах корреляционного и регрессионного анализа взаимосвязей используются основные характеристики (параметры) распределения – средние значения и дисперсии. Эти методы получили название параметрических. Статистической наукой разработаны и такие методы, с помощью которых можно измерить связь между явлениями, не используя количественные значения признака, а значит,
    и параметры распределения. Такие методы получили название непараметрических.
    При оценке взаимосвязи двух качественных признаков используют представление единиц совокупности в форме так называемых таблиц взаимной сопряженности.
    Пример
    Число детей, занятых в
    Занятия родителей промышленности,
    строительстве сельском хозяйстве сфере обслуживания прочих видах
    Всего
    1. Промышленность, строительство
    40 5
    7 39 91 2. Сельское хозяйство
    34 29 13 12 88 3. Сфера обслуживания
    16 6
    15 19 56 4. Прочие виды деятельности
    24 5
    9 72 110
    Всего
    114 45 44 142 345
    Распределение частот по строкам и столбцам таблицы взаимной сопряженности позволяет выявить основные закономерности социальной мобильности. Но важно получить обобщающий показатель, характеризующий тесноту связи между признаками и позволяющий сравнить проявление связи в разных совокупностях и периодах времени. Для этого определяют, например, коэффициенты
    взаимной сопряженности Пирсона (С) и Чупрова (К):
    (
    )(
    )
    ,
    1 1
    K
    ;
    1 2
    1 2
    2 2


    =
    +
    =
    K
    K
    С
    φ
    ϕ
    ϕ
    где
    2
    ϕ
    – показатель средней квадратической сопряженности, определяемый как



    =
    =

    =
    ij
    j
    i
    ij
    j
    ij
    i
    j
    i
    ij
    f
    f
    f
    f
    f
    f
    f
    ;
    ,
    ,
    1 2
    2
    φ
    где К
    1
    и К
    2
    – число групп по каждому из признаков;
    f
    ij
    – частоты в клетках таблицы сопряженности.
    Величина коэффициента взаимной сопряженности, отражающая тесноту связи между качественными признаками, находится в обычных для этих показателей пределах от 0 до 1. Для нашего примера последовательность расчета представлена в таблице:
    Число детей, занятых в
    Занятия родителей промышленности,
    строительстве сельском хо зяйстве сфере обслуживания прочих видах
    Всего

    j
    j
    i
    ij
    f
    f
    f
    2 1. Промышленность,
    строительство
    40 1600 14,04 5
    25 0,56 7
    49 1,11 39 1521 10,71 91 26,42 0,2903 2. Сельское хозяйство
    34 1156 10.14 29 841 18,69 13 169 3,84 12 144 1,01 88 33,68 0,3827 3. Сфера обслужи- вания
    16 256 2,25 6
    36 0.8 15 225 5,11 19 361 2,54 56 10,7 0,1911 4. Прочие виды деятельности
    24 576 5,05 5
    25 0,56 9
    81 1,84 72 5184 36,51 110 43,96 0,3996
    Ито го (f
    j
    )
    114 45 44 142 345 1,264

    43
    Цифры в верхней строке клетки перенесены из предыдущей таблицы. Цифры в центре клеток представляют результат возведения частот в квадрат
    ( )
    2
    ij
    f
    Делением на итоговые частоты ты соответствующих столбцов получаем значения, которые записываем в нижней строке. Так,
    для первой клетки первого столбца
    Суммы этих величин по строке записываем в столбце 5. Для первой строки

    =
    =
    +
    +
    +
    =
    4 1
    2 1
    42
    ,
    26 71
    ,
    10 11
    ,
    1 56
    ,
    0 04
    ,
    14
    j
    j
    j
    f
    f
    Разделим полученные суммы на итог частот по соответствующей строке (для первой строки
    26,42 : 91 = 0,2903). Эти результаты записываем в последний столбец (6) расчетной таблицы. В итоге получаем:
    Значения коэффициентов показывают наличие заметной связи между изучаемыми признаками.
    Коэффициент К Чупрова обычно дает более осторожную оценку связи.
    Взаимосвязь между двумя альтернативными признаками измеряется с помощью 4-клеточных таблиц. Например:
    Численность занятых
    Пол
    Сезонные отрасли
    Несезонные отрасли
    Всего
    Мужчины
    Женщины
    187 (a)
    307 (c)
    265 (b)
    272 (d)
    452 579
    Всего
    494 537 1031
    Доля сезонных работников среди женщин составляет 53% (307/579), среди мужчин – 41,4%
    (187/452). Можно утверждать, что имеется взаимосвязь признаков пола и отрасли. Оценить тесноту связи можно с помощью коэффициентов взаимной сопряженности
    С или К. Но проще это сделать с помощью коэффициентов контингенции или ассоциации. Используя буквенные обозначения в клетках таблицы сопряженности, коэффициент контингенции определяем по формуле
    (
    )(
    )(
    )(
    )
    (
    ) (
    )
    116
    ,
    0 537 494 579 452 307 265 272 187

    =






    =
    +
    +
    +
    +

    =
    d
    b
    c
    a
    d
    c
    b
    a
    bc
    ad
    K
    K
    Величина коэффициента показывает наличие слабой обратной связи между анализируемыми альтернативными признаками.
    Коэффициент ассоциации:
    (
    ) (
    )
    (
    ) (
    )
    231
    ,
    0 132219 30491 81355 50864 81355 50894 307 265 272 187 307 265 272 187

    =

    =
    +

    =

    +




    =
    +

    =
    bc
    ad
    bc
    ad
    K
    A
    Как видно, коэффициент контингенции оценивает связь более осторожно. Заметим также, что
    K
    K
    K
    =
    В социально-экономических исследованиях нередко встречаются ситуации, когда признак не выражается количественно, однако единицы совокупности можно упорядочить, т.е. ранжировать.
    Примерами могут быть ранжирование студентов (учеников) по способностям, любой совокупности людей по уровню образования, профессии, по способности к творчеству и т.д. При ранжировании каждой единице совокупности присваивается ранг, т.е. порядковый номер. При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Так, если
    5-я и 6-я единица совокупности одинаковы, обе единицы получат ранг (5 + 6)/2 = 5,5. Для измерения

    44
    связи между ранжированными признаками определяют ранговые коэффициенты корреляции
    Спирмена ( ρ ) и Кендэлла ( τ ).
    Сущность метода Спирмена в следующем:
    1) располагают варианты факторного признака по возрастанию, т.е. ранжируют единицы по значению признака X;
    2) для каждой единицы совокупности указывают ранг с точки зрения результативного признака Y.
    Если связь прямая, то с увеличением ранга признака Х, будет возрастать и ранг Y; при тесной прямой связи ранги признаков Х и Y в основном совпадут. При обратной связи возрастанию рангов признака Х будет соответствовать общее убывание рангов признака Y. Теснота связи между признаками оценивается ранговым коэффициентом корреляции Спирмена:
    ( )
    ,
    1 6
    1
    ρ
    2 2


    =

    n
    n
    d
    где d – разность рангов признаков Х и Y;
    n – число наблюдаемых единиц.
    Кендэллом предложен другой показатель также с использованием рангов:
    (
    )
    1 2
    τ

    =

    n
    n
    S
    Расчет коэффициента Кендэлла выполняется в следующем порядке:
    1. Ряд наблюдений располагается в возрастающем порядке по признаку Х с указанием соответствующих рангов по признаку Y.
    2. Упорядоченная таким образом последовательность берется как исходная для построения квадратной матрицы (a
    ij
    ) размерностью (n× n). Далее потребуются только элементы, расположенные выше главной диагонали. По каждой паре наблюдений (i, j) сравниваем ранги признака Y:





    >

    =
    <
    =
    ,
    1
    ;
    ,
    0
    ;
    ,
    1
    j
    i
    j
    i
    j
    i
    ij
    R
    R
    если
    R
    R
    если
    R
    R
    если
    a
    Сумма элементов a
    ij
    , расположенных выше главной диагонали, и есть искомое значение S в формуле коэффициента Кендэлла. При некотором навыке расчет величины S можно выполнить,
    непосредственно сравнивая ранг Y данного наблюдения с рангами Y последующих наблюдений. Для каждого наблюдения подсчитываются Р – число случаев, когда ранг признака Y следующих наблюдений меньше, чем у данного, и Q – число случаев, когда у следующих наблюдений ранг признака Y больше, чем у данного. Искомое значение



    =
    P
    Q
    S
    Правильность вычислений контролируется соблюдением условия

    ·(
    1)/2
    n
    n
    P
    Q
    =
    +


    Пример. Имеются данные об успеваемости 10 учащихся школы:
    Ранги успеваемости по наукам:
    Учащиеся
    Физико-математическим (R
    x
    )
    Гуманитарным (R
    y
    )
    d = R
    x
    – R
    y
    d
    2
    А
    Б
    В
    Г
    Д
    Е
    Ж
    3
    И
    К
    1 2
    3 4
    5 6
    7 8
    9 10 3
    10 8
    4 7
    5 9
    1 6
    2
    –2
    –8
    –5 0
    –2
    +1
    –2
    +7
    +3
    +8 4
    64 25 0
    4 1
    4 49 9
    64
    Итого
    55 55 0
    224

    45
    Коэффициент Спирмена
    (
    )
    ;
    358
    ,
    0 1
    10 10 224 6
    1
    ρ
    2

    =



    =
    отмечена обратная, хотя и не очень сильная,
    связь между способностями учеников к физико-математическим и гуманитарным наукам.
    Вычислим по тем же данным коэффициент Кендэлла ( τ ). Для ученика A – Q = 7, Р получается при сравнении А с учениками, ранг которых по Y ниже, а по Х выше. Таких случаев 2. Всего для ученика А имеем (Q – Р) = 7 – 2 = 5. Ученика Б сравниваем со всеми следующими учениками в списке Q = 0, P = 8, Q – P = –8. По всей совокупности имеем
    =

    =


    P
    Q
    S
    11 1
    2 3
    0 3
    2 5
    8 5

    =

    +

    +

    +


    =
    Таким образом,
    (
    )
    244
    ,
    0 90 22 1
    10 10 2
    11
    τ

    =

    =



    =
    Коэффициент Кендэлла также отмечает обратную,
    хотя и менее выраженную, связь между признаками.
    Контрольные вопросы
    1. Определение взаимосвязи, статистические и функциональные связи.
    2. Формы и виды связей.
    3. Понятие корреляционно-регрессионного анализа.
    4. Оценка значимости параметров взаимосвязи
    5. Таблицы сопряженности. Коэффициенты сопряженности.
    6. Коэффициенты связи для таблиц сопряженности 2 х 2.
    7. Ранговая корреляция.
    1   2   3   4   5   6   7   8   9   ...   23


    написать администратору сайта