Главная страница
Навигация по странице:

  • 5.7. Простейшие методы установления тесноты связи

  • СтатистикаЛевина 2012. Е. И. Левина статистика учебное пособие кемерово 2012 1 Рецензенты


    Скачать 4.61 Mb.
    НазваниеЕ. И. Левина статистика учебное пособие кемерово 2012 1 Рецензенты
    АнкорСтатистикаЛевина 2012.pdf
    Дата03.06.2018
    Размер4.61 Mb.
    Формат файлаpdf
    Имя файлаСтатистикаЛевина 2012.pdf
    ТипУчебное пособие
    #19930
    страница11 из 23
    1   ...   7   8   9   10   11   12   13   14   ...   23
    5.6. Корреляционно-регрессионный метод установления связей. Это наиболее точный метод установления взаимосвязей, рассматривающий влияние вариации факторного признаках на результативный у. В основу выявления и установления аналитической формы связи положено применение в анализе исходной информации математических функций. При изучении связи показателей применяются разного рода уравнения прямолинейной и криволинейной зависимости. Если результативный признак с увеличением факторного признака равномерно возрастает или убывает, то такая зависимость является линейной и выражается уравнением прямой
    , (7.1) где х – индивидуальные значения факторного признака a, b – параметры уравнения прямой (уравнения регрессии ух
    – теоретическое значение результативного признака.
    Параметры уравнения прямой a и b определяются путем решения системы нормальных уравнений, полученных методом наименьших квадратов или по формулам или
    Параметр можно также найти по формуле Если данные сгруппированы и представлены в виде корреляционной таблицы, то параметры уравнения регрессии при прямолинейной зависимости могут быть определены или с помощью решения системы нормальных уравнений)
    (7.3)
    (7.4)
    (7.5)
    (7.6)

    167 или по формулам
    , где – групповые средние. Параметра можно также определить по формуле (7.5), те В уравнении прямой параметр a не имеет экономического смысла. Параметр b является коэффициентом регрессии и показывает изменение результативного признака при изменении факторного признака на единицу. Часто исследуемые признаки имеют разные единицы измерения, поэтому для оценки влияния факторного признака на результативный применяется коэффициент эластичности. Он рассчитывается для каждой точки ив среднем по всей совокупности. Коэффициент эластичности рассчитывается как где
    – первая производная уравнения регрессии. Средний коэффициент эластичности для уравнения прямой определяют последующей формуле Значение данного коэффициента показывает, насколько процентов изменяется результативный признак при изменении факторного признака на 1%. Дальнейшим шагом является установление тесноты взаимосвязи. Для чего рассчитываются линейный коэффициент корреляции, теоретическое корреляционное отношение, индекс корреляции.
    (7.7)
    (7.8)
    (7.9)
    (7.10)

    168 Линейный коэффициент корреляции используется для измерения тесноты связи только при линейной зависимости В зависимости от степени приближения значения данного коэффициента различают связь
    1. слабая до 0,3 (+)
    2. умеренная 0,3 – 0,5 3. заметная 0,5 – 0,7 4. высокая 0,7 – 0,9 5. весьма высокая более 0,9 Теоретическое корреляционное отношение и индекс корреляции применяются для измерения тесноты корреляционной связи между признаками как при линейной, таки нелинейной зависимости. Теоретически корреляционное отношение рассчитывается
    − факторная дисперсия, которая характеризует вариацию результативного признака под влиянием признака-фактора, включенного в модель
    (7.11)
    (7.12)
    (7.13)
    (7.14)
    (7.15)

    169
    − общая дисперсия, которая характеризует вариацию результативного признака под влиянием всех факторов, вызывающих эту вариацию. Теоретическое корреляционное отношение изменяется от 0 до 1, чем ближе корреляционное отношение к 1, тем теснее связь между признаками. Индекс корреляции может быть определен с помощью следующих формул где
    − остаточная дисперсия, которая характеризует вариацию результативного признака под влиянием прочих неучтенных факторов. Дальнейшим шагом является оценка адекватности регрессионной модели и значимости показателей тесноты корреляционной связи. Адекватность регрессионной модели при малой выборке
    (n<30) оценивается с помощью критерия Фишера: где m – число параметров модели ; n – число единиц наблюдения. Затем эмпирическое значение критерия э сравнивается с табличным т, с уровнем значимости 0,01 или 0,05 и числом степеней свободы (m - 1), (n - m) . Если э > т , то уравнение регрессии признается значимым.
    (7.16)
    (7.17)
    (7.18)
    (7.19)

    170 Значимость коэффициентов линейного уравнения регрессии a и b оценивается по критерию Cтьюдента (n < 30): где Эмпирическое значение критерия сравнивается с табличным значением распределения Cтьюдента с уровнем значимости или 0,05 и числом степеней свободы ( n - 2 ). Параметр признается значимым, если эмпирическое значение t э
    больше табличного t т .
    Аналогично проводится оценка коэффициента корреляции с помощью критерия, который определяется по формуле Если эмпирическое значение t r
    оказывается больше табличного, то линейный коэффициент корреляции признается значимым. Пример Имеются следующие данные по десяти предприятиям
    № предприятия
    1 2
    3 4
    5 6
    7 8
    9 10 Объем электропотребления, кВТч.
    3,7 1
    2,0 2,1 1,6 2
    2,3 1,5 2,8 4,2 Продукция, тыс.шт.
    51 55 67 68 71 86 97 99 112 123 По исходным данным :
    1) постройте однофакторную регрессионную модель зависимости между объемом потребления электроэнергии и количеством продукции ;
    2) вычислите коэффициенты эластичности, показатели тесноты корреляционной связи
    (7.20)
    (7.21)
    (7.22)
    (7.23)

    171 3) проверьте найденную модель на адекватность
    4) сделайте выводы, постройте графики. Предположим, что между объемом выпуска продукции и объемом электропотребления существует линейная корреляционная связь, которая выражается уравнением прямой Пусть x (факторный признак) – объем выпуска продукции, y (результативный признак) – объем электропотребления. Для определения формы корреляционной связи необходимо вычислить параметры уравнения прямой. Для этого построим следующую таблицу Исходные данные Расчетные значения
    № пред-я Объем продукции тыс.шт., х Объем электро- потребления, кВТч., y xy х
    2
    у
    2
    у х 2
    3 4
    5 6
    7 8
    9 10 51 55 67 68 71 86 97 99 112 123 3,7 1
    2 2,1 1,6 2
    2,3 1,5 2,8 4,2 188,7 55 134 142,8 113,6 172 223,1 148,5 313,6 516,6 2.601 3.025 4.489 4.624 5.041 7.396 9.409 9.801 12.544 15.129 13,69 1
    4 4,41 2,56 4
    5,29 2,25 7,84 17,64 1,81 1,88 2,07 2,08 2,13 2,37 2,54 2,58 2,78 2,96 3,5721 0,7744 0,0049 0,0004 0,2809 0,1369 0,0576 1,1664 0,0004 1,5376 Итого
    829 23,2 2.007,9 74.059 62,68 23,2 7,5316 В среднем Воспользуемся для расчета параметров a и b формулами
    (5.3) , (5.5) и (5.4) соответственно
    005
    ,
    1 349 53 7
    ,
    619 53 829 829 74059 10 829 9
    ,
    007 2
    059 74 2
    ,
    23









    a


    2
    х
    у
    у


    172 1) Следовательно, уравнение регрессии имеет вид Теоретическое значение объема электропотребления (ух) составит
    - для первого предприятия
    - для второго предприятия
    - ……………………. и т.д.
    - для десятого предприятия При правильном расчете параметров регрессионного уравнения должно соблюдаться равенство фактического и теоретического значений объема потребления, те. В нашем уравнении регрессии параметр b = 0,016 показывает, что с увеличением выпуска продукции на тыс. шт, объем потребления электроэнергии увеличивается на 0,016 кВТч.
    2) По формуле (5.7) найдем средний коэффициент эластичности
    016
    ,
    0 349 53 2
    ,
    846 349 53 829 2
    ,
    23 9
    ,
    007 2
    10






    b
    005
    ,
    1 9
    ,
    82 016
    ,
    0 32
    ,
    2




    a
    x
    x
    y
    016
    ,
    0 005
    ,
    1


    81
    ,
    1 51 016
    ,
    0 005
    ,
    1
    x y




    88
    ,
    1 55 016
    ,
    0 005
    ,
    1
    x y




    96
    ,
    2 123 016
    ,
    0 005
    ,
    1
    x y




    ьно следовател
    ,
    2
    ,
    23
    a
    ,
    2
    ,
    23
    y случае нашем
    В







    x
    y
    y
    y x
    57
    ,
    0 32
    ,
    2 9
    ,
    82 016
    ,
    0


    Э



    х
    у
    у

    173 Коэффициент эластичности, равный 0,57 , показывает, что с увеличением объема выпуска продукции на 1% объем электропо- требления возрастает на 0,57%. Измерим тесноту корреляционной связи между выпуском продукции и объемом электропотребления. Линейный коэффициент корреляции определяем по формуле Для расчета теоретического корреляционного отношения необходимо предварительно вычислить дисперсии по формулам Теоретическое корреляционное отношение по формуле
    (5.14) будет равняться Коэффициент детерминации равен
    389
    ,
    0 10 2
    2
    ,
    23 68
    ,
    62 10 2
    829 74059 10 2
    ,
    23 829 9
    ,
    2007






















    r
    2 2
    ,
    ,
    x
    y
    x
    y
    y
    y




    ;
    8856
    ,
    0 3124
    ,
    5 268
    ,
    6 2
    32
    ,
    2 268
    ,
    6 2
    2 2

















    n
    y
    n
    y
    y



    ;
    75316
    ,
    0 2
    2





    n
    x
    y
    y
    x
    y
    y

    13244
    ,
    0 75316
    ,
    0 8856
    ,
    0 2
    2 2






    x
    y
    y
    y
    x
    y



    387
    ,
    0 8856
    ,
    0 13244
    ,
    0



    1495
    ,
    0 2



    174 Коэффициент детерминации 0,1495 означает, что вариация объема выпуска продукции примерно на 15% объясняется вариацией объема электропотребления и примерно на 85% – прочими факторами.
    Индекс корреляции найдем по формуле (5.17) : Таким образом, показатели тесноты корреляционной связи показывают умеренную связь между выпуском продукции и объемом электропотребления. Так как, то можно сделать заключение, что гипотеза о линейной форме связи подтверждена. Проведем оценку адекватности регрессионной модели х = 1,005 + х с помощью F – критерия Фишера (5.19): Табличное значение т с уровнем значимости и числом степеней свободы (2 - 1), (10 - 2) = 5,32. Таким образом, э < т , следовательно уравнение регрессии нельзя признать адекватным. Оценим значимость параметров уравнения регрессии с помощью критерия Стьюдента по формулами Значение вычисляется по формуле (5.22):
    387
    ,
    0 8856
    ,
    0 75316
    ,
    0 1



    R



    R
    r
    407
    ,
    1 1
    2 2
    10 75316
    ,
    0 э 86785
    ,
    0 2
    10 005
    ,
    1



    a
    t
    204
    ,
    1 09740245
    ,
    23 86785
    ,
    0 2
    10 016
    ,
    0




    b
    t
    x

    097
    ,
    23 49
    ,
    533 2
    10 829 10 059 74










    x


    175 Табличное значение критерия с уровнем значимости 0,05 и числом степеней свободы (n - 2) = 2,306. Таким образом, t э параметра b < t т
    , следовательно, параметры уравнения регрессии нельзя признать значимыми. Значимость коэффициента корреляции оценим с помощью t- критерия по формуле (5.23): Эмпирическое значение t r
    < t т , следовательно, коэффициент корреляции нельзя признать значимым.
    3) Вычислим ошибку аппроксимации по формуле Таким образом, параметры уравнения и показатели тесноты, и уравнение регрессии признаются незначимыми, ошибка аппроксимации, коэффициент детерминации примерно равен, поэтому построенная регрессионная модель зависимости электропотребления от объема выпуска продукции ух+ х непригодна для анализа и прогноза.
    194
    ,
    1 2
    389
    ,
    0 1
    2 10 389
    ,
    0




    r
    t
    %
    100 1




    у
    х
    у
    у
    n

    %
    55
    ,
    31 15533
    ,
    3 10 Зависимость объема потребления электроэнергии (у) от объема выпуска продукции (х 1
    2 3
    4 5
    0 50 100 х у x
    =1,005+0,016x

    176
    _______ – теоретическая линия
    – фактическая линия
    5.7. Простейшие методы установления тесноты связи
    1. Коэффициент корреляции знака (коэффициент Фехнера),
    2. Коэффициент корреляции рангов (Спирмэна),
    3. Коэффициент ассоциации и коэффициент контингенции.
    1) Коэффициент Фехнера основан на оценке степени согласованности знаков отклонений индивидуальных значений факторного и результативного признаков от соответствующих средних. Для его расчета вычисляют средние значения результативного и факторного признаков, а затем проставляют знаки отклонений для всех значений взаимосвязанных пар признаков
    u– число совпадений знаков отклонений индивидуальных значений от средней
    v – число несовпадений знаков отклонений индивидуальных значений от средней. Коэффициент Фехнера может изменяться от –1 до +1 : Если u > v К
    ф
    > 0, следовательно, это свидетельствует о возможном наличии прямой связи Если u < v
    К
    ф
    < 0, следовательно, это дает основание предположить наличие обратной связи ; Если u = v
    ф = 0
    , следовательно связи нет. Рассмотрим расчет коэффициента Фехнера наследующем примере. Пример Имеются следующие данные о размере заработной платы (результативный признаки проценте выполнения нормы вы- работки.
    где
    ,
    v
    u
    v
    u
    ф
    К




    177 Порядковый
    № рабочего
    % выполнения нормы выработки
    З/п за месяц, руб,
    i
    y Знаки отклонений индивидуальных значений признака от средней Совпадение (U) или несовпадение) знаков
    Nx
    Ny
    d = Nx - Ny
    d
    2
    x
    x
    i

    y
    y
    i

    1 2
    3 4
    5 6
    7 8
    9 10 1
    186 1,734
    +
    +
    U
    18 19
    -1 1
    2 180 1,69
    +
    -
    V
    15 9,5 5,5 30,25 3
    190 1,72
    +
    +
    U
    19 17 2
    4 4
    184 1,725
    +
    +
    U
    17 18
    -1 1
    5 181 1,714
    +
    +
    U
    16 16 0
    0 6
    200 1,738
    +
    +
    U
    20 20 0
    0 7
    176 1,702
    +
    +
    U
    14 14,5
    -0,5 0,25 8
    140 1,674
    -
    -
    U
    5 6
    -1 1
    9 144 1,677
    -
    -
    U
    6 7
    -1 1
    10 136 1,67
    -
    -
    U
    4 4,5
    -0,5 0,25 11 164 1,7
    +
    +
    U
    10 12,5
    -2,5 6,25 12 170 1,69
    +
    -
    V
    13 9,5 3,5 12,25 13 169 1,702
    +
    +
    U
    12 14,5
    -2,5 6,25 14 155 1,7
    -
    +
    V
    7 12,5
    -5,5 30,25 15 158 1,685
    -
    -
    U
    9 8
    1 1
    16 156 1,67
    -
    -
    U
    8 4,5 3,5 12,25 17 168 1,695
    +
    +
    U
    11 11 0
    0 18 115 1,654
    -
    -
    U
    1 1
    0 0
    19 116 1,66
    -
    -
    U
    2 2
    0 0
    20 119 1,662
    -
    -
    U
    3 3
    0 0 Итого
    3207 33,862 107
    %
    160 20 207 руб 1
    20 862 33


    y

    178 Таким образом, полученная величина коэффициента Фехне- ра свидетельствует о возможности наличии прямой связи. Коэффициент Фехнера практически решает туже задачу, которая ставится при построении группировочных и корреляционных таблиц, те. отвечает на вопрос о наличии и направлении коореляционной связи между признаками. Если же построена корреляционная или группировочная таблицы, то дополнительный расчет коэффициента Фехнера не имеет практической значимости.
    2) Коэффициент корреляции ранга рассчитывается не по фактическим значениям показателей, а по рангам, которые присваиваются этим фактическим значениям в порядке возрастания или убывания. Если имеется несколько одинаковых фактических значений, то им присваивается одинаковый ранг, рассчитанный как средняя арифметическая суммы рангов, деленная на число показателей, у которых совпадают значения. d = N
    x
    - N
    y
    – разность рангов каждой пары значений хи у n – число наблюдений. Коэффициент Спирмэна изменяется от -1 до +1 3) Коэффициент ассоциации и контингенции.
    При исследовании тесноты связи между 2-мя качественными альтернативными признаками. Для их вычисления строится четырех клеточная таблица, называемая также таблица ― Четырех полей. Коэффициент ассоциации a , b , c , d – значения частот в 4 – х клеточной таблице a b c d


    92
    ,
    0 980 7
    642 1
    1 2
    20 20 107 6
    1








    где
    ,
    bc
    ad
    bc
    ad
    ас
    К



     
    где
    ,
    1 2
    2 6
    1




    n
    n
    d

    7
    ,
    0 3
    17 3
    17




    ф
    К

    179 Коэффициент контингенции: Коэффициент контингенции изменяется от –1 до +1, но всегда коэффициента ассоциации.
    Пример На основе опроса 540 чел, работающих в частной сфере деятельности и 540 чел, работающих в бюджетных организациях. Получены следующие ответы на вопрос, довольны ли они своей заработной платой Работающие Довольные заработной платой Недовольные заработной платой
    ИТОГОВ частной сфере деятельности а
    486 b
    54 а
    540 В бюджетной сфере деятельности c
    189 d
    351 c+d
    540 ИТОГО : a+c
    675 b+d
    405 1.080 Таким образом, по результатам опроса можно сделать убедительный вывод об увеличении числа довольных среди работающих в частной сфере деятельности, так как степень тесноты связи достаточно велика. Однако, в тех случаях, когда хотя бы один из четырех показателей в таблице Четырех полей отсутствует, величина коэффициента ассоциации будет равна 1, что дает преувеличенную оценку степени тесноты связи между признаками. Поэтому, предпочтение отдается коэффициенту контингенции.
    887
    ,
    0 792 180 380 160 206 10 586 170 206 10 586 170 189 54 351 486 189 54 351 ас 340 282 380 160 540 675 405 540 189 54 351 486










    конт


    
    
    

    d
    b
    c
    a
    d
    c
    b
    a
    bc
    ad
    конт
    К







    180
    1   ...   7   8   9   10   11   12   13   14   ...   23


    написать администратору сайта