Главная страница
Навигация по странице:

  • 3.6.5. Построение модели связи

  • 3.7. Пример применения корреляционно-регрессионного анализа

  • Проверка признака-фактора на нормальность

  • Вспомогательная таблица для заполнения групповой таблицы

  • Групповая таблица

  • Данные для расчета коэффициента корреляции и уравнения связи

  • 3.8. Линейная множественная регрессия

  • Реброва ТПЭ. Программа для чтения pdfфайлов Adobe Acrobat Reader Редактор Н. И. Косенкова Техническая подготовка Т. И. Кукина Издание первое. Дата подписания к использованию 18. 03. 2016


    Скачать 1.31 Mb.
    НазваниеПрограмма для чтения pdfфайлов Adobe Acrobat Reader Редактор Н. И. Косенкова Техническая подготовка Т. И. Кукина Издание первое. Дата подписания к использованию 18. 03. 2016
    Дата06.10.2021
    Размер1.31 Mb.
    Формат файлаpdf
    Имя файлаРеброва ТПЭ.pdf
    ТипПрограмма
    #242678
    страница6 из 13
    1   2   3   4   5   6   7   8   9   ...   13

    45







    j
    j
    j
    y
    f
    f
    y
    y
    S
    2 0
    2
    ;
    (3.21)


    n
    y
    y
    S
    i
    y



    2 0
    2
    ,
    (3.22) где
    j
    y
    – среднее значение результативного признака в соответствую- щих группах, выделенных по величине признака-фактора;
    0
    y
    – общая средняя для всей совокупности;
    j
    f
    – число единиц в соответствую- щих группах.
    Вычисление корреляционного отношения требует достаточно большого объема информации, которая должна быть представлена в форме групповой таблицы или в форме корреляционной таблицы, т.е. обязательным условием является группировка данных по признаку- фактору.
    3.6.5. Построение модели связи
    Тип модели выбирается на основе сочетания теоретического анализа и исследования эмпирических данных посредством построе- ния эмпирической линии регрессии. Чаще всего используются сле- дующие типы функций: линейная
    bx
    a
    y
    x



    ; гиперболическая
    x
    b
    a
    y
    x
    1



    ; параболическая
    2

    cx
    bx
    a
    y
    x



    ; показательная
    x
    x
    ab
    y

    Для проверки возможности использования линейной функции определяется модуль разности
    2 2
    r


    ; если она менее 0,1, то счита- ется возможным применение линейной функции.
    Система уравнений для определения параметров a и b уравнения прямолинейной корреляционной связи (для несгруппированных дан- ных) имеет вид














    ;
    2
    x
    b
    x
    a
    yx
    x
    b
    an
    y
    (3.23)
    Параметры a и b можно найти по формулам
    Си бА
    ДИ

    46
    x
    b
    y
    a


    ;






     


    2 2
    x
    x
    n
    y
    x
    xy
    n
    b
    (3.24)
    В качестве меры достоверности уравнения корреляционной за- висимости используется процентное отношение средней квадратиче- ской ошибки уравнения S
    e
    к среднему уровню результативного при- знака y :
    %
    100

    y
    S
    e
    ;


    g
    n
    y
    y
    S
    e




    2

    ,
    (3.25) где y – фактические значения результативного признака; y
    – значе- ния результативного признака, рассчитанные по уравнению регрес- сии; g – число параметров уравнения регрессии.
    Если это отношение не превышает 10 – 15 %, то следует счи- тать, что уравнение регрессии достаточно хорошо отображает изу- чаемую взаимосвязь.
    Для результативного признака определяются доверительные границы, в пределах которых с заданной доверительной вероятностью будет находиться теоретическое значение y. Доверительные границы результативного признака y при значении факторного признака
    0
    x
    вычисляются следующим образом:




    2 2
    0 2
    2 0
    1

    1

    0 0
    x
    e
    x
    x
    e
    x
    S
    x
    x
    n
    S
    t
    y
    y
    S
    x
    x
    n
    S
    t
    y










    ,
    (3.26) где

    t
    определяется в соответствии с уровнем значимости по распре- делению Стьюдента для числа степеней свободы
    1

    n
    f
    d
    3.7. Пример применения корреляционно-регрессионного анализа
    В табл. 3.3 приведены данные исследования зависимости объема выпускаемой продукции от уровня автоматизации поточных линий.
    Провести на основе приведенных данных исследование взаимосвязи объема выпускаемой продукции от уровня автоматизации поточных линий. Результативный признак – объем продукции y. Факторный признак – уровень автоматизации поточной линии x.
    Первичная информация проверяется на однородность по при- знаку-фактору с помощью коэффициента вариации.
    5
    ,
    73



    n
    x
    x
    %;


    1
    ,
    4 2




    n
    x
    x
    S
    x
    %;
    4
    ,
    5 100 5
    ,
    73 1
    ,
    4



    V
    %.
    Си бА
    ДИ

    47
    %
    33

    V
    , следовательно, совокупность можно считать однород- ной.
    Таблица 3.3
    Данные для анализа
    Номер линии
    Уровень автоматизации,
    %
    Объем продукции, млн руб.
    Номер линии
    Уровень автоматизации,
    %
    Объем продукции, млн руб.
    1 77,8 18,5 11 69,6 17,5 2
    69,0 18,2 12 79,2 21,8 3
    76,5 20,4 13 70,8 16,5 4
    80,7 21,8 14 72,3 16,8 5
    72,0 16,8 15 79,2 21,0 6
    77,1 20,8 16 73,5 16,8 7
    64,0 14,2 17 71,1 16,5 8
    72,0 17,0 18 69,9 17,0 9
    75,9 18,4 19 70,5 17,5 10 73,2 19,5 20 75,0 20,9
    Проверка первичной информации на нормальность распределе- ния проводится с помощью правила «трех сигм» (табл. 3.4). Можно считать, что значения фактора подчиняются закону нормального рас- пределения.
    Таблица 3.4
    Проверка признака-фактора на нормальность
    Интервалы значений фактора
    Число единиц, входящих в интервал
    Удельный вес единиц, входящих в интервал, в общем их числе,
    %
    Удельный вес единиц, входящих в интервал, при нормальном распределении, %
    69,4 – 77,6 14 70,0 68,3 65,3 – 81,7 19 95,0 95,4 61,2 – 85,8 20 100 99,7
    Все значения факторного признака попадают в интервал «трех сигм»
    8
    ,
    85 2
    ,
    61


    i
    x
    , следовательно, грубых ошибок (промахов) в первичной информации нет.
    Для установления наличия связи
     
    x
    y
    производится аналитиче- ская группировка по факторному признаку. Группировка выполняется при равных интервалах и числе групп m=5. Величина интервала
    Си бА
    ДИ

    48
    4
    ,
    3 5
    0
    ,
    64 7
    ,
    80
    min max





    m
    x
    x
    i
    %.
    Расчеты приведены в табл. 3.5, 3.6. Как видно из данных груп- повой таблицы, с увеличением уровня автоматизации поточных ли- ний объем выпускаемой на них продукции растет. На рис. 3.3 пред- ставлен график связи. Эмпирическая линия связи приближается к прямой линии. Следовательно, можно предполагать наличие прямо- линейной корреляции.
    Таблица 3.5
    Вспомогательная таблица для заполнения групповой таблицы
    x, %
    64,0 – 67,4 67,4 – 70,8 70,8 – 74,2 74,2 – 77,6 77,6 – 81,0
    Номер линии
    7 2; 11; 18;
    19 5; 8; 10;
    13; 14; 16;
    17 3; 6; 9; 20 1; 4; 12; 15
    y, млн руб.
    14,2 18,2; 17,5;
    17,0; 17,5 16,8;17,0;
    19,5; 16,5;
    16,8; 16,8;
    16,5 20,4; 20,8;
    18,4; 20,9 18,5; 21,8;
    21,8; 21,0
    Таблица 3.6
    Групповая таблица
    x, %
    x
    , %
    f
    j

    i
    ij
    y
    j
    y
    , млн руб.
    64,0 – 67,4 65,7 1
    14,2 14,2 67,4 – 70,8 69,1 4
    70,2 17,6 70,8 – 74,2 72,5 7
    119,9 17,1 74,2 – 77,6 75,9 4
    80,5 20,1 77,6 – 81,0 79,3 4
    83,1 20,8
    Для измерения степени тесноты связи вычисляем линейный ко- эффициент корреляции (3.16).
    Для расчета r использована вспомогательная табл. 3.7.
    86
    ,
    0 2
    ,
    168 3
    ,
    145 20 9
    ,
    367 8
    ,
    6852 20 3
    ,
    1469 1
    ,
    108274 20 9
    ,
    367 3
    ,
    1469 1
    ,
    27173 2
    2
























    r
    Значение линейного коэффициента корреляции свидетельствует о наличии прямой и достаточно тесной связи.
    Си бА
    ДИ

    49
    10 15 20 25 65,7 69,1 72,5 75,9 79,3
    x, %
    y,
    млн руб.
    Рис.3.3. Зависимость объема выпускаемой продукции от уровня автоматизации поточных линий
    Таблица 3.7
    Данные для расчета коэффициента корреляции и уравнения связи
    Номер линии
    x,
    %
    y, млн руб.
    x
    2
    y
    2
    xy
    y

    y
    y




    2

    y
    y
    1 77,8 18,5 6052,8 342,3 1439,3 20,3
    -1,8 3,21 2
    69,0 18,2 4761,0 331,2 1255,8 16,4 1,8 3,17 3
    76,5 20,4 5852,3 416,2 1560,6 19,7 0,7 0,46 4
    80,7 21,8 6512,5 475,2 1759,3 21,6 0,2 0,05 5
    72,0 16,8 5184,0 282,2 1209,6 17,7
    -0,9 0,88 6
    77,1 20,8 5944,4 432,6 1603,7 20,0 0,8 0,67 7
    64,0 14,2 4096,0 201,6 908,8 14,2 0,0 0,00 8
    72,0 17,0 5184,0 289,0 1224,0 17,7
    -0,7 0,55 9
    75,9 18,4 5760,8 338,6 1396,6 19,5
    -1,1 1,12 10 73,2 19,5 5358,2 380,3 1427,4 18,3 1,2 1,52 11 69,6 17,5 4844,2 306,3 1218,0 16,7 0,8 0,67 12 79,2 21,8 6272,6 475,2 1726,6 20,9 0,9 0,80 13 70,8 16,5 5012,6 272,3 1168,2 17,2
    -0,7 0,51 14 72,3 16,8 5227,3 282,2 1214,6 17,9
    -1,1 1,15 15 79,2 21,0 6272,6 441,0 1663,2 20,9 0,1 0,01 16 73,5 16,8 5402,3 282,2 1234,8 18,4
    -1,6 2,56 17 71,1 16,5 5055,2 272,3 1173,2 17,3
    -0,8 0,71 18 69,9 17,0 4886,0 289,0 1188,3 16,8 0,2 0,03 19 70,5 17,5 4970,3 306,3 1233,8 17,1 0,4 0,18 20 75,0 20,9 5625,0 436,8 1567,5 19,1 1,8 3,39

    1469,3 367,9 108274
    ,1 6852,8 27173,1


    21,62
    Си бА
    ДИ

    50
    Средняя квадратическая ошибка коэффициента корреляции
    12
    ,
    0 2
    20 86
    ,
    0 1
    2 1
    2 2







    n
    r
    S
    r
    ;
    167
    ,
    7 12
    ,
    0 86
    ,
    0



    r
    S
    r
    t
    Критическое значение t определяем по таблице распределения
    Стьюдента для
    05
    ,
    0


    и
    18

    f
    d
    734
    ,
    1

    T
    t
    . Так как
    T
    t
    t
    , можно утверждать существенность коэффициента корреляции.
    Определение модели линейной связи. Проверяем возможность использования линейной функции.
    4
    ,
    18 20 9
    ,
    367 0


    y
    млн руб.;
    32
    ,
    3 2

    y
    S
    млн руб.
    2
    ;
    26
    ,
    4 2

    y
    S
    млн руб.
    2
    ;
    88
    ,
    0 26
    ,
    4 32
    ,
    3



    ;
    04
    ,
    0 86
    ,
    0 88
    ,
    0 2
    2 2
    2





    r
    Так как
    1
    ,
    0 2
    2



    r
    , применение линейной функции считается возможным. Модель линейной связи
    bx
    a
    y



    . Коэффициенты урав- нения регрессии определяем, используя данные табл. 3.7.


    44
    ,
    0 2
    2





     


    x
    x
    n
    y
    x
    xy
    n
    b
    ;
    94
    ,
    13 5
    ,
    73 44
    ,
    0 4
    ,
    18







    x
    b
    y
    a
    Получили следующую модель связи (уравнение регрессии):
    x
    y
    44
    ,
    0 94
    ,
    13




    Средняя квадратическая ошибка уравнения


    10
    ,
    1 2
    20 62
    ,
    21

    2







    g
    n
    y
    y
    S
    e
    млн руб.
    Значения y
    , рассчитанные по уравнению регрессии, представ- лены в табл. 3.7.
    %
    6
    %
    100 4
    ,
    18 10
    ,
    1
    %
    100




    y
    S
    e
    Полученное отношение меньше 10 %, поэтому полученная мо- дель достаточно хорошо отображает взаимосвязь двух признаков и может быть использована в практической работе.
    3.8. Линейная множественная регрессия
    При изучении множественной регрессии не существует графи- ческой интерпретации многофакторного пространства. При проведе- нии экспериментов в такой ситуации исследователь записывает пока- зания приборов о состоянии функции отклика у и всех факторов x
    i
    , от
    Си бА
    ДИ

    51
    которых она зависит. Результат исследований – это матрица наблю- дений.




















    nk
    nj
    n
    n
    n
    ik
    ij
    i
    i
    i
    k
    j
    k
    j
    x
    x
    x
    x
    y
    x
    x
    x
    x
    y
    x
    x
    x
    x
    y
    x
    x
    x
    x
    y






















    2 1
    2 1
    2 2
    22 21 2
    1 1
    12 11 1
    ,
    (3.27) где n – число опытов; k – число факторов; x
    ij
    – значение j-го фактора в
    i-м опыте; y
    i
    – значение выходного параметра для i-го опыта.
    Задача линейной множественной регрессии состоит в построе- нии гиперплоскости в (k+1)-мерном пространстве, отклонения ре- зультатов наблюдений y
    i
    от которой были бы минимальными при ис- пользовании метода наименьших квадратов. Т.е. следует определить значения коэффициентов b
    j
    (j=0,1,2,3…) в линейном полиноме




    k
    j
    j
    j
    x
    b
    b
    y
    1 0

    (3.28)
    Процедура определения коэффициентов не отличается от одно- мерного случая. Для оценки тесноты связи между функцией отклика
    y
    и несколькими факторами
    k
    j
    x
    x
    x
    x
    ,
    ,
    ,
    ,
    ,
    2 1


    используют коэффи- циент множественной корреляции R, который всегда положителен и изменяется в пределах от 0 до 1. Чем больше R, тем качественнее предсказания данной моделью опытных данных с точки зрения бли- зости ее к функциональной.
    Расчёты обычно начинают с вычисления парных коэффициентов корреляции:
    1)
    j
    yx
    r
    – коэффициенты, определяющие тесноту связи между функцией отклика y
    и одним из факторов
    j
    x
    ;
    2)
    u
    j
    x
    x
    r
    – коэффициенты, показывающие тесноту связи между одним и з факторов x
    j
    и фактором x
    u
    Если один из коэффициентов
    u
    j
    x
    x
    r
    окажется равным 1, то это означает, что факторы
    j
    x
    и
    u
    x
    функционально связаны между собой.
    Тогда целесообразно один из них исключить из рассмотрения, причём оставляют тот фактор, у которого коэффициент
    j
    yx
    r
    больше.
    Си бА
    ДИ

    52
    После вычисления всех парных коэффициентов корреляции можно построить матрицу коэффициентов следующего вида:
    










    










    1 1
    1 1
    1 2
    1 2
    1 2
    2 1
    2 2
    1 1
    2 1
    1 2
    1
























    j
    k
    k
    k
    k
    k
    j
    j
    j
    j
    k
    j
    k
    j
    k
    j
    x
    x
    x
    x
    x
    x
    y
    x
    x
    x
    x
    x
    x
    x
    y
    x
    x
    x
    x
    x
    x
    x
    y
    x
    x
    x
    x
    x
    x
    x
    y
    x
    yx
    yx
    yx
    yx
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    (3.29)
    Однако парные коэффициенты корреляции не характеризуют тесноту связи, так как они вычисляются при случайно изменяющихся значениях других факторов. Действительно, рассмотрение трёх и бо- лее случайных величин может не дать правильного представления о степени связи между всеми случайными величинами. Это объясняется тем, что на закон распределения вероятностей исследуемой пары слу- чайных величин могут оказывать влияние и другие рассматриваемые случайные величины.
    Используя матрицу коэффициентов, можно вычислить частные коэффициенты корреляции, которые показывают степень влияния од- ного из факторов
    j
    x
    на функцию отклика y
    при условии, что осталь- ные факторы остаются на постоянном уровне.
    Формула для вычисления частных коэффициентов корреляции имеет вид
    jj
    j
    xk
    xj
    x
    yx
    D
    D
    D
    r


    11 1
    ,
    ,
    ,
    ,
    2
    ,
    1


    ,
    (3.30) где
    j
    D
    1
    – определитель матрицы, образованной из матрицы (3.29) вы- чёркиванием 1-й строки и j-го столбца. Определители
    11
    D
    и
    jj
    D
    вы- числяют аналогично. Как и парные коэффициенты, частные коэффи- циенты корреляции изменяются от -1 до +1.
    Значимость и доверительный интервал для коэффициентов час- той корреляции определяются так же, как для коэффициентов парной корреляции, только число степеней свободы вычисляют по формуле
    2
    )
    1
    (




    k
    n
    f
    d
    ,
    (3.31) где (k-1) – порядок частного коэффициента парной корреляции.
    Для вычисления коэффициента множественной корреляции ис- пользуют матрицу (3.29)
    Си бА
    ДИ

    1   2   3   4   5   6   7   8   9   ...   13


    написать администратору сайта