Главная страница
Навигация по странице:

  • 3.3. Определение коэффициентов уравнения регрессии

  • 3.4. Определение тесноты связи между случайными величинами

  • 3.5. Парная линейная корреляция

  • 3.6. Статистическое изучение корреляционной связи

  • Проверка признака-фактора на нормальность

  • 3.6.3. Установление факта наличия и направления

  • 3.6.4. Измерение степени тесноты связи

  • Реброва ТПЭ. Программа для чтения pdfфайлов Adobe Acrobat Reader Редактор Н. И. Косенкова Техническая подготовка Т. И. Кукина Издание первое. Дата подписания к использованию 18. 03. 2016


    Скачать 1.31 Mb.
    НазваниеПрограмма для чтения pdfфайлов Adobe Acrobat Reader Редактор Н. И. Косенкова Техническая подготовка Т. И. Кукина Издание первое. Дата подписания к использованию 18. 03. 2016
    Дата06.10.2021
    Размер1.31 Mb.
    Формат файлаpdf
    Имя файлаРеброва ТПЭ.pdf
    ТипПрограмма
    #242678
    страница5 из 13
    1   2   3   4   5   6   7   8   9   ...   13

    статистической.
    Корреляционной связью называют частный случай статисти- ческой связи, состоящий в том, что разным значениям одной пере- менной соответствуют различные средние значения другой. С изме- нением значения признака x закономерным образом изменяется сред-
    Си бА
    ДИ

    37
    нее значение признака y ; в то время как в каждом отдельном случае значение признака y (с различными вероятностями) может принимать множество значений.
    Причинами возникновения корреляционной связи между при- знаками могут быть:
     зависимость результативного признака (отклика) или его ва- риации от вариации факторного признака;
     связь между двумя следствиями общей причины;
     взаимосвязь признаков, каждый из которых и причина и следствие.
    По характеру корреляционные связи могут быть прямолиней- ными и криволинейными. Прямолинейной называется такая корреля- ционная связь, когда равным изменениям одной переменной соответ- ствуют равные изменения другой переменной (рис. 3.1, а, б). В случае криволинейной корреляцииравным изменениям одной переменной мо- гут соответствовать любые изменения другой переменной (рис. 3.1, в).
    На рис. 3.1, г представлен случай, когда между переменными отсутст- вует связь (нет корреляции).
    Форма связи устанавливает вид функциональной зависимости


    3 2
    1
    ,
    ,


    x
    x
    x
    f
    y
    и характеризуется уравнением регрессии. Если уравнение связи линейное, то получаем линейную многомерную рег- рессию, уравнение которой имеет вид




    k
    j
    j
    j
    x
    b
    b
    y
    1 0

    ,
    (3.7) где
    k
    b
    b
    b
    ,
    ,
    1 0
    – коэффициенты уравнения.
    В общем случае виды функциональных зависимостей в технике достаточно многообразны: показательные
    1 0

    b
    x
    b
    y
    , логарифмические
     
    x
    b
    y
    lg

    0

    и т.д.
    Рис. 5.1. Корреляционные зависимости
    y
    x
    а
    y
    х
    б
    y
    x
    в
    y
    x
    г
    Си бА
    ДИ

    38
    Задача выбора функциональной зависимости неформализуемая, т.к. одна и та же кривая на данном участке примерно с одинаковой точностью может быть описана самыми различными аналитическими выражениями. Принятие решения о выборе той или иной математиче- ской модели остаётся за исследователем. Желательно при обработке результатов эксперимента вид функции


    3 2
    1
    ,
    ,

    x
    x
    x
    f
    y
    выбирать,
    исходя из условия соответствия физической природе изучаемых явле- ний или представлений об особенностях поведения исследуемой ве- личины.
    При изучении зависи- мости от одного фактора при заранее неизвестном виде функции отклика полезно предварительно построить эмпирическую линию рег- рессии (рис. 3.2). Для этого весь диапазон х разбивают на равные интервалы х

    , нахо- дят середину интервала, под- считывают частные средние
    у для каждого интервала, по- лученные точки соединяют отрезками прямой.
    3.3. Определение коэффициентов уравнения регрессии
    Существует два основных подхода к нахождению b
    j
    Первый подход – интерполирование. Базируется на удовлетво- рении условию, чтобы функция


    b
    X,

    f
    y
    совпадала с эксперимен- тальными значениями в некоторых точках, выбранных в качестве опорных. В этом случае для определения к+1 неизвестных значений параметров b
    j
    используется система уравнений


    n
    i
    b
    b
    b
    x
    f
    y
    k
    j
    i
    i



    1
    ,
    ,...
    ,...,
    ,

    0
    (3.8)
    Число независимых уравнений системы равно числу опорных точек, в пределе – n поставленных опытов. С другой стороны, для оп- ределения к+1 коэффициентов требуется к+1 независимых уравнений.
    В предельном случае, когда число коэффициентов уравнения равно числу экспериментальных точек n=k+1, все экспериментальные точки будут совпадать с их расчётными значениями. Добиваться такого
    Δx
    x
    j
    y
    j
    x
    y
    Рис. 3.2. Эмпирическая линия регрессии
    Си бА
    ДИ

    39
    точного совпадения путём значительного увеличения числа коэффи- циентов уравнения регрессии неразумно, поскольку эксперименталь- ные результаты получены с большей или меньшей погрешностью, и такая функция может просто не отражать действительного характера изменения исследуемой величины в силу влияния помех.
    При n > k+1 число независимых уравнений системы избыточно.
    Из этих уравнений в разных комбинациях можно составить несколько систем уравнений, каждая из которых в отдельности даст своё реше- ние. Но между собой они будут несовместимыми. Каждое решение будет соответствовать своим значениям коэффициентов b
    j
    . Если все их построить на графике, то получим целый пучок аппроксимирую- щих кривых, форма и ширина которого показывает область неопреде- лённости проведённого эксперимента. Может быть произведено ус- реднение всех найденных кривых и полученная усреднённая кривая будет точнее и достовернее описывать исследуемое явление, так как она в значительной степени освобождена от случайных погрешно- стей, приводивших к разбросу отдельных экспериментальных точек.
    Второй подход – метод наименьших квадратов. Основан на вы- полнении требования, чтобы сумма квадратов отклонений экспери- ментальных точек от соответствующих значений уравнения регрессии была минимальна.




    min
    ,...,
    ,...,
    ,
    ,
    2 1
    1 0




    b
    i
    i
    k
    j
    i
    y
    b
    b
    b
    b
    x
    f
    ,




     
    k
    j
    b
    x
    f
    y
    b
    b
    b
    b
    x
    f
    j
    i
    b
    i
    i
    k
    j
    i








    0
    ,
    0
    ,...,
    ,...,
    ,
    ,
    1 1
    0
    ,
    (3.9)


     
     
    0
    ,...,
    ,...,
    ,
    ,
    1 1
    1 0










    j
    i
    b
    i
    n
    i
    i
    j
    i
    k
    j
    i
    b
    x
    f
    y
    b
    x
    f
    b
    b
    b
    b
    x
    f
    Последняя система содержит столько же уравнений, сколько не- известных коэффициентов.
    Расчёт коэффициентов уравнения регрессии методом наимень- ших квадратов можно применять при любых статистических данных, распределённых по любому закону.
    3.4. Определение тесноты связи между случайными величинами
    Определив уравнение теоретической линии регрессии, необхо- димо дать количественную оценку тесноты связи между двумя ряда- ми наблюдений. При корреляционном анализе предполагается, что
    Си бА
    ДИ

    40
    факторы и отклики носят случайный характер и подчиняются нор- мальному закону распределения. Тесноту связи между случайными величинами характеризуют корреляционным отношением
    2 2
    2
    y
    ост
    y
    y
    xy
    S
    S
    S


    ,
    (3.10) где
    2
    y
    S
    – дисперсия выходного параметра, определяет разброс экспе- риментально наблюдаемых точек относительно среднего значения,







    n
    i
    i
    y
    y
    y
    n
    S
    1 2
    2 1
    1
    ;
    (3.11)
    2
    ост
    y
    S
    остаточная дисперсия, характеризует разброс эксперимен- тально наблюдаемых точек относительно линии регрессии и пред- ставляет собой показатель ошибки предсказания параметра по урав- нению регрессии,








    n
    i
    i
    ост
    y
    y
    y
    k
    n
    S
    1 2
    2

    1 1
    (3.12)
    В случае, если
    1


    xy
    , связь является функциональной,
    0 2

    ост
    y
    S
    , все точки корреляционного поля оказываются на линии регрессии,
    0


    xy
    означает отсутствие какой-либо тесноты связи ме- жду x и y для данного уравнения регрессии,
    2 2
    ост
    y
    y
    S
    S
    , разброс экс- периментальных точек относительно среднего значения линии рег- рессии одинаков.
    Чем ближе расположены экспериментальные точки к линии рег- рессии, тем теснее связь, тем меньше остаточная дисперсия и тем больше корреляционное отношение.
    3.5. Парная линейная корреляция
    Простейшей системой корреляционной связи является линейная связь между двумя признаками – парная линейная корреляция. Прак- тическое ее значение состоит в том, что существуют системы, в кото- рых среди всех факторов, влияющих на результативный признак, вы- деляется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных многофакторных связей. Рассмотрение линейных связей объясняется ограниченной ва-
    Си бА
    ДИ

    41
    риацией переменных и тем, что в большинстве случаев нелинейные формы связей для выполнения расчетов преобразуются в линейную форму.
    По общему направлению связи могут быть прямые и обратные.
    При прямых связях с увеличением признака x увеличивается и при- знак y, при обратных с увеличением признака x признак y уменьшает- ся. Изучение парной корреляции осуществляется при совместном из- мерении двух физических величин.
    Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид
    bx
    a
    y



    ,
    (3.13) где y
    – среднее значение результативного признака y при определен- ном значении факторного признака x; a – свободный член уравнения;
    bкоэффициент регрессии, измеряющий среднее отношение откло- нения результативного признака от его средней величины к отклоне- нию факторного признака от его средней величины на одну единицу его измерения (вариация y, приходящаяся на единицу вариации x).
    Показателем тесноты парной линейной корреляционной связи является коэффициент корреляции
    xy
    r
    . Этот показатель представля- ет собой стандартизованный коэффициент регрессии, т.е. коэффици- ент, выраженный не в абсолютных единицах измерения признаков, а в долях СКО результативного признака:
    y
    x
    xy
    b
    r



    (3.14)
    Интерпретация коэффициента корреляции такова: отклонение признака-фактора от его среднего значения на величину СКО в сред- нем по совокупности приводит к отклонению результативного при- знака от своего среднего значения на
    xy
    r
    его СКО. В отличие от ко- эффициента регрессии b коэффициент корреляции не зависит от при- нятых единиц измерения признаков и сравним для любых признаков.
    3.6. Статистическое изучение корреляционной связи
    Целью статистического исследования является получение моде- ли зависимости результативного признака от признака-фактора для ее практического использования. Решение этой задачи осуществляется следующим образом.
    Си бА
    ДИ

    42
    3.6.1. Сбор первичной информации, проверка ее на однородность
    и нормальность распределения
    Устанавливаются результативный показатель y и влияющий на его изменение фактор x.
    Для оценки однородности совокупности используется коэффи- циент вариации по факторному признаку
    %
    100


    x
    S
    V
    x
    ,
    (3.15) где
    x ,
    x
    S
    –выборочное среднее и оценка СКО факторного признака соответственно, определяемые по формулам (2.1), (2.17), (2.3), (2.18) в зависимости от объема выборки.
    Совокупность считается однородной, если коэффициент вариа- ции V не превышает 33 %.
    Проверка нормальности распределения исследуемых факторных признаков проводится по методике, изложенной в подразд. 2.7. Для упрощения процедуры проверки можно воспользоваться табл. 3.2.
    Таблица 3.2
    Проверка признака-фактора на нормальность
    Интервалы значений фактора
    Число единиц, входящих в интервал
    Удельный вес единиц, входящих в интервал, %
    Удельный вес единиц, входящих в интервал, при нормальном распределении, %
    1 2
    3 4

     

    x
    x
    S
    x
    S
    x



    68,3

     

    x
    x
    S
    x
    S
    x
    2 2



    95,4

     

    x
    x
    S
    x
    S
    x
    3 3



    99,7
    Сопоставление данных граф 3 и 4 позволяет судить о наличии или отсутствии нормальности распределения. На практике часто встречаются случаи отклонения закона распределения факторов от нормального, однако это не означает, что следует отказаться от при- менения корреляционного анализа.
    Си бА
    ДИ

    43
    3.6.2. Исключение из массива первичной информации промахов
    Определяются и исключаются промахи в соответствии с мето- дикой, изложенной в подразд. 2.4. Для упрощения анализа применя- ется критерий «трех сигм»: определяются значения фактора x, не по- павшие в последнюю строку табл. 3.2, они являются промахами и ис- ключаются из выборки. Для последующего анализа формируется но- вый массив.
    3.6.3. Установление факта наличия и направления
    корреляционной зависимости между результативным
    и факторным признаками
    Для установления наличия корреляционной связи используются методы параллельного сопоставления рядов результативного и фак- торного признаков, графического изображения фактических данных с помощью поля корреляции, построения корреляционной таблицы.
    Основным методом выявления наличия корреляционной связи является метод аналитической группировки и определения групповых средних. Он заключается в том, что все единицы совокупности разби- ваются на группы по величине признака-фактора и для каждой груп- пы определяется средняя величина результативного признака. На ос- нове данных аналитической группировки строится график эмпириче- ской линии связи (линия регрессии), вид которой не только позволяет судить о возможном наличии связи, но и дает некоторое представле- ние о форме корреляционной связи. Если эмпирическая линия связи по своему виду приближается к прямой линии, то можно предполо- жить наличие прямолинейной корреляционной связи; если эмпириче- ская линия приближается к какой-либо кривой, то это связано с нали- чием криволинейной связи.
    3.6.4. Измерение степени тесноты связи,
    оценка ее существенности
    Для определения степени тесноты парной линейной зависимо- сти служит линейный коэффициент корреляции r. Степень тесноты связи при любой форме зависимости (линейной, криволинейной) оце- нивают с помощью эмпирического корреляционного отношения  .
    Си бА
    ДИ

    44
    Расчет линейного коэффициента корреляции по несгруппиро- ванным данным осуществляется по формуле
































    n
    y
    y
    n
    x
    x
    n
    y
    x
    xy
    r
    2 2
    2 2
    (3.16)
    Линейный коэффициент корреляции может принимать значения в пределах от –1 до +1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак при коэффициенте указывает направление свя- зи: знак «+» соответствует прямой зависимости, знак «–» – обратной.
    Если коэффициент корреляции равен нулю, то связи между призна- ками нет; если он равен единице, то между признаками существует функциональная связь.
    Оценка существенности линейного коэффициента корреляции проводится с использованием t-критерия Стьюдента по формуле
    r
    S
    r
    t
    ,
    (3.17) где
    r
    S
    – средняя квадратическая ошибка коэффициента корреляции.
    При большом объеме выборки (свыше 50)
    1 1
    2



    n
    r
    S
    r
    (3.18)
    При недостаточно большом объеме выборки
    2 1
    2



    n
    r
    S
    r
    (3.19)
    Критическое значение
    T
    t
    определяется по таблице распределе- ния Стьюдента для заданного уровня значимости и числа степеней свободы
    1

    n
    f
    d
    или
    2

    n
    f
    d
    (в зависимости от объема выбор- ки). Если
    T
    t
    t
    , то следует говорить о существенности коэффициента корреляции.
    Корреляционное отношение определяется по формуле
    2 2
    y
    y
    S
    S



    ,
    (3.20) где
    2
    y
    S

    – межгрупповая дисперсия результативного признака, вы- званная влиянием признака-фактора;
    2
    y
    S
    – общая дисперсия результа- тивного признака.
    Си бА
    ДИ

    1   2   3   4   5   6   7   8   9   ...   13


    написать администратору сайта