Реброва ТПЭ. Программа для чтения pdfфайлов Adobe Acrobat Reader Редактор Н. И. Косенкова Техническая подготовка Т. И. Кукина Издание первое. Дата подписания к использованию 18. 03. 2016
Скачать 1.31 Mb.
|
Корреляционной связью называют частный случай статисти- ческой связи, состоящий в том, что разным значениям одной пере- менной соответствуют различные средние значения другой. С изме- нением значения признака x закономерным образом изменяется сред- Си бА ДИ 37 нее значение признака y ; в то время как в каждом отдельном случае значение признака y (с различными вероятностями) может принимать множество значений. Причинами возникновения корреляционной связи между при- знаками могут быть: зависимость результативного признака (отклика) или его ва- риации от вариации факторного признака; связь между двумя следствиями общей причины; взаимосвязь признаков, каждый из которых и причина и следствие. По характеру корреляционные связи могут быть прямолиней- ными и криволинейными. Прямолинейной называется такая корреля- ционная связь, когда равным изменениям одной переменной соответ- ствуют равные изменения другой переменной (рис. 3.1, а, б). В случае криволинейной корреляцииравным изменениям одной переменной мо- гут соответствовать любые изменения другой переменной (рис. 3.1, в). На рис. 3.1, г представлен случай, когда между переменными отсутст- вует связь (нет корреляции). Форма связи устанавливает вид функциональной зависимости 3 2 1 , , x x x f y и характеризуется уравнением регрессии. Если уравнение связи линейное, то получаем линейную многомерную рег- рессию, уравнение которой имеет вид k j j j x b b y 1 0 , (3.7) где k b b b , , 1 0 – коэффициенты уравнения. В общем случае виды функциональных зависимостей в технике достаточно многообразны: показательные 1 0 b x b y , логарифмические x b y lg 0 и т.д. Рис. 5.1. Корреляционные зависимости y x а y х б y x в y x г Си бА ДИ 38 Задача выбора функциональной зависимости неформализуемая, т.к. одна и та же кривая на данном участке примерно с одинаковой точностью может быть описана самыми различными аналитическими выражениями. Принятие решения о выборе той или иной математиче- ской модели остаётся за исследователем. Желательно при обработке результатов эксперимента вид функции 3 2 1 , , x x x f y выбирать, исходя из условия соответствия физической природе изучаемых явле- ний или представлений об особенностях поведения исследуемой ве- личины. При изучении зависи- мости от одного фактора при заранее неизвестном виде функции отклика полезно предварительно построить эмпирическую линию рег- рессии (рис. 3.2). Для этого весь диапазон х разбивают на равные интервалы х , нахо- дят середину интервала, под- считывают частные средние у для каждого интервала, по- лученные точки соединяют отрезками прямой. 3.3. Определение коэффициентов уравнения регрессии Существует два основных подхода к нахождению b j Первый подход – интерполирование. Базируется на удовлетво- рении условию, чтобы функция b X, f y совпадала с эксперимен- тальными значениями в некоторых точках, выбранных в качестве опорных. В этом случае для определения к+1 неизвестных значений параметров b j используется система уравнений n i b b b x f y k j i i 1 , ,... ,..., , 0 (3.8) Число независимых уравнений системы равно числу опорных точек, в пределе – n поставленных опытов. С другой стороны, для оп- ределения к+1 коэффициентов требуется к+1 независимых уравнений. В предельном случае, когда число коэффициентов уравнения равно числу экспериментальных точек n=k+1, все экспериментальные точки будут совпадать с их расчётными значениями. Добиваться такого Δx x j y j x y Рис. 3.2. Эмпирическая линия регрессии Си бА ДИ 39 точного совпадения путём значительного увеличения числа коэффи- циентов уравнения регрессии неразумно, поскольку эксперименталь- ные результаты получены с большей или меньшей погрешностью, и такая функция может просто не отражать действительного характера изменения исследуемой величины в силу влияния помех. При n > k+1 число независимых уравнений системы избыточно. Из этих уравнений в разных комбинациях можно составить несколько систем уравнений, каждая из которых в отдельности даст своё реше- ние. Но между собой они будут несовместимыми. Каждое решение будет соответствовать своим значениям коэффициентов b j . Если все их построить на графике, то получим целый пучок аппроксимирую- щих кривых, форма и ширина которого показывает область неопреде- лённости проведённого эксперимента. Может быть произведено ус- реднение всех найденных кривых и полученная усреднённая кривая будет точнее и достовернее описывать исследуемое явление, так как она в значительной степени освобождена от случайных погрешно- стей, приводивших к разбросу отдельных экспериментальных точек. Второй подход – метод наименьших квадратов. Основан на вы- полнении требования, чтобы сумма квадратов отклонений экспери- ментальных точек от соответствующих значений уравнения регрессии была минимальна. min ,..., ,..., , , 2 1 1 0 b i i k j i y b b b b x f , k j b x f y b b b b x f j i b i i k j i 0 , 0 ,..., ,..., , , 1 1 0 , (3.9) 0 ,..., ,..., , , 1 1 1 0 j i b i n i i j i k j i b x f y b x f b b b b x f Последняя система содержит столько же уравнений, сколько не- известных коэффициентов. Расчёт коэффициентов уравнения регрессии методом наимень- ших квадратов можно применять при любых статистических данных, распределённых по любому закону. 3.4. Определение тесноты связи между случайными величинами Определив уравнение теоретической линии регрессии, необхо- димо дать количественную оценку тесноты связи между двумя ряда- ми наблюдений. При корреляционном анализе предполагается, что Си бА ДИ 40 факторы и отклики носят случайный характер и подчиняются нор- мальному закону распределения. Тесноту связи между случайными величинами характеризуют корреляционным отношением 2 2 2 y ост y y xy S S S , (3.10) где 2 y S – дисперсия выходного параметра, определяет разброс экспе- риментально наблюдаемых точек относительно среднего значения, n i i y y y n S 1 2 2 1 1 ; (3.11) 2 ост y S остаточная дисперсия, характеризует разброс эксперимен- тально наблюдаемых точек относительно линии регрессии и пред- ставляет собой показатель ошибки предсказания параметра по урав- нению регрессии, n i i ост y y y k n S 1 2 2 1 1 (3.12) В случае, если 1 xy , связь является функциональной, 0 2 ост y S , все точки корреляционного поля оказываются на линии регрессии, 0 xy означает отсутствие какой-либо тесноты связи ме- жду x и y для данного уравнения регрессии, 2 2 ост y y S S , разброс экс- периментальных точек относительно среднего значения линии рег- рессии одинаков. Чем ближе расположены экспериментальные точки к линии рег- рессии, тем теснее связь, тем меньше остаточная дисперсия и тем больше корреляционное отношение. 3.5. Парная линейная корреляция Простейшей системой корреляционной связи является линейная связь между двумя признаками – парная линейная корреляция. Прак- тическое ее значение состоит в том, что существуют системы, в кото- рых среди всех факторов, влияющих на результативный признак, вы- деляется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных многофакторных связей. Рассмотрение линейных связей объясняется ограниченной ва- Си бА ДИ 41 риацией переменных и тем, что в большинстве случаев нелинейные формы связей для выполнения расчетов преобразуются в линейную форму. По общему направлению связи могут быть прямые и обратные. При прямых связях с увеличением признака x увеличивается и при- знак y, при обратных с увеличением признака x признак y уменьшает- ся. Изучение парной корреляции осуществляется при совместном из- мерении двух физических величин. Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид bx a y , (3.13) где y – среднее значение результативного признака y при определен- ном значении факторного признака x; a – свободный член уравнения; b – коэффициент регрессии, измеряющий среднее отношение откло- нения результативного признака от его средней величины к отклоне- нию факторного признака от его средней величины на одну единицу его измерения (вариация y, приходящаяся на единицу вариации x). Показателем тесноты парной линейной корреляционной связи является коэффициент корреляции xy r . Этот показатель представля- ет собой стандартизованный коэффициент регрессии, т.е. коэффици- ент, выраженный не в абсолютных единицах измерения признаков, а в долях СКО результативного признака: y x xy b r (3.14) Интерпретация коэффициента корреляции такова: отклонение признака-фактора от его среднего значения на величину СКО в сред- нем по совокупности приводит к отклонению результативного при- знака от своего среднего значения на xy r его СКО. В отличие от ко- эффициента регрессии b коэффициент корреляции не зависит от при- нятых единиц измерения признаков и сравним для любых признаков. 3.6. Статистическое изучение корреляционной связи Целью статистического исследования является получение моде- ли зависимости результативного признака от признака-фактора для ее практического использования. Решение этой задачи осуществляется следующим образом. Си бА ДИ 42 3.6.1. Сбор первичной информации, проверка ее на однородность и нормальность распределения Устанавливаются результативный показатель y и влияющий на его изменение фактор x. Для оценки однородности совокупности используется коэффи- циент вариации по факторному признаку % 100 x S V x , (3.15) где x , x S –выборочное среднее и оценка СКО факторного признака соответственно, определяемые по формулам (2.1), (2.17), (2.3), (2.18) в зависимости от объема выборки. Совокупность считается однородной, если коэффициент вариа- ции V не превышает 33 %. Проверка нормальности распределения исследуемых факторных признаков проводится по методике, изложенной в подразд. 2.7. Для упрощения процедуры проверки можно воспользоваться табл. 3.2. Таблица 3.2 Проверка признака-фактора на нормальность Интервалы значений фактора Число единиц, входящих в интервал Удельный вес единиц, входящих в интервал, % Удельный вес единиц, входящих в интервал, при нормальном распределении, % 1 2 3 4 x x S x S x 68,3 x x S x S x 2 2 95,4 x x S x S x 3 3 99,7 Сопоставление данных граф 3 и 4 позволяет судить о наличии или отсутствии нормальности распределения. На практике часто встречаются случаи отклонения закона распределения факторов от нормального, однако это не означает, что следует отказаться от при- менения корреляционного анализа. Си бА ДИ 43 3.6.2. Исключение из массива первичной информации промахов Определяются и исключаются промахи в соответствии с мето- дикой, изложенной в подразд. 2.4. Для упрощения анализа применя- ется критерий «трех сигм»: определяются значения фактора x, не по- павшие в последнюю строку табл. 3.2, они являются промахами и ис- ключаются из выборки. Для последующего анализа формируется но- вый массив. 3.6.3. Установление факта наличия и направления корреляционной зависимости между результативным и факторным признаками Для установления наличия корреляционной связи используются методы параллельного сопоставления рядов результативного и фак- торного признаков, графического изображения фактических данных с помощью поля корреляции, построения корреляционной таблицы. Основным методом выявления наличия корреляционной связи является метод аналитической группировки и определения групповых средних. Он заключается в том, что все единицы совокупности разби- ваются на группы по величине признака-фактора и для каждой груп- пы определяется средняя величина результативного признака. На ос- нове данных аналитической группировки строится график эмпириче- ской линии связи (линия регрессии), вид которой не только позволяет судить о возможном наличии связи, но и дает некоторое представле- ние о форме корреляционной связи. Если эмпирическая линия связи по своему виду приближается к прямой линии, то можно предполо- жить наличие прямолинейной корреляционной связи; если эмпириче- ская линия приближается к какой-либо кривой, то это связано с нали- чием криволинейной связи. 3.6.4. Измерение степени тесноты связи, оценка ее существенности Для определения степени тесноты парной линейной зависимо- сти служит линейный коэффициент корреляции r. Степень тесноты связи при любой форме зависимости (линейной, криволинейной) оце- нивают с помощью эмпирического корреляционного отношения . Си бА ДИ 44 Расчет линейного коэффициента корреляции по несгруппиро- ванным данным осуществляется по формуле n y y n x x n y x xy r 2 2 2 2 (3.16) Линейный коэффициент корреляции может принимать значения в пределах от –1 до +1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак при коэффициенте указывает направление свя- зи: знак «+» соответствует прямой зависимости, знак «–» – обратной. Если коэффициент корреляции равен нулю, то связи между призна- ками нет; если он равен единице, то между признаками существует функциональная связь. Оценка существенности линейного коэффициента корреляции проводится с использованием t-критерия Стьюдента по формуле r S r t , (3.17) где r S – средняя квадратическая ошибка коэффициента корреляции. При большом объеме выборки (свыше 50) 1 1 2 n r S r (3.18) При недостаточно большом объеме выборки 2 1 2 n r S r (3.19) Критическое значение T t определяется по таблице распределе- ния Стьюдента для заданного уровня значимости и числа степеней свободы 1 n f d или 2 n f d (в зависимости от объема выбор- ки). Если T t t , то следует говорить о существенности коэффициента корреляции. Корреляционное отношение определяется по формуле 2 2 y y S S , (3.20) где 2 y S – межгрупповая дисперсия результативного признака, вы- званная влиянием признака-фактора; 2 y S – общая дисперсия результа- тивного признака. Си бА ДИ |