МЕТОДЫ ПЛАНИРОВАНИЯ. Металлургия Екатеринбург 2015
Скачать 7.01 Mb.
|
Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА. ЭМПИРИЧЕСКИЕ ЗАВИСИМОСТИ 4.1. Характеристика видов связей между рядами наблюдений На практике сама необходимость измерений большинства величин вызывается тем, что они не остаются постоянными, а изменяются в функции от изменения других величин. В этом случае целью проведения эксперимента является установление вида функциональной зависимости y = f(X). Для этого должны одновременно определяться как значения X, таки соответствующие им значения y , а задачей эксперимента является установление математической модели исследуемой зависимости. Фактически речь идет об установлении связи между двумя рядами наблюдений (измерений. Определение связи включает в себя указание вида модели и определение ее параметров. В теории экспериментов независимые параметры X=(x 1 , ..., x k ) принято называть факторами, а зависимые переменные y — откликами. Координатное пространство с координатами x 1 , x 2 , ..., x i , ..., x называется факторным пространством. Эксперимент по определению вида функции ), (x f y (4.1) где x — скаляр, называется однофакторным. Эксперимент по определению функции вида y = f(X), (а) где X = (x 1 , x 2 , ..., x i , ..., x k ) — вектор — многофакторным. Геометрическим представлением функции отклика в факторном пространстве является поверхность отклика. При однофакторном Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 126 эксперименте (k = 1) поверхность отклика представляет собой линию на плоскости, при двухфакторном (k = 2) — поверхность в трехмерном пространстве. Связи в общем случае являются достаточно многообразными и сложными. Обычно выделяют следующие виды связей. Функциональные связи (или зависимости) — это такие связи, когда при изменении величины X другая величина изменяется так, что каждому значению x i соответствует совершенно определенное однозначное) значение y i риса. Таким образом, если выбрать все условия эксперимента абсолютно одинаковыми, то, повторяя испытания, получим одну и туже зависимость, те. кривые идеально совпадут для всех испытаний. К сожалению, такие условия в реальности не встречаются. На практике не удается поддерживать постоянство условий (например, физико-химические свойства шихты при моделировании процессов тепломассопереноса в металлургических печах. При этом влияние каждого случайного фактора в отдельности может быть мало, однако в совокупности они существенно могут повлиять на результаты эксперимента. В этом случае говорят о стохастической (вероятностной) связи между переменными. Рис. 4.1. Виды связей а – функциональная связь, все точки лежат на линии б – связь достаточно тесная, точки группируются возле линии регрессии, ноне все они лежат на ней в – связь слабая Стохастичность связи состоит в том, что одна случайная переменная реагирует на изменение другой X изменением своего закона распределения (см. рис. 4.1 б. Таким образом, зависимая Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 127 переменная принимает не одно конкретное значение, а некоторое из множества значений. Повторяя испытания, мы будем получать другие значения функции отклика, и одному и тому же значению X в различных реализациях будут соответствовать различные значения y вин- тервале [x min ; x max ]. Искомая зависимость y = f(X) может быть найдена лишь в результате совместной обработки полученных значений и y. На рис. 4.1 б — это кривая зависимости, проходящая по центру полосы экспериментальных точек (математическому ожиданию, которые могут и не лежать на искомой кривой y = f(X), а занимают некоторую полосу вокруг нее. Эти отклонения вызваны погрешностями измерений, неполнотой модели и учитываемых факторов, случайным характером самих исследуемых процессов и другими причинами. Анализ стохастических связей приводит к различным постановкам задач статистического исследования зависимостей, которые упрощенно можно классифицировать следующим образом 1. Задачи корреляционного анализа — задачи исследования наличия взаимосвязей между отдельными группами переменных. 2. Задачи регрессионного анализа — задачи, связанные с установлением аналитических зависимостей между переменными одним или несколькими переменными x 1 , x 2 , ..., x i , ..., x k , которые носят количественный характер. 3. Задачи дисперсионного анализа — задачи, в которых переменные имеют качественный характера исследуется и устанавливается степень их влияния на переменное y. Стохастические зависимости характеризуются формой, теснотой связи и численными значениями коэффициентов уравнения регрессии. Форма связи устанавливает вид функциональной зависимости) и характеризуется уравнением регрессии. Если уравнение связи линейное, то имеем линейную многомерную регрессию, в этом случае зависимость y от X описывается линейной зависимостью в мерном пространстве , 1 0 j k j j x b b y (4.2) где b 0 , ..., b j , ..., b k — коэффициенты уравнения. Для пояснения суще- Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 128 ства используемых методов ограничимся сначала случаем, когда x — скаляр. В общем случае виды функциональных зависимостей в технике достаточно многообразны показательные 1 b x 0 b y , логарифмические и т.д. Заметим, что задача выбора вида функциональной зависимости — задача не формализуемая, так как одна и та же кривая на данном участке примерно с одинаковой точностью может быть описана самыми различными аналитическими выражениями. Отсюда следует важный практический вывод. Даже в наш век компьютеров принятие решения о выборе той или иной математической модели остается за исследователем. Только экспериментатор знает, для чего будет в дальнейшем использоваться эта модель, на основе каких понятий будут интерпретироваться ее параметры. Крайне желательно при обработке результатов эксперимента вид функции y = f(X) выбирать, исходя из условия ее соответствия физической природе изучаемых явлений или имеющимся представлениям об особенностях поведения исследуемой величины. К сожалению, такая возможность не всегда имеется, так как эксперименты чаще всего проводятся для исследования недостаточно или неполно изученных явлений. При изучении зависимости y = f(x) от одного фактора при заранее неизвестном виде функции отклика для приближенного определения вида уравнения регрессии полезно предварительно построить эмпирическую линию регрессии (рис. 4.2). Для этого весь диапазон изменения x разбивают на равные интервалы. Все точки, попавшие в данный интервал x j , относят к его середине j x . Для этого подсчитывают частные средние для каждого интервала j n n 1 i ji y j Здесь n j — число точек в интервале x j , причем n * k 1 j j n , Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 129 где k* — число интервалов разбиения n — объем выборки. Затем последовательно соединяют точки ) j y ; j x ( отрезками прямой. Полученная ломаная называется эмпирической линией регрессии. По виду эмпирической линии регрессии можно в первом приближении подобрать вид уравнения регрессии y = f(x). Под теснотой связи понимается степень близости стохастической зависимости к функциональной, те. показатель тесноты группирования экспериментальных данных относительно принятого уравнения модели (см. рис. 4.1 б, в. В дальнейшем уточним это положение. 4.2. Определение коэффициентов уравнения регрессии Будем полагать, что вид уравнения регрессии уже выбран и требуется определить только конкретные численные значения коэффициентов этого уравнения b = } k b ,..., j b ,..., 0 b { . Отметим предварительно, что если выбор вида уравнения регрессии, как это уже отмечалось процесс неформальный и не может быть полностью передан компьютеру, то расчет коэффициентов выбранного уравнения регрессии операция достаточно формальная и ее следует решать с использованием компьютера. Это трудный и утомительный расчет, в котором человек не застрахован от ошибок, а компьютер выполнит его значительно быстрее и качественнее. Рис. 4.2. К построению эмпирической линии регрессии Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 130 Существует два основных подхода к нахождению коэффициентов. Выбор того или иного из них определяется целями и задачами, стоящими перед исследователем, точностью полученных результатов, их количеством и т.д. Первый подход — интерполирование Базируется на удовлетворении условию, чтобы функция y = (X, b) совпадала с экспериментальными значениями в некоторых точках, выбранных в качестве опорных (основных, главных) y В этом случае для определения k + 1 неизвестных значений параметров используется система уравнений f(x i , b 0 , ..., b j , ...., b k ) = y i , 1 i n. (4.4) В данном случае число независимых уравнений системы равно числу опорных точек, в пределе — n поставленных опытов. С другой стороны, для определения k + 1 коэффициентов необходимо не менее k + 1 независимых уравнений. Но если число n поставленных опытов и число независимых уравнений равно числу искомых коэффициентов k+1, то решение системы может быть единственно, а следовательно, точно соответствует случайным значениям исходных данных. Таким образом, в предельном случае, когда число коэффициентов уравнения регрессии равно числу экспериментальных точек n = k + 1, все экспериментальные точки будут совпадать сих расчетными значениями. 1 x y 2 Рис. 4.3. Аппроксимация функции с большими небольшим (2) числом коэффициентов b i Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 131 Следует заметить, что добиваться такого точного совпадения путем значительного увеличения числа коэффициентов уравнения регрессии часто просто неразумно, поскольку экспериментальные результаты получены с большей или меньшей погрешностью, и такая функция может просто не отражать действительного характера изменения исследуемой величины в силу влияния помех (возмущений) рис. 4.3). Таким образом, задача в конечном счете сводится к решению системы k + 1 уравнений с k + 1 неизвестными. Основная сложность такого решения связана с нелинейностью системы, хотя в принципе при использовании компьютера она преодолима. При числе опытов n большем, чем k +1 искомых коэффициентов, число независимых уравнений системы избыточно. Избыточность информации можно использовать по-разному. После определения численных значений k + 1 параметров проверяется качество аппроксимации путем сопоставления значений функции и экспериментальных данных в оставшихся, неиспользованных точках. Если обнаруженные между ними расхождения превышают допустимые по условию точности, то процедуру определения коэффициентов можно повторить, приняв в качестве опорных (основных) другие точки. Таким образом, из этих уравнений в разных комбинациях можно составить несколько систем уравнений, каждая из которых в отдельности даст свое решение. Но между собой они будут несовместимыми. Каждое решение будет соответствовать своим значениям коэффициентов. Если все их построить на графике, то получим целый пучок аппроксимирующих кривых. Это открывает при n > k + 1 совершенно новые возможности. Во-первых, этот пучок кривых показывает форму и ширину области неопределенности проведенного эксперимента. Во-вторых, может быть произведено усреднение всех найденных кривых и полученная усредненная кривая будет гораздо точнее и достовернее описывать исследуемое явление, так как она в значительной степени освобождена от случайных погрешностей, приводивших к разбросу отдельных экспериментальных точек. Поясним суть этого подхода на примере двух методов. 1. Метод избранных точек (рис. 4.4). На основании анализа Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 132 данных выдвигают гипотезу о виде (форме) зависимости f(X). Предположим, что она линейная, те. статистическая связь — это линейная одномерная регрессия x 1 b 0 b y (4.5) Выбирают две наиболее характерные, по мнению исследователя, точки, через которые и проходит линия регрессии (рис. 4.4). Задача вычисления коэффициентов b 0 ив этом случае тривиальна. Если предполагается, что уравнение регрессии более высокого порядка, то соответственно увеличивают число избранных точек. Недостатки такого подхода очевидны, так как избранные точки выбираются субъективно, а подавляющая часть экспериментального материала не используется для определения параметров (коэффициентов) уравнения регрессии, хотя ее можно использовать в дальнейшем для оценки надежности полученного уравнения. 2. Метод медианных центров Сущность этого метода поясняет рис. 4.5. Обведенное контуром поле точек делят на несколько частей, число которых равно числу определяемых коэффициентов уравнения регрессии. В каждой из этих частей находят медианный центр, те. пересечение вертикали и горизонтали слева и справа, Рис. 4.4. Метод избранных точек – избранные точки Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 133 выше и ниже которых оказывается равное число точек. Затем через эти медианные центры проводят плавную кривую и из решения системы уравнений определяют коэффициенты регрессии b Так, в случае линейной зависимости (4.5) поле делится на две группы. Определяют средние значения II y , II x ; I y , I x для каждой из группа неизвестные коэффициенты b 0 , b 1 определяют из решения системы уравнений ; 1 0 1 0 II II I I x b b y x b b y (а) Если при выборе вида уравнения регрессии число его коэффициентов окажется больше числа уравнений (имеющихся результатов измерений) k + 1 > n, система (4.4) не будет иметь однозначного решения. В этом случае необходимо либо уменьшить число определяемых коэффициентов k + 1, либо увеличить число опытов n. Второй подход — метод наименьших квадратов. Усреднение несовместимых решений избыточной системы уравнений n > k + 1 может быть преодолено методом наименьших квадратов, который был разработан еще Лежандром и Гауссом. Таким образом, метод наименьших квадратов — это новинка почти летней x y Рис. 4.5. Метод медианных точек I x II x I y II y Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 134 давности. Сегодня, благодаря возможностям компьютеров, этот метод вступил, по существу, в полосу своего ренессанса. Определение коэффициентов b j методом наименьших квадратов основано на выполнении требования, чтобы сумма квадратов отклонений экспериментальных точек от соответствующих значений уравнения регрессии была минимальна. Заметим, что, в принципе, можно оперировать и суммой других четных степеней этих отклонений, но тогда вычисления будут сложнее. Однако руководствоваться суммой отклонений нельзя, так как она может оказаться малой при больших отклонениях отрицательного знака. Математическая запись приведенного выше требования имеет вид , b min 2 ] i y ) k b ,..., j b ,..., 1 b , 0 b n 1 i , i x ( f [ ) k b ,..., j b ,..., 1 b , 0 b ( Ф j (4.6) где n — число экспериментальных точек в рассматриваемом интервале изменения аргумента x. Необходимым условием минимума функции Ф j ,...,b k ) является выполнение равенства k j 0 , 0 j Фили x ( f [ (4.7а) После преобразований получим 0 n 1 i j b ) i x ( f i y j b ) i x ( f ) k b ,..., j b ,..., 1 b , 0 b n 1 i , i Система уравнений (4.8) содержит столько же уравнений, сколько неизвестных коэффициентов b 0 , b 1 ,..., b k входит в уравнение регрессии, и называется в математической статистике системой нормальных уравнений. Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 135 Поскольку Ф ≥ 0 при любых b 0 , ..., b k , величина Ф обязательно должна иметь хотя бы один минимум. Поэтому если система нормальных уравнений имеет единственное решение, оно и является минимумом для этой величины. Расчет регрессионных коэффициентов методом наименьших квадратов можно применять при любых статистических данных, распределенных по любому закону. 4.3. Определение тесноты связи между случайными величинами Определив уравнение теоретической линии регрессии, необходимо дать количественную оценку тесноты связи между двумя рядами наблюдений. Линии регрессии, проведенные на рис. 4.1 б, води- наковы, однако на рис. 4.1 б точки значительно ближе (теснее) расположены к линии регрессии, чем на рис. 4.1 в. При корреляционном анализе предполагается, что факторы и отклики носят случайный характер и подчиняются нормальному закону распределения. Тесноту связи между случайными величинами характеризуют корреляционным отношением xy . Остановимся подробнее на физическом смысле данного показателя. Для этого введем новые понятия. Остаточная дисперсия ост характеризует разброс экспериментально наблюдаемых точек относительно линии регрессии и представляет собой показатель ошибки предсказания параметра y по уравнению регрессии (рис. 4.6): , )] ,..., , , ( [ 1 1 ] [ 1 1 2 1 0 1 2 2 ост n i k i i n i i i y b b b x f y k n y y l n S (4.9) где l=k+1 — число коэффициентов уравнения модели. Общая дисперсия (дисперсия выходного параметра характеризует разброс экспериментально наблюдаемых точек относительно среднего значения y , те. линии С (см. рис. 4.6): Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА , ] y y [ 1 n 1 S n 1 i 2 i 2 y (4.10) где y n 1 y n 1 i Средний квадрат отклонения линии регрессии от среднего значения линии C y (см. рис. 4.6): n 1 i 2 ] y ) k b ,..., 1 b , 0 b , i x ( f [ 1 n 1 n 1 i 2 ] y i y [ 1 n 1 Рис. 4.6. К определению дисперсий Очевидно, что общая дисперсия S 2 y (сумма квадратов относительно среднего значения y ) равна остаточной дисперсии ост y S (сумме квадратов относительно линии регрессии) плюс средний квадрат отклонения линии регрессии S y * 2 (сумма квадратов, обусловленная регрессией. оста) Разброс экспериментально наблюдаемых точек относительно линии регрессии характеризуется безразмерной величиной — выборочным корреляционным отношением, которое определяет долю, Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 137 которую привносит величина Х в общую изменчивость случайной величины. y y y y y ост y y ост y y xy S S S S S S S S S * 2 2 * 2 2 2 2 2 * 1 (4.12) Проанализируем свойства этого показателя. 1. В том случае, когда связь является не стохастической, а функциональной, корреляционное отношение равно 1, так как все точки корреляционного поля оказываются на линии регрессии, остаточная дисперсия равна 0 оста риса. Равенство нулю корреляционного отношения указывает на отсутствие какой-либо тесноты связи между величинами x и y для данного уравнения регрессии, поскольку разброс экспериментальных точек относительно среднего значения и линии регрессии одинаков, те. ост y S 2 y S (рис. 4.7 б. Рис. 4.7. Значения выборочного корреляционного отношения xy : а – функциональная связь б – отсутствие связи 3. Чем ближе расположены экспериментальные данные к линии регрессии, тем теснее связь, тем меньше остаточная дисперсия и тем больше корреляционное отношение. Следовательно, корреляционное отношение может изменяться в пределах от 0 до 1. Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 138 Квадрат корреляционного отношения 2 * xy называется коэффициентом детерминации. 2 2 2 * 2 1 y ост y xy S S R Коэффициент детерминации R 2 является безразмерной неотрицательной величиной, изменяющейся от 0 до 1 (его часто выражают в процентах. Он показывает долю общей вариации одной переменной, обусловленной изменчивостью другой переменной. Учитывая, что для компьютеров имеются пакеты программ для статистической обработки результатов исследований, рассмотрим методологию этого подхода на примере простейших линейных и одномерных задач (см. уравнение (4.5)). Идеология решения более сложных задач принципиально не отличается. Более того, как мы увидим в дальнейшем, многие нелинейные зависимости можно свести к линейным. Линейная регрессия от одного фактора Уравнение линии регрессии на плоскости в декартовых координатах имеет вид выражения (4.5). Задачу метода наименьших квадратов аналитически можно выразить следующим образом b , b min 2 )] i x 1 b 0 b n 1 i ( i Ф 0 (4.13) Для решения этой задачи, как известно из математического анализа, необходимо вычислить частные производные функции Ф по коэффициентами приравнять их нулю 0 Ф Ф (4.14) Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 139 Система нормальных уравнений (4.8) в этом случае примет вид b ; 0 )] ( [ , nb ; 0 )] ( [ 1 1 2 1 1 0 1 1 0 1 1 1 0 1 1 0 n i i i n i i n i i n i i i i n i i n i i n i i i y x x b x x x b b y y x b x b b y (4.15) Решение этой системы относительно b 0 и b 1 дает ; n 1 i 2 n 1 i i x 2 i x n n 1 i i x ) i y n 1 i i x ( n 1 i 2 i x n 1 i i y 0 b (4.16) , n 1 i 2 ) x i x ( n 1 i ) y i y )( x i x ( n 1 i 2 n 1 i i x 2 i x n n 1 i i y n 1 i i x n 1 i i y i x а) те. для расчета и необходимо определить 2 i x , i y i x , i y , i Коэффициент b 0 (свободный член уравнения регрессии) геометрически представляет собой расстояние от начала координат до точки пересечения линии регрессии с осью ордината коэффициент b 1 характеризует тангенс угла наклона линии регрессии коси. Если же определяют уравнение регрессии в виде , 2 x 11 b x 1 b 0 b y Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 140 то система уравнений для нахождения b 0 , b 1 , b 11 будет иметь следующий вид n i i n i i n i i n i i i n i i n i i n i i n i i i n i i n i i n i i x b x b x b y x x b x b x b y x x b x b n b y 1 4 11 1 3 1 1 2 0 1 2 1 3 11 1 2 1 1 0 1 1 2 11 1 1 б) Из уравнений (4.15) и (б) вытекает правило записи любых систем нормальных уравнений необходимо записать столько уравнений в системе, сколько неизвестных коэффициентов содержится вис- комом уравнении, всякий раз суммируя произведения членов исходного уравнения на переменную при искомом коэффициенте. Оценку силы линейной связи осуществляют по выборочному эмпирическому) коэффициенту парной корреляции r xy . Выборочный коэффициент корреляции может быть вычислен двумя способами. 1. Как частный случай корреляционного отношения для линейного уравнения регрессии. С учетом того, что x b b y 1 0 , , 2 x S 2 1 b 2 ] x 1 b 0 b i x n 1 i 1 b 0 b [ 1 n 1 2 * y S (4.17) величина отношения y S * y S будет равна , y S / x S 1 b xy r (4.18) где S x и S y — выборочные средние квадратичные отклонения. 2. Как среднее значение произведения центрированных случайных величин, отнесенное к произведению их среднеквадратичных отклонений Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА i y ( n 1 i 2 ) x i x ( n 1 i ) y i y )( x i x ( y S x S ) 1 n ( n 1 i ) y i y )( x i x ( xy r (4.19) Покажем, что две последние формулы эквивалентны. Для этого преобразуем выражение (4.19) к виду y S x S ) 1 n ( xy r n 1 i ) y i y )( x Подставляя последнее выражение в формулу (а, имеем , S / S r ) x x ( S S ) n ( r b x y xy n i i y x xy 1 2 1 1 откуда Как правило, по результатам экспериментов находят S x , S y , y , x и рассчитывают r xy по формуле (4.19), а затем, используя эти величины, определяют коэффициенты уравнения регрессии x 1 b y = 0 b ; x S / y S xy r 1 b (4.20) Коэффициент корреляции r xy изменяется в пределах -1 r xy +1. Положительная корреляция между случайными величинами характеризует такую стохастическую зависимость между величинами, когда с возрастанием одной из них другая в среднем также будет возрастать. При отрицательной корреляции с возрастанием одной случайной величины другая в среднем будет уменьшаться. Чем ближе значение r xy к единице, тем теснее статистическая связь. Для оценки качества подбора линейной функции рассчитывается квадрат коэффициента r xy называемый коэффициентом детерминации (Коэффициент детерминации R 2 характеризует долю дисперсии результативного признака y, объясняемую регрессией. Соответству- Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 142 ющая величина 1 – R 2 характеризует долю дисперсии у вызванную влиянием остальных неучтенных в модели факторов. Отметим еще раз область применимости выборочного коэффициента корреляции для оценки тесноты связи. Коэффициент парной корреляции значений y и x применительно к однофакторной зависимости характеризует тесноту группирования данных лишь относительно прямой (например, линия A на рис. 4.8 a). При более сложной зависимости (рис. 4.8 б) коэффициент корреляции r xy будет оценивать тесноту экспериментальных точек относительно некоторой прямой, обозначенной буквой А, что, естественно, несет мало сведений о тесноте их группирования относительно искомой кривой ). (x f y Коэффициент парной выборочной корреляции имеет четкий физический смысл только в случае двумерного нормального распределения параметров, те. когда для каждого значения Х, например х, х, х, существует совокупность нормального распределения у и наоборот, а дисперсия зависимой переменной при изменении значения аргумента остается постоянной (рис. 4.9). Даже при выполнении этих, вообще говоря, достаточно жестких условий, не всякое значение выборочного коэффициента корреляции является достаточным для статистического обоснования выводов о наличии действительно надежной корреляционной связи между фактором и откликом. Рис. 4.8. К понятию коэффициента парной корреляции Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 143 Надежность статистических характеристик ослабевает с уменьшением объема выборки (n). Так, при n = 2 через две экспериментальные точки можно провести только одну прямую и зависимость будет функциональной, при этом выборочный коэффициент корреляции равен единице (r xy = 1). Однако это не означает надежность полученных статистических характеристик в силу весьма и весьма ограниченного объема выборки. Значит, вычислять коэффициент корреляции по результатам двух наблюдений бессмысленно, так как он заведомо будет равен единице, и это будет обусловлено не свойствами переменных и их взаимным отношением, а только числом наблюдений. В связи с этим требуется проверка того, насколько значимо отличается выборочный коэффициент корреляции r xy от его действительного значения r xy * . При достаточно большом объеме выборки n r xy * = r xy . Таким образом, требуется проверка значимости выборочного коэффициента парной корреляции и оценка его доверительного интервала. Для определения значимости r xy сформулируем нуль-гипотезу Н r xy * = 0, те. корреляция отсутствует. Для этого рассчитывается экспериментальное значение критерия Стьюдента 2 ) ( 1 2 xy xy r n r t (4.21) x y Рис. 4.9. К понятию коэффициента парной корреляции в случае двумерного нормального распределения параметров x b b y 1 0 S yi =const x 1 x 2 x 3 А В С Глава 4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА 144 и сравнивается с теоретическим при числе степеней свободы n-2. Если t t ;n-2 при заданном уровне значимости , то нулевая гипотеза отклоняется, а альтернативная гипотеза Но том, что коэффициент корреляции существенен, принимается. Определение доверительного интервала коэффициента корреляции При малых объемах выборки (n < 20) можно рекомендовать построение доверительного интервала для r xy * , которое основано на преобразовании Р. Фишера. Он предложил такое нелинейное преобразование величины r xy , при котором закон распределения этой оценки, вообще говоря, довольно сложный, практически приближается к нормальному. Это преобразование производится по формуле xy xy r r Z 1 1 ln 2 1 * (4.22) Среднеквадратичное отклонение случайной величины z* зависит от числа опытов , 3 1 * n Z (4.23) а математическое ожидание очень близко к числу, получающемуся после подстановки в формулу (4.22) вместо r xy истинного значения коэффициента корреляции r xy * . Эти свойства величины Z* позволяют просто оценить, в каких пределах может находиться истинное значение коэффициента корреляции, если по n опытам получены некоторые значения его выборочного значения (оценки) r xy . Если граничное значение r xy имеет тот же знак, что и r xy *, то можно считать в первом приближении, что корреляционная связь между переменными достоверна. Пример. При обработке n = 17 пар данных x и y выборочный коэффициент корреляции составил r xy = – 0,94, те. величина y связана с x достаточно сильной причинной связью, близкой к функциональной зависимости. Требуется определить значимость и найти доверительный интервал выборочного коэффициента корреляции. |