Биометрия верстка_. Учебнометодическое объединение по медицинскому и фармацевтическому образованию вузов России биометрия
Скачать 0.93 Mb.
|
V . РЕГРЕССИОННЫЙ АНАЛИЗ ЭКСПЕРИМЕНТАЛЬНЫХ ЗАВИСИМОСТЕЙ 5.1 Понятие регрессии При наличии корреляции между случайными величинами X и Y c изменением одной величины меняется другая. Зависимость частного среднего значения одной величины от значения другой (или нескольких других) называется регрессией. Регрессия может быть задана таблицей графиком и уравнением. При табличном способе регрессия выражается эмпирическими рядами регрессии, при графическом - линиями регрессии см. рис 4.2 ) Уравнение, описывающее линию регрессии, называется уравнением регрессии (иногда его называют уравнением корреляции. Отличие уравнения регрессии от функциональной зависимости заключается в том, что функциональная зависимость устанавливает однозначное соответствие между переменными, а регрессия - зависимость между переменной X и частным(групповым) средним значением величины, что уравнение регрессии вырождается в уравнение функции, если корреляционная зависимость вырождается в функциональную(см. рис 4.1) Нахождение уравнения регрессии является основной задачей регрессионного анализа. Так как процесс описания какой-либо эмпирической зависимости математическим выражением называется аппроксимацией а самовыражение- аппроксимирующей функцией, то уравнение регрессии является аппроксимирующей функцией эмпирической корреляционной зависимости. Зная уравнение регрессии, можно прогнозировать изменчивость одного признака при вариации другого. Этим объясняется то большое значение, которое придается в регрессионном анализе уравнению регрессии. Большую роль в регрессионном анализе играет также коэффициент регрессии. Коэффициент регрессии применим только при линейной корреляции и характеризует изменчивость одного признака при изменении на единицу признака другого, связанного с первым корреляционно. Зная коэффициент регрессии, можно вычислить коэффициент корреляции. 5.2 Виды регрессии В соответствии с видом корреляции различают линейную и нелинейную регрессии. Линейная корреляция описывается уравнением линейной регрессии, которое устанавливает пропорциональную зависимость между варьирующимися признаками. При нелинейной корреляции взаимосвязь между признаками описывается нелинейным уравнением, вид которого определяется характером этой взаимосвязи. Уравнение регрессии, наилучшим образом описывающее ту или иную корреляцию, подбирается сопоставлением эмпирического ряда регрессии с различными функциями, из которых выбирается та, которая лучшим образом накладывается на эмпирический ряд. Очевидно, что эта процедура необходима, если отсутствуют какие-либо теоретические предпосылки о характере связи между X и Y. Этот способ выбора вида уравнения регрессии называется графическим. Графический способ не исключает возможной ошибки в выборе вида уравнения регрессии, поэтому, существуют способы количественной оценки расхождения эмпирических рядов регрессии с описывающими их аппроксимирующими функциями. Эти способы входят в раздел биометрии называемый "Дисперсионный анализ, ив настоящем пособии не рассматриваются. 5.3 Нахождение уравнения линии регрессии а) Построение эмпирических рядов регрессии Эмпирический ряд регрессии представляет собой таблицу значений частных средних одной переменной в зависимости от значений другой. Оттого, какая величина принимается за независимую(за аргумента какая - за зависимую (функцию, возможно построение двух таких таблиц одна ран- жируется по X-переменной,а другая - попеременной. В соответствии с этим определением два столбца и таблиц 4.2 и 4.3 представляют собой эмпирические ряды регрессии от X и от Y, соответственно. Наглядное представление о характере регрессии можно получить, построив график эмпирического ряда регрессии. Линия, соединяющая точки графика, называется линией эмпирического ряда регрессии. Как правило, она является ломаной линией, так как отражает зависимость между случайными величинами. На рис. 5.1 и 5.2 приведены примеры линий эмпирических рядов регрессии, построенные поданным таблиц 4.2 и 4.3. При больших выборках ряд значений независимой переменной разбивают на классы, в каждом из которых определяют средние классовые значения зависимой переменной. Эмпирический ряд регрессии в этом случае строится как зависимость классового среднего Y от срединного значения X в каждом классе. б) Нахождение уравнения линии регрессии Приближенный характер аппроксимирующей регрессию функции те. уравнения линии регрессии или просто уравнения регрессии) может быть установлен сопоставлением каких - либо известных функций с линией эмпирического ряда регрессии. После установления общего вида аппроксимирующей функции нужно выбрать ту, которая наилучшим образом описывает заданную регрессию. Это означает, что должны быть как можно точнее найдены значения всех коэффициентов, входящих в аппроксимирующую функцию. Например, пусть регрессия описывается линейной функцией вида Y = А + В. Среди множества таких функций, определяемых различными значениями Аи В, должна быть установлена та, которая наилучшим образом отображает эмпирический ряд регрессии. Это означает, что должны быть найдены значения Аи В, свойственные именно этой функции, а никакой другой. Существует несколько способов нахождения коэффициентов аппроксимирующей функции. Наибольшее распространение получил метод, известный в математической статистике как "Метод наименьших квадратов" Применение этого метода в регрессионном анализе приводит к необходимому условию − → − n i i i X Y Y 1 2 min )) ( ( В этой формуле Y i - эмпирическое значение переменной Y при X i , а Y(X i ) - значения переменной Y i при X i рассчитанные по формуле выбранной аппроксимирующей функции. Условие означает, что из всех возможных функций заданного вида наилучшим образом отображает X Y x Y ), ( (кг) 0.8- 3 • • • 2 • 0.7- • • 1 • • • • • 0.6- • • 3 10 11 12 13 14 15 кг Рис 5.1 Эмпирический ряд регрессии ) ( x Y от X: 1 - линия эмпирического ряда регрессии ) (x Y x ; 2 - линия уравнения регресси ) (x Y =0.42+0.024*X; 3 – границы доверительной зоны линии уравнения регрессии (см. разд) Y X y X ), ( (кг 15- 3 • 14- 13- 2 • 1 • 12- • • • • 3 11- • • • 10 • 0.6 0.7 0.8 кг Рис 5.2 Эмпирический ряд регрессии X(Y) от Y: 1 - линия эмпирического ряда регрессии y X (Y); 2 - линия уравнения регрессии X (Y)=2.7+13.04*Y; 3 - границы доверительной зоны уравнения линии регрессии см. разд. 5.4). эмпирический ряд регрессии та, для которой сумма квадратов отклонений Y i отбудет минимальной. На основании этого условия получены формулы для расчета коэффициентов различного вида функций по эмпирическим значениям корреляционно связанных величин. Формулы для вычисления коэффициентов линейного уравнения регрессии вида Y(X) = A + B*X Линейное уравнение регрессии устанавливает пропорциональную связь между двумя корреляционно связанными случайными величинами. В зависимости оттого, какая величина считается зависимой, а какая - независимой, можно записать два таких уравнения Y (X) = A y/x + B y/x * X и X (Y) = A x/y + B x/y * Y . Коэффициенты A y/x и A x/y являются свободными членами уравнений B y/x и B x/y называются коэффициентами регрессии и определяют угол наклона функций Y(X) коси и X(Y) коси, соответственно. При функциональной зависимости, те, когда коэффициент корреляции r = 1, линии этих уравнений регрессии совпадают. Если корреляция отсутствует (те. r = 0), линии уравнений регрессии пересекаются под прямым углом в точке с координатами ( Y X , ). Следовательно, коэффициенты регрессии Аи В связаны с коэффициентом корреляции. Эта связь может быть выражена формулами ; ) ( ) ( ; ) ( ) ( 1 2 1 2 / 1 2 1 2 / = = = = − − ∗ = − − ∗ = n i i n i i y x n i i n i i x y Y Y X X r B X X Y Y r B (5.1) Суммирование проводится по i от 1 до n. Из 5.1 имеем Таким образом, зная коэффициенты регрессии, можно вычислить коэффициент корреляции и наоборот. Свободный член вычисляется следующим образом X Y A / = ; ; / / / Y B X A X B Y Y X Y X X Y ∗ − = ∗ − (5.2) Вычисление коэффициентов нелинейных уравнений регрессии С помощью метода наименьших квадратов могут быть получены выражения для коэффициентов, определяющих и нелинейные уравнения регрессии. Вид этих выражений определяется конкретной формулой аппроксимирующей функции. Чаще используют прием линеаризации аппроксимирующей функции, те. приведения ее к линейному виду. Это дает возможность воспользоваться едиными формулами (4.4), (5.1) и (5.2) для расчета коэффициентов , определяющих нелинейную функцию. В качестве примера приведем способ расчета коэффициентов показательной и степенной аппроксимирующих функций . Для приведения показательной функции к линейному виду логарифмируем ее уравнение а Полученное выражение имеет вид B Lg X A Lg x Y Lg ∗ + = ) ( б) Для вычисления свободного члена Аи коэффициента B'=LgB можно воспользоваться формулами (5.1 - 5.2). Коэффициенты Аи В вычисляются как антилогарифмы Аи В переменными величинами являются Lg Y (X) и X . Степенную функцию также можно линеаризировать путем логарифмирования m X A x Y ∗ = ) ( в) В этом выражении свободным членом является LgA, коэффициентом регрессии - m, а переменной LgX. Корреляционно связанными случайными величинами являются) и Lg X. 5.4 Оценка достоверности коэффициентов регрессии и нахождение доверительной зоны линии регрессии a) Оценка достоверности В и В Коэффициенты регрессии, вычисленные по эмпирическим данным, могут существенно отличаться от соответствующих генеральных параметров, так как являются характеристиками выборки случайных величин X и Y. Поэтому необходимо оценить достоверность найденных значений В и В. Оценка проводится расчетом критерия достоверности T B по формулами) В этих формулах S Y/X и S X/Y представляют собой ошибки значений B Y/X и B X/Y : ; ) ( ) 2 ( ) ( ) 1 ( ; ) ( ) 2 ( ) ( ) 1 ( 2 2 2 / 2 2 2 / − ∗ − − ∗ − = − ∗ − − ∗ − = Y Y n X X r S X X n Y Y r S i i Y X i i X Y (5.5) Суммирование производят по i от 1 до n. Критерий достоверности T сравнивают с коэффициентом Стьюдента t пр, значение которого можно найти в таблице 2 Приложения при k=n-2, задавшись уровнем значимости. Значения B Y/X и B X/Y считаются достоверными, если выполняется условие T (y/x) > t k,p и T (x/y) > t k,p Нахождение доверительной зоны линии регрессии Как и всякая другая характеристика выборки, рассчитанная линия регрессии является лишь оценкой линии регрессии генеральной совокупности. Поэтому расчет линии регрессии будет неполным, если не указать ее доверительную зону, те. тот интервал значений частных средних или Y X , в пределах которого с заданной вероятностью будет находиться соответствующий генеральный параметр (те. частные средние X Y и Y X генеральной совокупности. Доверительная зона определяется погрешностью выборочной линии регрессии, определяемой по формулам ; ; / / / / Y X Y X X Y X Y σ ε σ ε ∗ = Δ ∗ = Δ (5.6) В этих формулах ε - коэффициент, определяющий границы доверительного интервала при заданной доверительной вероятности p (например, при p=0.95 ε =1.96). Значения σ Y/X и σ X/Y определяются разностью между частными средними Y (X) и X (Y), рассчитанными по уравнению регрессии и соответствующими экспериментальными значениями Y i и X i : ; 2 )) ( ( ; 2 )) ( ( 2 / 2 / − − = − − = n Y X X n X Y Y i Y X i X Y σ σ (5.7) Суммирование производят по i от 1 до n. Нижняя и верхняя границы доверительной зоны определяются формулами Верхняя граница по Y: Нижняя граница по Y: ; ) ( ) ( / / / X Y X Y X Y X B A x Y Δ − ∗ + = (5.8) Верхняя граница по X: Нижняя граница по X: Построив в соответствии с этими формулами графики, получим доверительную зону, в пределах которой с заданной вероятностью находится линия регрессии генеральной совокупности (см. риса следовательно, и истинные значения кор- реляционно связанных случайных величин Y и X. Очевидно также, что процент" попадания" экспериментальных X ив доверительную зону можно оценить как p * 100 0 / 0 5.5 Общая последовательность регрессионного анализа Регрессионный анализ проводится при наличии корреляционной связи между случайными величинами, а, следовательно, после корреляционного анализа . Рекомендуется следующая последовательность действий. 71 1. Определить, какая из экспериментальных величин будет являться зависимой переменной Y, а какая независимой - X. Переписать исходные данные в таблицу, расположив значения Y,X в порядке возрастания независимой переменной X (те. ранжи- ровав ее по независимой переменной X). В качестве образца можно использовать таблицы. Расcчитать для каждого значения X: частные средние по формуле X Y = (Y 1 + Y 2 + .... Y k )/K, где К - число значений Y для одного итого же значения X; вспомогательные величины, предусмотренные рубрикацией таблицы (см. табл. 4.1); занести данные в таблицу. 3. Построить линию эмпирического ряда регрессии , отложив по оси ординат частные средние X Y , а по оси абсцисс - переменную X. 4. По виду линии эмпирического ряда регрессии определить общий вид аппроксимирующей функции. Если функция нелинейная, линеаризировать ее. 5. Рассчитать по формулам 5.1 - 5.3 коэффициенты уравнения регрессии. Записать уравнение регрессии. 6. По формулам 5.4 - 5.5 оценить достоверность коэффициентов регрессии, задавшись нужным уровнем значимости α. 7. В соответствии с найденным уравнением регрессии для каждого X рассчитать. Данные занести в таблицу. 8. По формулам 5.6 - 5.8 определить доверительную зону линии регрессии. 9. Построить линии регрессии с обозначением доверительной зоны на графике эмпирического ряда регрессии. При правильно проведенном анализе экспериментальные значения величин X,Y не выйдут за пределы доверительной зоны. Пример В соответствии с описанной последовательностью проведем регрессионный анализ зависимости массы тела гамадрила - детеныша от массы тела гамадрила - матери. В качестве исходных данных воспользуемся таблицей 4.1. Корреляционный анализ этих данных, приведенный в разделе 4, показал наличие средней корреляции примерно линейного характера (значение коэффициента корреляции. Следовательно, регрессионный анализ возможен. 1. За независимую переменную X примем массу тела гамадрила - матери, аза зависимую Y - массу тела детеныша. Ранжируем исходные данные пои занесем в таблицу (см. табл. 4.2). 2. Для каждого значения X i рассчитаем значение X Y . Например при X i = 11,3 X Y =(0.7 + 0.75)/2 =0.725 ≈ 0.73. Данные занесем в таблицу (см. табл) . 3. Построим эмпирический ряд регрессии. По виду линии ряда (см. рис) в качестве аппроксимирующей функции выбираем линейную функцию вида Y = А + В. 4. По формулам 5.1 - 5.2 рассчитаем значения А , В, Аи 11.87 - 13.036 * 0.703 = 2,7. Уравнение регрессии ) ( имеет вид ) ( y X = 2.7 + 13.036 Y. Уравнение регрессии имеет вид ) (x Y = 0.42 + 0.024 * X ; 5. По формулам 5.4 - 5.5 оценим достоверность коэффициентов B Y/X и B X/Y : 5 , 4 388 , 40 ) 2 20 ( 0756 , 0 ) 564 , 0 1 ( 2 / = ∗ − ∗ − = Y X S 5 , 4 0756 , 0 ) 2 20 ( 388 , 40 ) 564 , 0 1 ( 2 / = ∗ − ∗ − = Y X S ; T b (y/x) = 008 , 0 024 , 0 = 3,0 ; T b(x/y) = 5 , 4 036 , 13 = 2,9. По таблице 2. Приложения для k = 20 - 2 = 18, задавшись уровнем значимости α = 0,05, находим t k,p = 2,1. Так как T b > t k,p то значения B можно считать достоверными. 6. В соответствии с уравнениями регрессии п) рассчитаем Y(X) и X(Y) и занесем данные в таблицу (см. таблицы 4.2 и 4.3 ). 7. По формулам 5.6 - 5.7 найдем границы доверительной зоны линии регрессии σ Y/X = О.О658; Δ Y/X = 1,96 * 0,0658 = 0.129 при доверительной вероятности p = 0.95. Доверительная зона для Y(X) определится уравнением ) ( x Y = 0,42 + 0,024 * X ± 0,129 Аналогично определяем доверительную зону для X(Y) σ X/Y = 1,21 ; Δ X/Y = 1,96 * 1,21 = 2,37 Границы доверительной зоны для X(Y) определяются равнением ) ( y X = 2.7 + 13.036 * Y ± 2.37. 9. В соответствии с найденными уравнениями регрессии построим графики линий регрессии с указанием доверительных зон. Результаты приведены на рис. 5.1 - 5.2. Из графиков следует, что экспериментальные данные не выходят за пределы доверительной зоны. Об этом же свидетельствует график корреляционного поля с нанесенными на него границами доверительной зоны (см. рис. 4.2 ). В соответствии с принятым уровнем значимости вероятность выхода экспериментальных точек за пределы доверительной зоны не превышает 0.05. Симметричный характер разброса экспериментальных значений X и Y относительно линий уравнения регрессии указывает на то, что найденные уравнения регрессии правильно аппроксимируют экспериментальные данные. Задачи для самостоятельного решения к разделами. Установить корреляцию между ростом и охватом груди мужчин, используя следующие данные Рост X (см) 148 150 152 154 156 158 160 165 170 172 175 177 Охв.гр. Y (см) 88 88 89 89 90 90 91 92 94 95 96 99 (r = 0,975; корреляция линейная, сильная, положительная) 5.2. Зависимость между массами мозга и тела детей описывается данными, приведенными в таблице. Найти уравнение линии регрессии и указать ее доверительную зону. М.мозга кг 1.02 1.12 1.33 1.26 1.35 1.34 1.35 1.43 1.41 1.30 М.тела, кг 11 13 14 16 18 20 22 23 25 27 ) (x Y = 0,958 + 0,018 * X доверительная зона определяется уравнением ) (x Y = 0,958 + 0,018 * X ± 0.1) 5.3. Установить взаимосвязь между массой тела и возрастом детей по эмпирическим данным, приведенным в таблице. Найти уравнение, описывающее эту взаимосвязь. возраст лет 1 2 3 4 5 6 7 8 9 10 масса, кг 9 11 12.5 14 16 18 20 22 24 25 Из вида корреляционного поля следует, что взаимосвязь есть, причем носит примерно линейный характер. Т.к. r = 0,998 ; 1, то взаимосвязь является практически функциональной. Аппроксимирующей функцией является уравнение регрессии ) (x Y = 7.07+1.83 * X) 74 5.4. Согласно проведенным в таблице данным масса самцов гамадрилов меняется с возрастом. Построить эмпирическую линию регрессии. Установить вид аппроксимирующей функции. Найти уравнение регрессии и построить его график. возраст мес 20 26 32 38 42 48 52 масса, кг 4.6 4.5 6.4 6.1 7.5 8.0 11.0 Из вида корреляционного поля следует, что аппроксимирующая функция может считаться линейной. Уравнением регрессии является выражение ) (x Y = 0,304 + 0,18 * X.) |