Методичка по Математике. Методическая разработка для самоподготовки по курсу Высшая математика, информатика
Скачать 0.49 Mb.
|
Т е м а 9 Использование метода наименьших квадратов в процессе статистической об- работки медико-биологических данных Метод наименьших квадратов используется для расчета параметров функции заданного вида, наилучшим образом отражающей экспериментально- наблюдаемую зависимость между двумя величинами. 39 Литература для подготовки к занятию по теме: 1) Ю.В.Морозов "Основы высшей математики и статистики", М., 1998, с.156- 157, 39-43, 54-56. 2) Данная методическая разработка. В процессе подготовки к практическому занятию по теме необходимо выполнить следующее: 1. Повторить следующие теоретические вопросы: 1) Уравнение линейной зависимости b ax y + = 2) Что называется частной производной функции нескольких аргументов? 3) Правила нахождения частных производных функции нескольких аргументов. 4) Необходимые условия существования экстремума функции. П. Изучить по указанной литературе следующие теоретические вопросы: 1) Для чего нужен метод наименьших квадратов (МНК)? 2) В чем состоит основная идея этого метода? 3) Исходя из чего выбирается тот или иной вид зависимости между изучае- мыми величинами, наилучшим образом аппроксимирующей экспериментальные результаты? Теоретические сведения Пусть производятся опыты, цель которых - исследование зависимости некоторой величины Y от величины X , например, зависимости температуры электролита от времени воздействия на него электрического поля УВЧ. Ис- следуемые величины связаны определенной функциональной зависимостью ) (x f y = , содержащей в общем случае некоторое количество параметров а, в, с. Пусть в результате измерений величин X и Y получены результаты, изображенные в таблице. X 1 x 2 x 2 x n x Y 1 y 2 y 2 y n y Число экспериментально полученных пар значений равно n Если точки ( ) i i y x , построить в прямоугольной системе координат, то характер расположения этих точек может привести к определенному предпо- ложению о форме зависимости величины Y от величины X . Действительно, если указанные точки расположены приблизительно вдоль прямой линии, как указано на рис.1, то вполне естественно предположить о существовании ли- нейной зависимости между величинами. Если точки расположены вдоль ветви параболы (рис.2), то можно предположить квадратическую зависимость и т.д. у у х х 40 рис.1 рис.2 Для простоты ограничимся рассмотрением тех случаев, когда подобный подход приводит к предположению о наличии линейной зависимости величины Y от величины X , т.е., когда есть основания предполагать, что уравне- ние сглаживающей линии имеет вид b ax y + = Метод наименьших квадратов позволяет найти параметры сглаживающей линии, являющейся графиком искомой зависимости, так, чтобы ординаты най- денной линии минимально отличались от соответствующих экспериментальных значений. Полученное таким образом уравнение сглаживающей линии будет наилучшим приближением к экспериментальным данным. При использовании этого метода критерием оптимальности подбора ис- комых параметров уравнения сглаживающей линии является выполнение сле- дующего требования. Необходимо, чтобы сумма квадратов отклонений ординат всех эмпирических точек графика от ординат соответствующих (т.е. имеющих те же абсциссы) точек сглаживающей прямой была минимальной. [ ] U a b y ax b i i i n ( , ) ( ) min = − + → = ∑ 2 1 Условием минимума этой функции является равенство нулю ее частных производных ∂ ∂ ∂ ∂ U a U b = = ⎧ ⎨ ⎪⎪ ⎩ ⎪ ⎪ 0 0 Найдя эти производные и приравняв их нулю, получим систему двух уравне- ний для определения параметров a и b [ ] [ ] ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ = − − − = = − − − = ∑ ∑ = = 0 ) 1 )( ( 2 0 ) )( ( 2 1 1 n i i i n i i i i b ax y b U x b ax y a U ∂ ∂ ∂ ∂ Решая эту систему, можно получить выражения для a и b соответст- венно: ∑ ∑ ∑ ∑ ∑ = = = = = ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − − = n i n i i i n i n i n i i i i i x x n y x y x n a 1 2 1 2 1 1 1 b n x y x x y n x x i i i n i i i i n i n i n i i i n i n = − − ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ = = = = = = ∑ ∑ ∑ ∑ ∑ ∑ 2 1 1 1 1 2 1 2 1 (1) Эталоны решения типовых задач и задачи для самоконтроля 41 Задача 1. При исследовании токсичности некоторого препарата пяти группам крыс ввели различные дозы препарата. В каждой группе через 24 часа зарегистрировано количество летальных исходов (в %). Получены сле- дующие данные: Доза препарата X , мг/кг 1,0 1,5 2,0 2,5 3,0 Число летальных исходов Y , % 1,0 1,3 1,4 1,9 2,0 Проверить целесообразность линейной аппроксимации зависимости коли- чества летальных исходов от дозы препарата и определить коэффициенты этой зависимости методом наименьших квадратов. Решение Изобразим зарегистрированную в опытах совокупность пар значений Х и Y на графике и проведем сглаживающую линию. y 2 1 x 1 2 3 4 Поскольку сглаживающая линия по форме близка к прямой, то в качест- ве аппроксимирующей зависимости можно принять линейную зависимость вида b ax y + = Коэффициенты a и b будем рассчитывать в соответствии с методом наименьших квадратов по формулам (1). Для удобства расчетов составим таблицу 6. Таблица 6 i x i y 2 i x i i y x 1 1,0 1,0 1,0 1,0 2 1,5 1,3 2,25 1,95 3 2,0 1,4 4,0 2,80 4 2,5 1,9 6,25 4,75 5 3,0 2,0 9,0 6,0 ∑ 10,0 7,6 22,5 16,5 Подставив в формулы для коэффициентов a и b соответствующие зна- чения сумм из таблицы 6, получим 52 0 100 5 5 22 6 7 10 5 16 5 = − ⋅ ⋅ − ⋅ = a 48 0 100 5 5 22 5 16 10 6 7 5 22 = − ⋅ ⋅ − ⋅ = b Таким образом, график функции 48 0 52 0 + = x y наилучшим образом (в соответствии с методом наименьших квадратов) аппроксимирует наблюдаемую зависимость Y от X . 42 Решить самостоятельно задачу: При измерении временной зависимости оптической плотности раствора D , содержащего некоторые бактерии – продукты лекарственного препарата, получены следующие результаты: Время t , час 2,5 2,6 2,7 2,8 2,9 3,0 Оптическая плотность D , отн.ед. 0,40 0,48 0,54 0,54 0,67 0,68 Убедиться в целесообразности линейной аппроксимации этой зависимо- сти и найти значения коэффициентов a и b методом наименьших квадратов. Задача 2 Результаты определения численности популяции мушки дрозофилы в за- висимости от времени приведены в таблице: Время t , сутки 0 2 4 8 10 14 Численность популяции N , шт. 12 20 31 105 149 410 N ln 2,48 2,99 3,43 4,65 5,00 6,01 Считая, что численность популяции увеличивается согласно закону kt e N N 0 = , где N - численность популяции в любой момент времени t , 0 N - началь- ная численность популяции, k - постоянная величина, характеризующая скорость роста популяции, зависящая от многих причин (от вида популяции, условий жизнедеятельности, внешних воздействий и т.д.). Методом наимень- ших квадратов определить параметры линейной зависимости логарифма чис- ленности популяции мушки от времени. Вычислить коэффициент скорости рос- та популяции k Решение Т.к. закон изменения численности популяции описывается экспоненци- альной зависимостью kt e N N 0 = , прологарифмируем обе части уравнения. Тогда kt N N + = 0 ln ln Обозначим ln , , ln 0 b N a k y N = = = . Тогда получим зависимость b at y + = , которая является линейной относительно времени t Для нахождения параметров a и b произведем вычисления i x i y 2 i x i i y x 1 0 2,48 0 0 2 2 2,99 4 5,98 3 4 3,43 16 13,72 4 8 4,65 64 37,20 5 10 5,00 100 50,0 6 14 6,01 196 84,14 ∑ 38 24,56 380 191,04 Подставив в формулы для коэффициентов a и b соответствующие значе- ния сумм из таблицы, получим 43 25 0 38 380 6 56 24 38 04 191 6 2 = − ⋅ ⋅ − ⋅ = a 48 2 836 04 191 38 56 24 380 = ⋅ − ⋅ = b Уравнение зависимости логарифма численности популяции от времени имеет вид 48 2 25 0 + = t y или 48 2 ln + = kt N Тогда коэффициент скорости роста 25 0 = k Задача для самоконтроля В некоторой химической реакции первого порядка зависимость констан- ты скорости реакции k при разных температурах определяется следующими данными: Температура T , К 273 298 308 318 Константа скорости 15 10 ⋅ k , c -1 1,06 31,9 98,64 292 Считая, что зависимость константы скорости реакции k связана с аб- солютной температурой по закону RT E Ae k / = Определить величину энергии активации E ( R =8,3⋅10 -3 кДж/моль⋅град; A =2⋅10 12 с -1 ). Ответ: E ≈90 кДж/моль Задачи для решения на практическом занятии 1) При изучении зависимости между ростом X и массой m взрослых мужчин получены результаты, приведенные в таблице. Считая связь между указанным и величинами линейной, найти параметры уравнения этой зависи- мости b ax m + = Рост X , см 166 176 175 168 167 172 175 180 Масса m , кг 56 75 70 61 62 63 72 80 2) При изучении зависимости сопротивления R медного стержня от температуры 0 t получены следующие результаты. Температура t, 0 С 19,1 29,0 30,1 36,0 40,0 45,1 50,0 Сопротивление R, Ом 76,3 77,8 79,8 80,8 82,3 83,9 85,1 Считая эту зависимость линейной, т.е. b at R + = , найти параметры а и b. 3) При изучении зависимости показателя преломления n раствора от концентрации в нем соли C получены результаты, приведенные в таблице Концентрация раствора C , г/см 3 0,000 0,025 0,050 0,10 0,20 0,40 0,80 Показатель Преломления 1,333 1,338 1,340 1,340 1,363 1,377 1,389 44 n , отн.ед. Найти параметры сглаживающей линейной зависимости вида b aC n + = Т е м а 10 Корреляционная зависимость. Коэффициент линейной корреляции В биологии, медицины, в общественных отношениях часто встречаются такие зависимости между величинами Y и X , из которых одна, например Y , зависит от другой X и, кроме того, от ряда других условий, не поддающихся точному учету. В результате этого каждому значению величи- ны X соответствует не одно значение (как при функциональной зави- симости), а ряд значений величины Y . В таком случае говорят о стати- стической зависимости между величинами X и Y . При изучении статисти- ческих зависимостей часто ограничиваются рассмотрением так называемых корреляционных зависимостей, то есть таких зависимостей, когда измене- ние одной из величин (например, X влечет за собой изменение математи- ческого ожидания другой Y . Примерами корреляционных зависимостей яв- ляются зависимость между дозой лекарственного препарата и его содер- жанием в крови, зависимость между ростом человека и его массой и т.д. Литература для подготовки к занятию по теме: Ю.В.Морозов "Основы высшей математики и статистики", М., 1998, с.151,152,160-163. В процессе подготовки к практическому занятию по теме необходимо выполнить следующее: 1. Повторить следующие теоретические вопросы: 1) Понятие функциональной зависимости. Привести примеры. 2) Формулы для нахождения среднего выборочного. П. Изучить по указанной литературе следующие теоретические вопро- сы: 1) Понятие статистической зависимости. 2) Понятие корреляционной зависимости. 3) Понятие условного среднего. 4) Определение коэффициента линейной корреляции. Что он характеризует? 5) Основные свойства коэффициента линейной корреляции. Эталоны решения типовых задач и задачи для самоконтроля Задача 1. На рисунках а) и в) приведена графическая иллюстрация двух эмпирических линейных корреляционных зависимостей Y и X и изображены соответствующие прямые линии регрессии. y y α 8 , 0 = r α 2 , 0 = r x x а) b) Указать, для какого случая корреляционная зависимость более тес- ная. Объяснить, где коэффициент линейной корреляции больше и почему. 45 Решение Сила корреляционной связи для этих зависимостей одинакова (это следует из равенства углов наклона соответствующих прямых линий рег- рессии по отношению к положительному направлению оси OX ). Однако, для корреляционной зависимости, изображенной на графике а) разброс экспе- риментальных точек относительно линии регрессии меньше, чем для корре- ляционной зависимости, изображенной на графике b). В таком случае го- ворят, что корреляционная зависимость, изображенная на графике а) бо- лее тесная, чем корреляционная зависимость, представленная на графике b). Коэффициент линейной корреляции r в случае, изображенном на графи- ке а) больше, чем в случае b). Задача для самоконтроля На рисунках приведены графики двух корреляционных зависимостей Y и X . Значения коэффициентов линейной корреляции для приведенных зави- симостей: 01 , 0 1 = r и 81 , 0 2 = r y y x x рис.3 рис.4 Указать, какому графику принадлежит каждый из коэффициентов ли- нейной корреляции и объяснить эту принадлежность. Задача 2. Рассчитать условные средние величины Y для приведенных в таблице результатов. Построить график линейной корреляционной зави- симости ) ( x f y x = x 1 2 3 4 y m 1 2 2 2 1 1 2 4 3 2 2 1 5 4 2 2 5 2 2 x m 3 3 4 5 15 = n Решение Вычислим значения условных средних ) (x f y x = для каждого значения х. Для значения 1 = x имеем ряд значений y , который представим в виде таблицы: 1 = x y 1 2 m 2 1 По формуле для расчета среднего значения 46 находим 3 , 1 1 2 2 1 1 2 1 ≈ + ⋅ + ⋅ = = x y Аналогичным образом находим значение 2 = x y , где 2 2 = x 2 = x y 2 3 m 1 2 7 , 2 1 2 2 3 1 2 2 ≈ + ⋅ + ⋅ = = x y Для 3 = x y имеем таблицу: 3 = x y 2 3 m 2 2 5 , 2 2 2 2 3 2 2 3 ≈ + ⋅ + ⋅ = = x y Для нахождения 4 = x y составим таблицу: 4 = x y 3 4 5 m 1 2 2 ⎯ 2 , 4 2 2 1 5 2 4 2 3 1 4 ≈ + + ⋅ + ⋅ + ⋅ = = x y Обобщая полученные результаты, составим таблицу значений x и x y . x 1 2 3 4 x y 1,3 2,7 2,5 4,2 По известным значениям x и вычисленным условным средним x y по- строим график зависимости ) (x f y x = у 2 1 1 3 5 х Задача для самоконтроля Вычислить условные средние и построить график зависимости ) (x f y x = .для корреляционной зависимости оптической плотности Y раство- ра от концентрации Х растворенного вещества по данным, приведенным в таблице. y x 1,5 1,6 1,7 1,8 y m 0,09 1 1 0,10 3 3 0,11 2 2 47 0,20 2 2 0,21 4 4 0,22 1 1 0,31 3 3 0,32 4 4 0,33 1 1 0,42 2 2 0,43 3 3 0,44 2 2 x m 6 7 8 7 28 = n Работы, связанные со статистической обработкой медико- биологической информации проводятся на персональных компьютерах (ПК). По окончании этих работ проводится зачетное занятие по статистике. Оно включает обсуждение результатов практических занятий на ПК и теорети- ческих вопросов, связанных с темой. З а ч е т н о е з а н я т и е п о с т а т и с т и к е 1. Обсуждение результатов практических занятий на ПК. Интервальная оценка Проанализировать: 1) влияние объема выборки n на ширину доверительного интервала Δх, 2) влияние значений доверительной вероятности р на ширину доверитель- ного интервала Δх Результаты представить графически. Закон Гаусса Сопоставить кривые нормального распределения для различных μ (при одинаковых σ) и для различных σ (при одинаковых μ). Кривые должны быть нарисованы в одном масштабе. Как соотносятся площади под кривыми? Про- иллюстрировать с помощью полученных графиков правило 3σ. Гистограмма Сопоставить две гистограммы величин в норме и при патологии. В чем их отличие? Поставить в соответствие данным гистограммы кривые нормального распределения. Оценить μ и σ. Записать теоретический закон распределения для этих значений. МНК. Коэффициент корреляции. Указать на графике отклонения теоретически рассчитанных значений от экспериментальных (для каждого х). Для произвольного (эксперимен- тального) х рассчитать теоретическое значение y на сглаживающей пря- мой. Сравнить с экспериментом. Сопоставить графики с различными коэффициентами корреляции. На каком из графиков коэффициент корреляции больше? 2. Теоретические вопросы. 1) Случайное событие. Вероятность случайного события (классическая и статистическая). 48 2) Случайная величина. Непрерывные и дискретные случайные величины, привести примеры. 3) Закон распределения дискретной случайной величины. Ее основные ха- рактеристики (математическое ожидание, дисперсия, среднее квадра- тическое отклонение). 4) Генеральная и выборочная совокупности. Расчет среднего, исправлен- ной дисперсии, исправленного среднего квадратического отклонения выборочной совокупности. 5) Доверительная вероятность, доверительный интервал. Интервальная оценка генерального среднего значения с использованием коэффициен- та Стьюдента. 6) Распределение непрерывной случайной величины. Нормальный закон распределения (закон Гаусса). 7) Гистограмма. Метод ее построения. Использование гистограмм в меди- цинских исследованиях. 8) Корреляционная зависимость, примеры. Коэффициент линейной корреля- ции; оценка тесноты линейной корреляционной зависимости по его значению. 9) Метод наименьших квадратов, цель и суть метода. Применение МНК для обработки медицинской информации. |