ИИ_Лекция 4 (3). Лекция Регрессионный анализ
Скачать 0.8 Mb.
|
Лекция 4. Регрессионный анализ Понятие регрессии Регрессия – это зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких других величин. В отличие от чисто функциональной зависимости y=f(x), когда каждому значению независимой переменной х соответствует одно определённое значение зависимой переменной у, при регрессионной связи одному и тому же значению независимой переменной (фактору) х могут соответствовать в зависимости от конкретного случая различные значения зависимой переменной (отклика) у. Если при каждом значении х=х i наблюдается n i значений y ij ; n j i , , 1 то зависимость средних арифметических значений: y n y i n j ij i i 1 1 от x i и является регрессией в статистическом понимании этого термина. Изучение регрессии основано на том, что случайные величины Х и Y связаны между собой вероятностной зависимостью: при каждом конкретном значении Х = х величина Y является случайной величиной со вполне определённым распределением вероятностей. Зависимость зависимой переменной – отклика от одной независимой переменной – фактора или нескольких факторов называется уравнением регрессии. По количеству факторов выделяют парную (однофакторную) и множественную (многофакторную) регрессию. Для парной будем рассматривать следующие методы регрессии: линейную, показательную, экспоненциальную, гиперболическую и параболическую. Регрессионный анализ – это раздел математической статистики, изучающий регрессионную зависимость между случайными величинами по статистическим данным. Цель регрессионного анализа состоит в определении общего вида уравнения регрессии, вычислении оценок неизвестных параметров, входящих в уравнение регрессии проверке статистических гипотез о регрессионной связи. В этом случае для обработки результатов рекомендуется применять регрессионный анализ, обладающий свойствами сравнительной простоты и конструктивности, которые заключаются в возможности использования регрессионных уравнений для генерации эффективных решений на основе оптимизационных методов. Отметим, что если переменные не количественные, а качественные, то рекомендуется использовать дисперсионный анализ. Если же часть переменных количественная, а часть качественная, то рекомендуется корреляционный анализ. Таким образом, регрессионный анализ – набор статистических методов исследования влияния одной или нескольких независимых переменных 𝑋 1 , … , 𝑋 𝑛 на зависимую переменную 𝑌. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные – критериальными переменными. Линейная регрессия Линейная регрессия (Linear regression) – модель зависимости переменной x от одной или нескольких других переменных (факторов, регрессоров, независимых переменных) с линейной функцией зависимости. Линейная регрессия относится к задаче определения «линии наилучшего соответствия» через набор точек данных и стала простым предшественником нелинейных методов, которые используют для обучения нейронных сетей. Предположим, нам задан набор из 7 точек (рисунок 1). Цель линейной регрессии — поиск линии, которая наилучшим образом соответствует этим точкам. Напомним, что общее уравнение для прямой есть f (x) = b 0 +b 1 ⋅ x, где b 1 – наклон линии, а b 0 – его сдвиг. Таким образом, решение линейной регрессии определяет значения для 𝑏 0 и 𝑏 1 , так что f(x) приближается как можно ближе к y (рисунок 2). Рисунок 1 – Данные для линейной регрессии Рассмотрим несколько графиков, потенциально соответствующих функции линейной регрессии (рисунок 2). Рисунок 2 – Примеры графиков линейной регрессии Из графиков видно, что первые две линии не соответствуют данным. Третья, похоже, лучше, чем две другие. Но как мы можем это проверить? Формально нам необходимо выразить, насколько хорошо подходит линия, и мы можем это сделать, определив функцию потерь. Функция потерь — метод наименьших квадратов Функция потерь – это мера количества ошибок, которые наша линейная регрессия делает на наборе данных. Хотя есть разные функции потерь, все они вычисляют расстояние между предсказанным значением y(х) и его фактическим значением. Например, взяв строку из среднего примера выше, f(x)=−0.11 ⋅ x+2.5, мы выделяем дистанцию ошибки между фактическими и прогнозируемыми значениями красными пунктирными линиями (рисунок 3). Рисунок 3 – Ошибки при линейной регрессии Распространеной функцией потерь является функция средней квадратичной ошибки – Mean squared error (MSE). Чтобы вычислить MSE, необходимо рассчитать квадраты значения ошибок, как разность между эмпирическими данными и соответствующими им модельным, а после – усреднить: 𝑀𝑆𝐸 = 1 𝑛 ∑(𝑌 𝑖 − 𝑌 𝑖 ̂) 2 𝑛 𝑖=1 В машинном обучении MSE является широко представленным подходом к оценке ошибки благодаря простоте расчета и применимости в оценке точности регрессионной модели. Множественная регрессия Множественной называют линейную регрессию, в модели которой число независимых переменных две или более. Уравнение множественной линейной регрессии имеет вид: f(x 1 , x 2 , …, x n ) = b 0 +b 1 x 1 +b 2 x 2 + ⋯ +b n x n , Как и в простой линейной регрессии, параметры модели вычисляются при помощи метода наименьших квадратов. Отличие между простой и множественной линейной регрессией заключается в том, что вместо линии регрессии в ней используется гиперплоскость. Преимущество множественной линейной регрессии по сравнению с простой заключается в том, что использование в модели нескольких входных переменных позволяет увеличить долю объяснённой дисперсии выходной переменной, и таким образом улучшить соответствие модели данным. Т.е. при добавлении в модель каждой новой переменной коэффициент детерминации растёт. Метод наименьших квадратов Выше говорилось, что регрессионный анализ основан на методе наименьших квадратов, который требует, чтобы сумма квадратов отклонений экспериментальных значений от вычисленных по аппроксимирующей зависимости была минимальной. Метод наименьших квадратов (МНК) – один из наиболее часто используемых методов при обработке эмпирических данных, построении и анализе физических, биологических, технических, экономических и социальных моделей. С помощью МНК решают задачу выбора параметров функции (заранее заданного вида) для приближённого описания зависимости величины у от величины х. Исходные данные могут носить самый разнообразный характер и относиться к различным отраслям науки или техники. Например, зависимость температура воздуха ) ( y от высоты над уровнем моря ) (x и другие зависимости. Пусть необходимо установить функциональную зависимость между двумя эмпирическими данными x и y, значения которых занесены в следующую таблицу (таблица 1). Таблица 1 – Пример начальных данных в задаче регрессии x x 1 x 2 … x i … x n y y 1 y 2 … y i … y n Точки ) ; ( i i у х координатной плоскости принято называть экспериментальными. Установим вид функции ) (x f y по характеру расположения на координатной плоскости экспериментальных точек. Если точки расположены так, как показано на рисунке 4, то разумно предположить, что между x и y существует линейная зависимость, выражающаяся формулой: b kx y . (4.1) Рассмотрим случай такой зависимости (рисунок 4). Рисунок 4 – Пример дискретной зависимости, близкой к линейной Уравнение (4.1) можно представить в виде 0 ) ( b kx y Так как точки ) ; ( 1 1 у х , ) ; ( 2 2 у х , …, ) ; ( n n у х не обязательно лежат на одной прямой, то, подставляя вместо х и у значения координат этих точек в выражение ) ( b kx y , получаем равенства: 1 1 1 ) ( b kx y , 2 2 2 ) ( b kx y , …, n n n b kx y ) ( , где 1 , 2 , …, n – некоторые числа, которые называют погрешностями (отклонениями, невязками). Понятно, что чем меньше эти погрешности по абсолютной величине, тем лучше прямая, задаваемая уравнением b kx y , описывает зависимость между экспериментально полученными значениями x и y. Сущность метода наименьших квадратов заключается в подборе коэффициентов k и b таким образом, чтобы сумма квадратов погрешностей была как можно меньшей: n i i i n i i n b kx y S 1 2 1 2 2 2 2 2 1 )) ( ( min (4.2) Отметим, что в равенстве (4.2) находится сумма именно квадратов погрешностей, так как в случае суммирования самих погрешностей i сумма может оказаться малой за счет разных знаков погрешностей. Так как в равенстве (4.2) x i и y i – заданные числа, а k и b – неизвестные, то сумму S можно рассмотреть как функцию двух переменных k и b: ) , ( b k S S . Исследуем ее на экстремум: Необходимое условие существования экстремума функции двух переменных: ; 0 , 0 b S k S , )) ( ( 2 ) ( )) ( ( 2 1 1 i n i i i i n i i i x b kx y x b kx y k S n i i i n i i i b kx y b kx y b S 1 1 )). ( ( 2 ) 1 ( )) ( ( 2 Приравнивая эти частные производные к нулю, получаем линейную систему двух уравнений с двумя переменными k и b: n i i i i n i i i b kx y x b kx y 1 1 0 )) ( ( 2 , 0 )) ( ( 2 Преобразуя первое уравнение системы, получим 0 1 1 2 1 n i i n i i n i i i x b x k x y Преобразуя второе уравнение системы, получим 0 1 1 bn x k y n i i n i i Откуда имеем систему: , 1 1 1 1 1 2 n i i n i i n i i i n i i n i i y bn x k x y x b x k Система (4.3) называется нормальной системой. Из этой системы находим k и b, которые затем подставляем в уравнение (1) и получаем искомое уравнение прямой. Тот факт, что функция ) , ( b k S S в найденной точке ) , ( b k имеет именно минимум, устанавливается с помощью частных производных второго порядка. , ) ( 2 ) ( 2 1 2 1 2 2 n i i i n i i х x х k S , 2 ) 1 ( 2 1 2 2 n b S n i 2 ) ( 2 1 1 2 n i i i n i x x b k S Вычислим 2 2 2 2 2 2 b k S b S k S ) ( 2 2 ) ( 4 2 1 1 1 2 1 2 n i n j j i n i n i i i x x x х n Очевидно, , 0 следовательно, в найденной точке ) , ( b k функция ) , ( b k S S имеет экстремум; а так как , 0 2 2 k S то, согласно достаточному условию экстремума функции двух переменных, в точке ) , ( b k функция имеет минимум. Полученная функция b kx y называется линейной регрессией, а коэффициенты k и b – коэффициентами регрессии (величины у на х). Зависимость между экспериментально полученными величинами может быть близка к квадратичной (рисунок 5). В этом случае задача состоит в нахождении коэффициентов a 2 , a 1 , a 0 для составления уравнения вида 0 1 2 2 a x a x a y (рисунок 5). Рисунок 5 – Пример дискретной зависимости, близкой к квадратичной Можно доказать, что для определения коэффициентов a 2 , a 1 , a 0 следует решить систему уравнений: , , 1 2 1 4 2 1 3 1 1 2 0 1 1 3 2 1 2 1 1 0 1 1 2 2 1 1 0 n i i i n i i n i i n i i n i i i n i i n i i n i i n i i n i i n i i y x x a x a x a y x x a x a x a y x a x a a n В экспериментальной практике в качестве приближающих функций, помимо линейной b kx y и квадратичной 0 1 2 2 a x a x a y , в зависимости от характера точечного графика часто используются следующие приближающие функции: m ax y , mx ae y , b ax y 1 , b x a y , b ax x y , b x a y ln Очевидно, что когда вид приближающей функции установлен, задача сводится только к отысканию значений параметров. Пример Д.И. Менделеев в труде «Основы химии» приводит данные растворимости у натриевой селитры 3 NaNO на 100 г воды в зависимости от температуры t 0 (таблица 2). Таблица 2 – Начальные условия задачи Соответствующая зависимость может быть представлена линейной функцией b kt y Требуется найти аппроксимирующую (приближаемую) функцию в предположении, что она является линейной. Найдем коэффициенты k и b. Для этого составим и решим нормальную систему уравнений , 1 1 1 1 1 2 n i i n i i n i i i n i i n i i y bn t k t y t b t k t i 0 0 4 10 15 21 29 35 51 68 y i 66,7 71,0 76,3 80,6 85,7 92,9 99,4 113,6 125,1 n – число эмпирических точек, n = 9. Выполним предварительные расчеты и для удобства занесем их в таблицу (столбцы i t , i y , 2 i t , i i y t ) Таблица 3 – Пример рассчитанных значений № i t i y 2 i t i i y t i i i рас b kt y i 2 i 1 0 66,7 0 0 67,55 -0,85 0,7225 2 4 71,0 16 284 71,03 -0,03 0,0009 3 10 76,3 100 763 76,25 0,05 0,0025 4 15 80,6 225 1209 80,6 0 0 5 21 85,7 441 1799,7 85,82 -0,12 0,0144 6 29 92,9 841 2694,1 92,78 0,12 0,0144 7 35 99,4 1225 3479 98 1,4 1,96 8 51 113,6 2601 5793,6 111,92 1,68 2,8224 9 68 125,1 4624 8506,8 126,71 -1,61 2,5921 ∑ 233 811,3 10073 24529,2 8,19 Таким образом, нормальная система принимает вид 3 , 811 9 233 2 , 24529 233 10073 b k b k Решая систему, находим 87 , 0 k 55 , 67 b Следовательно, уравнение искомой прямой 55 , 67 87 , 0 t y Вычислим теперь для исходных значений i t расчетные значения i i i рас b kt y и занесем полученные результаты в таблицу (столбец i i i рас b kt y ) Найдем ) ( b kx y i i i и занесем результаты в таблицу (столбец i ). Вычислим сумму квадратов отклонений 19 , 8 1 2 n i i S В результате получим решение задачи, включающее сумму квадратов отклонений, определяющую точность, согласно выбранной метрике. Контрольные вопросы по теме: 1. Приведите общую постановку задачи регрессионного анализа. 2. Приведите прикладной пример задачи регрессионного анализа. 3. В чём состоит задача парной линейной регрессии? 4. Сформулируйте и запишите постановку простейшей задачи парной линейной регрессии. 5. Как можно использовать линейную регрессию для построения прогнозов? 6. Запишите выражение для суммы квадратов отклонений от линии регрессии, когда искомая функциональная зависимость – многочлен второй степени. 7. Решите аналитически простейшую задачу парной линейной регрессии методом наименьших квадратов. 8. В чем суть множественной регрессии? |