12_Регрессионный_анализ. Практическая работа 12 регрессионный анализ основные понятия и формулы
Скачать 241.32 Kb.
|
Практическая работа №12 РЕГРЕССИОННЫЙ АНАЛИЗ
Уравнение регрессии Основная цель регрессионного анализа состоит в определении связи между некоторой характеристикой Y наблюдаемого явления или объекта и величинами х1, х2, …, хn, которые обусловливают, объясняют изменения Y. Переменная Y называется зависимой переменной (откликом), влияющие переменные х1, х2, …, хn называются факторами (регрессорами). Установление формы зависимости, подбор модели (уравнения) регрессии и оценка ее параметров являются задачами регрессионного анализа. В регрессионном анализе изучаются модели вида Y = φ(X) + ε, где Y - результирующий признак (отклик, случайная зависимая переменная); X – фактор (неслучайная независимая переменная); ε – случайная переменная, характеризующая отклонение фактора Х от линии регрессии (остаточная переменная). Уравнение регрессии записывается в виде: yx = φ(x, b0, b1, …, bp), где х – значения величины Х; yx = Mх(Y); b0, b1, …, bp – параметры функции регрессии φ. Таким образом, задача регрессионного анализа состоит в определении функции и ее параметров и последующего статистического исследования уравнения. В зависимости от типа выбранного уравнения различают линейную и нелинейную регрессию (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т.д.). В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессию. Если исследуется связь между двумя признаками (результативным и факторным), то регрессия называется парной, если между тремя и более признаками – множественной (многофакторной) регрессией. На первом этапе регрессионного анализа данные наблюдений или эксперимента представляют графически.
Если вид функции φ в уравнении регрессии выбран, то для оценки неизвестных параметров b0, b1, …, bp используется метод наименьших квадратов (МНК). Согласно методу неизвестные параметры функции выбираются таким образом, чтобы сумма квадратов отклонений экспериментальных (эмпирических) значений yi от их расчетных (теоретических) значений была минимальной, т.е. где – значение, вычисленное по уравнению регрессии; – отклонение (ошибка, остаток); n – количество пар исходных данных. Парная линейная регрессионная модель Рассмотрим парную линейную регрессионную модель взаимосвязи двух переменных, для которой функция регрессии φ(х) линейна. Обозначим через yx условную среднюю признака Y в генеральной совокупности при фиксированном значении x переменной Х. Тогда уравнение регрессии будет иметь вид: yx = ax + b, где a – коэффициент регрессии (показатель наклона линии линейной регрессии). Коэффициент регрессии показывает, на сколько единиц в среднем изменяется переменная Y при изменении переменной Х на одну единицу. С помощью метода наименьших квадратов получают формулы, по которым можно вычислять параметры линейной регрессии: Таблица 1. Формулы для расчета параметров линейной регрессии
Направление связи между переменными определяется на основании знака коэффициента регрессии. Если знак при коэффициенте регрессии положительный, связь зависимой переменной с независимой будет положительной. Если знак при коэффициенте регрессии отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).
Для анализа общего качества уравнения регрессии используют коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции. Коэффициент детерминации (мера определенности) всегда находится в пределах интервала [0;1]. Если значение R2 близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R2близкое к нулю, означает плохое качество построенной модели. Коэффициент детерминации R2 показывает, на сколько процентов найденная функция регрессии описывает связь между исходными значениями Y и Х. На рис. 3 показана – объясненная регрессионной моделью вариация и - общая вариация. Соответственно, величина показывает, сколько процентов вариации параметра Y обусловлены факторами, не включенными в регрессионную модель. При высоком значении коэффициента детерминации 75%) можно делать прогноз для конкретного значения в пределах диапазона исходных данных. При прогнозах значений, не входящих в диапазон исходных данных, справедливость полученной модели гарантировать нельзя. Это объясняется тем, что может проявиться влияние новых факторов, которые модель не учитывает. Оценка значимости уравнения регрессии осуществляется с помощью критерия Фишера (см. табл. 1). При условии справедливости нулевой гипотезы критерий имеет распределение Фишера с числом степеней свободы , (для парной линейной регрессии р = 1). Если нулевая гипотеза отклоняется, то уравнение регрессии считается статистически значимым. Если нулевая гипотеза не отклоняется, то признается статистическая незначимость или ненадежность уравнения регрессии. Пример 1. В механическом цехе анализируется структура себестоимости продукции и доля покупных комплектующих. Было отмечено, что стоимость комплектующих зависит от времени их поставки. В качестве наиболее важного фактора, влияющего на время поставки, выбрано пройденное расстояние. Провести регрессионный анализ данных о поставках:
Для проведения регрессионного анализа:
2. Вычислим суммы, необходимые для расчета коэффициентов уравнения линейной регрессии и коэффициента детерминации R2:
; ; ; . Искомая регрессионная зависимость имеет вид: . Определяем направление связи между переменными: знак коэффициента регрессии положительный, следовательно, связь также является положительной, что подтверждает графическое предположение. 3. Вычислим коэффициент детерминации: или 92%. Таким образом, линейная модель объясняет 92% вариации времени поставки, что означает правильность выбора фактора (расстояния). Не объясняется 8% вариации времени, которые обусловлены остальными факторами, влияющими на время поставки, но не включенными в линейную модель регрессии. 4. Проверим значимость уравнения регрессии: Т.к. – уравнение регрессии (линейной модели) статистически значимо. 5. Решим задачу прогнозирования. Поскольку коэффициент детерминации R2 имеет достаточно высокое значение и расстояние 2 мили, для которого надо сделать прогноз, находится в пределах диапазона исходных данных, то можно сделать прогноз: мин. Регрессионный анализ удобно проводить с помощью возможностей Exel. Режим работы "Регрессия" служит для расчета параметров уравнения линейной регрессии и проверки его адекватности исследуемому процессу. В диалоговом окне следует заполнить следующие параметры:
Пример 2. Выполнить задание примера 1 с помощью режима "Регрессия" Exel.
Рассмотрим представленные в таблице результаты регрессионного анализа. Величина R-квадрат, называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). В нашем примере мера определенности равна 0,91829, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным и совпадает с коэффициентом детерминации R2, вычисленным по формуле. Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y) и равен квадратному корню из коэффициента детерминации. В простом линейном регрессионном анализе множественный коэффициент R равен линейному коэффициенту корреляции (r = 0,958). Коэффициенты линейной модели: Y-пересечение выводит значение свободного члена b, а переменная Х1 – коэффициента регрессии а. Тогда уравнение линейной регрессии: у = 2,6597x + 5,9135 (что хорошо согласуется с результатами расчета в примере 1). Далее проверим значимость коэффициентов регрессии: a и b. Сравнивая попарно значения столбцов Коэффициенты и Стандартная ошибка в таблице, видим, что абсолютные значения коэффициентов больше, чем их стандартные ошибки. К тому же эти коэффициенты являются значимыми, о чем можно судить по значениям показателя Р-значение, которые меньше заданного уровня значимости α=0,05.
В таблице представлены результаты вывода остатков. При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение остатка в данном случае - 1,89256, наименьшее - 0,05399. Для лучшей интерпретации этих данных строят график исходных данных и построенной линией регрессии. Как видно из построения, линия регрессии хорошо "подогнана" под значения исходных данных, а отклонения носят случайный характер. Нелинейная регрессия Нелинейные уравнения регрессии предварительно приводят к линейному виду с помощью преобразования переменных, а затем к преобразованным переменным применяют метод наименьших квадратов. В Exel для построения нелинейных моделей можно использовать команду "Добавить линию тренда". Эта команда используется для выделения тренда при анализе временных рядов. Однако эту команду можно использовать и для построения уравнения нелинейной регрессии, рассматривая в качестве времени независимую переменную X. Команда "Добавить линию тренда" позволяет построить следующие уравнения регрессии: линейную, полиномиальную, логарифмическую, степенную, экспоненциальную. Для построения нелинейных моделей в Exel необходимо ввести по столбцам исходные данные (массивы Х и Y), по ним построить график в декартовой системе координат. Затем установить курсор на построенном графике, сделать щелчок правой кнопкой и в появившемся контекстном меню выполнить команду Добавить линию тренда (см. рис. примера 3). В появившемся диалоговом окне активизировать закладку Тип и выбрать нужное уравнение регрессии.При этом необходимо задать опции (поставить галочки): Показать уравнение на диаграмме иПоместить на диаграмму величину достоверности аппроксимации (R^2). Пример 3. Для массива экспериментальных данных построить возможные уравнения нелинейной регрессии с помощью команды Добавить линию тренда" и по максимальному коэффициенту детерминации найти наилучшее уравнение нелинейной регрессии.
Вывод: в качестве наилучшего уравнения регрессии выбираем степенную функцию y = 10,18x0,3626. Задачи для самостоятельной работы Задача 1. Экспериментальные данные по обкатыванию поверхности шаровым инструментом и шероховатости обработанной поверхности приведены в таблице:
Для проведения регрессионного анализа: 1. построить график исходных данных, приближенно определить характер зависимости; 2. выбрать вид функции регрессии и определить численные коэффициенты модели методом наименьших квадратов и направление связи; 3. оценить силу регрессионной зависимости с помощью коэффициента детерминации; 4. оценить значимость уравнения регрессии; 5. сделать прогноз (или вывод о невозможности прогнозирования) по принятой модели для силы прижима 135 кгс. Задача 2. Для массива экспериментальных данных построить возможные уравнения регрессии с помощью команды Добавить линию тренда и по максимальному коэффициенту детерминации найти наилучшее уравнение регрессии.
Задача 3. Сделать предположение о виде зависимости годового объема производства Y от основных фондов X с помощью графического представления данных.
|