12_Регрессионный_анализ. Практическая работа 12 регрессионный анализ основные понятия и формулы

Название	Практическая работа 12 регрессионный анализ основные понятия и формулы
Дата	10.05.2018
Размер	241.32 Kb.
Формат файла
Имя файла	12_Регрессионный_анализ.docx
Тип	Практическая работа #43226

Практическая работа №12

РЕГРЕССИОННЫЙ АНАЛИЗ

Основные понятия и формулы
Форма связи

линейная положительная	линейная отрицательная		отсутствует		нелинейная
Метод наименьших квадратов (МНК)

Регрессионный анализ
линейная регрессия		нелинейная регрессия		– факторы - коэффициенты множественная регрессия
Основные умения и навыки: выдвигать предположения о виде зависимости исследуемых параметров; предполагать форму модели (уравнения) регрессии; оценивать параметры регрессионной модели; делать выводы о соответствии принятой модели экспериментальным данным; использовать Exel для проведения регрессионного анализа.

Уравнение регрессии

Основная цель регрессионного анализа состоит в определении связи между некоторой характеристикой Y наблюдаемого явления или объекта и величинами х₁, х₂, …, х_n, которые обусловливают, объясняют изменения Y. Переменная Y называется зависимой переменной (откликом), влияющие переменные х₁, х₂, …, х_n называются факторами (регрессорами). Установление формы зависимости, подбор модели (уравнения) регрессии и оценка ее параметров являются задачами регрессионного анализа.

В регрессионном анализе изучаются модели вида Y = φ(X) + ε, где Y - результирующий признак (отклик, случайная зависимая переменная); X – фактор (неслучайная независимая переменная); ε – случайная переменная, характеризующая отклонение фактора Х от линии регрессии (остаточная переменная). Уравнение регрессии записывается в виде: y_x = φ(x, b₀, b₁, …, b_p), где х – значения величины Х; y_x = M_х(Y); b₀, b₁, …, b_p – параметры функции регрессии φ. Таким образом, задача регрессионного анализа состоит в определении функции и ее параметров и последующего статистического исследования уравнения.

В зависимости от типа выбранного уравнения различают линейную и нелинейную регрессию (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т.д.). В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессию. Если исследуется связь между двумя признаками (результативным и факторным), то регрессия называется парной, если между тремя и более признаками – множественной (многофакторной) регрессией.

На первом этапе регрессионного анализа данные наблюдений или эксперимента представляют графически.

Зависимость между переменными Х и Y изображают точками на координатной плоскости (х, y) и соединяют их ломаной линией. Этот ломаный график называется эмпирической линией регрессии Y по Х. По виду эмпирической линии регрессии делают предположение о виде (форме) зависимости переменной Y от Х. В данном случае логично предположить линейную зависимость.

Рис. 1.

Если вид функции φ в уравнении регрессии выбран, то для оценки неизвестных параметров b₀, b₁, …, b_p используется метод наименьших квадратов (МНК). Согласно методу неизвестные параметры функции выбираются таким образом, чтобы сумма квадратов отклонений экспериментальных (эмпирических) значений y_i от их расчетных (теоретических) значений была минимальной, т.е.

где

– значение, вычисленное по уравнению регрессии;

– отклонение (ошибка, остаток); n – количество пар исходных данных.
Парная линейная регрессионная модель

Рассмотрим парную линейную регрессионную модель взаимосвязи двух переменных, для которой функция регрессии φ(х) линейна. Обозначим через y_x условную среднюю признака Y в генеральной совокупности при фиксированном значении x переменной Х. Тогда уравнение регрессии будет иметь вид:

y_x = ax + b, где a – коэффициент регрессии (показатель наклона линии линейной регрессии). Коэффициент регрессии показывает, на сколько единиц в среднем изменяется переменная Y при изменении переменной Х на одну единицу. С помощью метода наименьших квадратов получают формулы, по которым можно вычислять параметры линейной регрессии:

Таблица 1. Формулы для расчета параметров линейной регрессии

Свободный член b	Коэффициент регрессии a	Коэффициент детерминации

Проверка гипотезы о значимости уравнения регрессии
Н₀:	Н₁:
, , , Приложение 7 (для линейной регрессии р = 1)

Направление связи между переменными определяется на основании знака коэффициента регрессии. Если знак при коэффициенте регрессии положительный, связь зависимой переменной с независимой будет положительной. Если знак при коэффициенте регрессии отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).


Рис. 2. Понятие отклонения (линейная регрессия)	Рис. 3. Графическая интерпретация коэффициента детерминации (линейная регрессия)

Для анализа общего качества уравнения регрессии используют коэффициент детерминации R², называемый также квадратом коэффициента множественной корреляции. Коэффициент детерминации (мера определенности) всегда находится в пределах интервала [0;1]. Если значение R² близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R²близкое к нулю, означает плохое качество построенной модели.

Коэффициент детерминации R² показывает, на сколько процентов

найденная функция регрессии описывает связь между исходными значениями Y и Х. На рис. 3 показана

– объясненная регрессионной моделью вариация и

- общая вариация. Соответственно, величина

показывает, сколько процентов вариации параметра Y обусловлены факторами, не включенными в регрессионную модель.

При высоком значении коэффициента детерминации

75%) можно делать прогноз

для конкретного значения

в пределах диапазона исходных данных. При прогнозах значений, не входящих в диапазон исходных данных, справедливость полученной модели гарантировать нельзя. Это объясняется тем, что может проявиться влияние новых факторов, которые модель не учитывает.

Оценка значимости уравнения регрессии осуществляется с помощью критерия Фишера (см. табл. 1). При условии справедливости нулевой гипотезы критерий имеет распределение Фишера с числом степеней свободы

(для парной линейной регрессии р = 1). Если нулевая гипотеза отклоняется, то уравнение регрессии считается статистически значимым. Если нулевая гипотеза не отклоняется, то признается статистическая незначимость или ненадежность уравнения регрессии.

Пример 1. В механическом цехе анализируется структура себестоимости продукции и доля покупных комплектующих. Было отмечено, что стоимость комплектующих зависит от времени их поставки. В качестве наиболее важного фактора, влияющего на время поставки, выбрано пройденное расстояние. Провести регрессионный анализ данных о поставках:

Расстояние, миль	3,5	2,4	4,9	4,2	3,0	1,3	1,0	3,0	1,5	4,1
Время, мин	16	13	19	18	12	11	8	14	9	16

Для проведения регрессионного анализа:

построить график исходных данных, приближенно определить характер зависимости;
выбрать вид функции регрессии и определить численные коэффициенты модели методом наименьших квадратов и направление связи;
оценить силу регрессионной зависимости с помощью коэффициента детерминации;
оценить значимость уравнения регрессии;
сделать прогноз (или вывод о невозможности прогнозирования) по принятой модели для расстояния 2 мили.

1. Построенные точки не находятся точно на линии: помимо расстояния на время поставки влияют пробки на дорогах, время суток, дорожные работы, погода, квалификация водителя, вид транспорта. Но эти точки собраны вдоль прямой линии, поэтому можно предположить линейную положительную связь между параметрами.

2. Вычислим суммы, необходимые для расчета коэффициентов уравнения линейной регрессии и коэффициента детерминации R²:

№
1	3,5	16	12,25	56,00	15,22	2,63	5,76
2	2,4	13	5,76	31,20	12,30	1,70	0,36
3	4,9	19	24,01	93,10	18,95	28,59	29,16
4	4,2	18	17,64	75,60	17,09	12,15	19,36
5	3,0	12	9,00	36,00	13,89	0,08	2,56
6	1,3	11	1,69	14,30	9,37	17,88	6,76
7	1,0	8	1,00	8,00	8,57	25,27	31,36
8	3,0	14	9,00	42,00	13,89	0,09	0,16
9	1,5	9	2,25	13,50	9,90	13,67	21,16
10	4,1	16	16,81	65,60	16,82	10,36	5,76
Σ	28,9	136	99,41	435,30	–	112,42	122,40

;

.

Искомая регрессионная зависимость имеет вид:

. Определяем направление связи между переменными: знак коэффициента регрессии положительный, следовательно, связь также является положительной, что подтверждает графическое предположение.

3. Вычислим коэффициент детерминации:

или 92%. Таким образом, линейная модель объясняет 92% вариации времени поставки, что означает правильность выбора фактора (расстояния). Не объясняется 8% вариации времени, которые обусловлены остальными факторами, влияющими на время поставки, но не включенными в линейную модель регрессии.

4. Проверим значимость уравнения регрессии:

Т.к.

– уравнение регрессии (линейной модели) статистически значимо.

5. Решим задачу прогнозирования. Поскольку коэффициент детерминации R²имеет достаточно высокое значение и расстояние 2 мили, для которого надо сделать прогноз, находится в пределах диапазона исходных данных, то можно сделать прогноз:

мин.

Регрессионный анализ удобно проводить с помощью возможностей Exel. Режим работы "Регрессия" служит для расчета параметров уравнения линейной регрессии и проверки его адекватности исследуемому процессу. В диалоговом окне следует заполнить следующие параметры:

Входной интервал Y - это диапазон данных по результативному признаку, он должен состоять из одного столбца.
Входной интервал X - это диапазон ячеек, содержащих значения факторов (независимых переменных). Число входных диапазонов (столбцов) 16.
Флажок Метки, устанавливается в том случае, если в первой строке диапазона стоит заголовок.
Флажок Уровень надежности активизируется, если в поле, находящееся рядом с ним необходимо ввести уровень надежности, отличный от установленного по умолчанию (95%).
Константа ноль. Данный флажок необходимо установить, если линия регрессии должна пройти через начало координат (b = 0).
Флажкив группе Остатки и График остатков устанавливаются, если необходимо включить в выходной диапазон соответствующие столбцы или графики.

Пример 2. Выполнить задание примера 1 с помощью режима "Регрессия" Exel.

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,958275757
R-квадрат	0,918292427
Нормированный R-квадрат	0,90807898
Стандартная ошибка	1,11809028
Наблюдения	10
		Коэффициенты	Стандартная ошибка	t-статистика	P-Значение
Y-пересечение		5,913462144	0,884389599	6,686489927	0,00015485
Переменная X 1		2,65970168	0,280497238	9,482095791	1,26072E-05

Рассмотрим представленные в таблице результаты регрессионного анализа.

Величина R-квадрат, называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). В нашем примере мера определенности равна 0,91829, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным и совпадает с коэффициентом детерминации R², вычисленным по формуле.

Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y) и равен квадратному корню из коэффициента детерминации. В простом линейном регрессионном анализе множественный коэффициент R равен линейному коэффициенту корреляции (r = 0,958).

Коэффициенты линейной модели: Y-пересечение выводит значение свободного члена b, а переменная Х1 – коэффициента регрессии а. Тогда уравнение линейной регрессии:

у = 2,6597x + 5,9135 (что хорошо согласуется с результатами расчета в примере 1).

Далее проверим значимость коэффициентов регрессии: a и b. Сравнивая попарно значения столбцов Коэффициенты и Стандартная ошибка в таблице, видим, что абсолютные значения коэффициентов больше, чем их стандартные ошибки. К тому же эти коэффициенты являются значимыми, о чем можно судить по значениям показателя Р-значение, которые меньше заданного уровня значимости α=0,05.

Наблюдение	Предсказанное Y	Остатки	Стандартные остатки
1	15,22241803	0,777581975	0,737641894
2	12,29674618	0,703253823	0,667131568
3	18,94600038	0,053999622	0,051225961
4	17,0842092	0,915790799	0,868751695
5	13,89256718	-1,892567185	-1,795356486
6	9,371074328	1,628925672	1,545256778
7	8,573163824	-0,573163824	-0,543723571
8	13,89256718	0,107432815	0,101914586
9	9,903014664	-0,903014664	-0,8566318
10	16,81823903	-0,818239033	-0,776210624

В таблице представлены результаты вывода остатков. При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение остатка в данном случае - 1,89256, наименьшее - 0,05399. Для лучшей интерпретации этих данных строят график исходных данных и построенной линией регрессии. Как видно из построения, линия регрессии хорошо "подогнана" под значения исходных данных, а отклонения носят случайный характер.
Нелинейная регрессия

Нелинейные уравнения регрессии предварительно приводят к линейному виду с помощью преобразования переменных, а затем к преобразованным переменным применяют метод наименьших квадратов. В Exel для построения нелинейных моделей можно использовать команду "Добавить линию тренда". Эта команда используется для выделения тренда при анализе временных рядов. Однако эту команду можно использовать и для построения уравнения нелинейной регрессии, рассматривая в качестве времени независимую переменную X.

Команда "Добавить линию тренда" позволяет построить следующие уравнения регрессии: линейную, полиномиальную, логарифмическую, степенную, экспоненциальную.

Для построения нелинейных моделей в Exel необходимо ввести по столбцам исходные данные (массивы Х и Y), по ним построить график в декартовой системе координат. Затем установить курсор на построенном графике, сделать щелчок правой кнопкой и в появившемся контекстном меню выполнить команду Добавить линию тренда (см. рис. примера 3). В появившемся диалоговом окне активизировать закладку Тип и выбрать нужное уравнение регрессии.При этом необходимо задать опции (поставить галочки): Показать уравнение на диаграмме иПоместить на диаграмму величину достоверности аппроксимации (R^2).

Пример 3. Для массива экспериментальных данных построить возможные уравнения нелинейной регрессии с помощью команды

Добавить линию тренда" и по максимальному коэффициенту детерминации найти наилучшее уравнение нелинейной регрессии.

№	Уравнение	Коэффициент детерминации
1	y = 9,28 + 1,777x	0,949
2	y = 9,8759 + 5,1289∙ln x	0,9916
3	y = 6,93 + 3,5396x – 0,2518x²	0,9896
4	y = 5,8333 +4,9192x – 0,7087x² – 0,0435x³	0,9917
5	y = 10,18x^0,3626	0,9921
6	y = 9,8675e^0,1225x	0,9029

Вывод: в качестве наилучшего уравнения регрессии выбираем степенную функцию y = 10,18x^0,3626.
Задачи для самостоятельной работы

Задача 1. Экспериментальные данные по обкатыванию поверхности шаровым инструментом и шероховатости обработанной поверхности приведены в таблице:

Х - сила прижима, кгс	50	75	100	125	150
Y – шероховатость, мкм	0,60	0,54	0,47	0,40	0,31

Для проведения регрессионного анализа:

1. построить график исходных данных, приближенно определить характер зависимости;

2. выбрать вид функции регрессии и определить численные коэффициенты модели методом наименьших квадратов и направление связи;

3. оценить силу регрессионной зависимости с помощью коэффициента детерминации;

4. оценить значимость уравнения регрессии;

5. сделать прогноз (или вывод о невозможности прогнозирования) по принятой модели для силы прижима 135 кгс.
Задача 2. Для массива экспериментальных данных построить возможные уравнения регрессии с помощью команды Добавить линию тренда и по максимальному коэффициенту детерминации найти наилучшее уравнение регрессии.

X	3	8	5	10	7	6	4	9	1	2
Y	6	5	9	1	8	9	8	4	2	4

Задача 3. Сделать предположение о виде зависимости годового объема производства Y от основных фондов X с помощью графического представления данных.

Годовой объем производства (Y), млн. руб.	Основные фонды (X), млн. руб.
Годовой объем производства (Y), млн. руб.	10	20	30	40	50	60
15	5	7	-	-	-	-
25	-	20	23	-	-	-
35	-	-	30	47	2	-
45	-	-	10	11	20	6
55	-	-	-	9	7	3