Главная страница

Множественная линейная регрессия и корреляция


Скачать 166.11 Kb.
НазваниеМножественная линейная регрессия и корреляция
Дата03.12.2018
Размер166.11 Kb.
Формат файлаdocx
Имя файлаSR3_-_Shablon_otcheta.docx
ТипДокументы
#58643

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ЖЕЛЕЗНОДОРОЖНОГО ТРАНСПОРТА

Государственное образовательное учреждение высшего
профессионального образования

«МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ»

Институт экономики и финансов

Кафедра «Математика»

Расчетно-аналитическая работа №3

по дисциплине: «Эконометрика»

на тему: «Множественная линейная регрессия и корреляция»

Вариант 12

Выполнила:

студентка группы ЭБЭ-222

Патурян Нарек

Проверила:

Карпенко Н. В.

Москва 2017

Условия задания

Заданы значения зависимой переменной (Y) и пяти независимых переменных (X), характеризующих экономическую деятельность 53 предприятий.

I. Корреляционный анализ

1.1. Построить корреляционную матрицу.

1.2. Проанализировать матрицу межфакторных корреляций. Выявить зависимые объясняющие переменные. Сделать выводы.

1.3. Проанализировать взаимосвязь зависимой и объясняющих переменных. Сделать выводы.

1.4. По результатам анализа (пункты 1.2, 1.3) выбрать две объясняющие переменные, наиболее тесно связанные с зависимой переменной.

II. Регрессионный анализ

2.1. Построить уравнение множественной линейной регрессии по пяти объясняющим переменным.

2.2. Построить уравнение множественной линейной регрессии по двум объясняющим переменным, выбранным в пункте 1.4.

Для него выполнить пункты 2.2.1 – 2.2.7.

2.2.1. Найти среднюю относительную ошибку аппроксимации. Сделать вывод.

2.2.2. Проверить критерии Фишера и Стъюдента. Найти интервальные оценки параметров уравнения регрессии. Сделать выводы.

2.2.3. Найти коэффициент детерминации. Поверить его статистическую значимость. Сделать выводы.

2.2.4. Найти коэффициент множественной корреляции. Простроить интервальную оценку с помощью z-преобразования Фишера. Сделать выводы.

2.2.5. Провести анализ остатков (проверить предпосылки МНК).

2.2.6. Сделать вывод о качестве модели множественной линейной регрессии с двумя объясняющими переменными.

2.2.7. Для уравнения регрессии с двумя объясняющими переменными найти средние и частные коэффициенты эластичности. Оценить силу влияния объясняющих переменных на зависимую переменную. Сделать выводы.

2.3. Провести сравнительный анализ уравнений регрессии. Выбрать наилучшее уравнение регрессии.

I. Корреляционный анализ

1.1. Построить корреляционную матрицу.

Корреляционная матрица имеет вид




Y

X

X

X

X

X

Y

1
















X

-0,49

1













X

0,2

-0,35

1










X

0,43

-0,39

0,19

1







X

0,23

-0,50

0,44

0,09

1




X

-0,0,9

0,52

-0,32

-0,19

-0,27

1

Элементы корреляционной матрицы найдены по формулам:

=-0,49









1.2. Проанализировать матрицу межфакторных корреляций. Выявить зависимые объясняющие переменные.

Вывод: Между факторами Х4 и Х15 существует средняя (умеренная) связь, т.к. для него абсолютное значение коэффициента парной корреляции соответственно равно 0,52 и попадает в интервал (0,5 - 0,7) шкалы Чеддока. Коррелированные факторы дублируют друг друга и одновременно не должны входить в уравнение регрессии.

Между факторами Х4 и Х14, Х4 и Х7, Х4 и Х13, Х7 и Х14, Х7 и Х15, Х14 и Х15 связь слабая (абсолютные значения коэффициентов парной корреляции соответственно равны 0,49,0,35, 0,39, 0,44, 0,32 и 0,27, принадлежат интервалу (0,2; 0,5) шкалы Чеддока).

Между факторами Х7 и Х13; Х13 и Х14, Х13 и Х15 связь практически отсутствует, т.к. для них абсолютные значения коэффициентов парной корреляции меньше 0,2.

1.3. Проанализировать взаимосвязь зависимой и объясняющих переменных.

Вывод: Между объясняющими переменными Х15 и зависимой переменной Y1 связь отсутствует, т.к. для них абсолютные значения коэффициентов парной корреляции меньше 0,2.

Между переменными X4, X7, X13, X14 и Y1 связь слабая, (абсолютное значение коэффициента парной корреляции равны 0,49, 0,20, 0,43, 0,23 принадлежат интервалу (0,2; 0,5) шкалы Чеддока).

1.4. По результатам анализа (пункты 1.2 и 1.3) выбрать две объясняющие переменные, наиболее тесно связанные с зависимой переменной.

Вывод: объясняющие переменные Х и Х наиболее тесно связаны с зависимой переменной Y , потому, что

Замечание. Чтобы сделать вывод по коэффициентам парной корреляции воспользуйтесь таблицей Чеддока.

Значение коэффициента

корреляции |ryx|

Характер линейной корреляционной связи между признаками y и x

0 - 0,2

Практически отсутствует

0,2 - 0,5

Слабая

0,5 - 0,7

Средняя (умеренная)

0,7 - 0,95

Сильная (тесная)

0,95 - 1

Практически функциональная

II. Регрессионный анализ

2.1. Построить уравнение множественной линейной регрессии по пяти объясняющим переменным.

Уравнение множественной линейной регрессии с пятью независимыми переменными имеет вид

b0+b1*x4+b2*x7+b3*x13+b4*x14+b5*x15

7,61+(-11,79)*x4+0,86*x7+0,0038*x13+0,01*x14+0,02*x15=

2.2. Построить уравнение множественной линейной регрессии по двум объясняющим переменным.

Уравнение множественной линейной регрессии с двумя независимыми переменными имеет вид

b0+b1*x4+b2*x13

9,94+(-9,4)*x4+0,004*x13

2.2.1. Найти среднюю относительную ошибку аппроксимации. Сделать вывод.

Найдем среднюю относительную ошибку аппроксимации по формуле:



17,52%

Вывод: так как 17,52% и находится в промежутке от 10 до 20, следует, что уравнение регрессии имеет хорошую точность.

2.2.2. Проверить критерии Фишера и Стъюдента. Сделать выводы.

Проверим статистическую значимость уравнения регрессии в целом с помощью
F-критерия Фишера. Расчетное значение критерия находится по формуле:



11,28

Найдем F-табличное:



Вывод: так как Fрасч > Fтабл , то уравнение статистически значимо в целом.

Проверим статистическую значимость отдельных параметров уравнения регрессии с помощью критерия Стьюдента.

=7,77




=2,98




=2,24




Найдем t-табличное:

2,01

Вывод: Оценки параметров b0 и b2 статистически значимы tb0 > t табл, tb2>t табл ; оценка параметра b1 - статистически не значима tb1 < t табл

Найдем интервальные оценки параметров уравнения по формулам:

b0-mb0*tтабл b0+mb0*tтабл

7,3712,5

b1-mb1*tтабл b1+mb1*tтабл

-15,74-3,06

b2-mb2*tтабл b2+mb2*tтабл

0,000390,0072

2.2.3. Найти коэффициент детерминации. Поверить его статистическую значимость.

Коэффициент детерминации находится по формуле:



0,31

Вывод: Коэффициент детерминации показывает, что факторы Х4 и Х13 на 31% объясняют формирование значений показателя Y1.

Скорректированный коэффициент детерминации находится по формуле:



0,28

Вывод: Х4 и Х13 на 28% объясняют формирование значений показателя «индекс снижения себестоимости продукции» Y1.

Оценим статистическую значимость коэффициента детерминации с помощью критерия Фишера. Найдем расчетное значение критерия по формуле:



11,28

Найдем F-табличное:

3,18

Вывод: Если Fрасч > Fтабл, то уравнение статистически значимо в целом.

2.2.4. Найти коэффициент множественной корреляции. Простроить интервальную оценку с помощью z-преобразования Фишера. Сделать выводы.

Коэффициент множественной корреляции по формуле:



0,56

Интервальная оценка (доверительный интервал) коэффициента множественной корреляции R находится с помощью z-преобразования Фишера



Предварительно устанавливается интервальная оценка для z в виде



max

Вывод: Между факторами «Премии и вознаграждение на одного работника» и «Среднегодовая стоимость ОПФ» и показателем «Производительность труда» существует средняя множественная корреляционная зависимость.

Замечание. Чтобы сделать вывод по коэффициенту множественной корреляции воспользуйтесь таблицей

Значение коэффициента множественной корреляции R

Характер линейной корреляционной связи между признаками
y и х1, х2,…, хm

0 - 0,1

Слабая

0,1 - 0,5

Cредняя (умеренная)

0,5 – 1

Сильная (тесная)

2.2.5. Провести анализ остатков (проверить предпосылки МНК).

Остатки найдем по формуле

1. Проверим требованиe D теоремы Гаусса-Маркова.

a) Среднее значение остатков равно:

= 0

0

Вывод: Математическое ожидание остатков (среднее арифметическое) равно 0, тогда первая часть требования теоремы Гаусса-Маркова считается выполненной

б) На графике (рис.) точки внутри горизонтальной полосы, симметричной оси абсцисс.

Рисунок. График остатков

Вывод: На графике точки равномерно расположены внутри горизонтальной полосы, симметричной оси абсцисс, кроме 50 и 52 точки, которые выходят за рамки. Дисперсия остатков постоянна (остатки гомоскедастичны). Второе условие требования D выполняется.

Точечная оценка дисперсии остатков равна:



4,97



Интервальная оценка дисперсии остатков находится по формуле:

;

Критические значения распределения χ2 Пирсона найдем по числу степеней свободы

df =50

и уровням значимости α1 =1 – α/2 =0,975 , α2 = α/2 =0,025

χ2табл(50,0.975) = 32,35

χ2табл(50,0.025) = 71,42

2. Проверим требование Е теоремы Гаусса-Маркова - для разных наблюдений остатки εi независимы.

Воспользуемся критерием Дарбина-Уотсона. Вычислим статистику по формуле:



1,56

Для уравнения множественной линейной регрессии теоретические значения критерия Дарбина-Уотсона найдем по таблице критических значений, по объему выборки n=53, числу степеней свободы df=1 и уровню значимости α = 0,05.

1,48

1,63

Есть

положительная

автокорреляция

остатков

Зона

неопре-деленности

Автокорреляция
остатков
отсутствует


Зона

неопре-деленности

Есть

отрицательная

автокорреляция

остатков

0

1,48

1,63 2 2,37

2,52

4

Вывод:

Поскольку dрасч=1,56 попадает в интервал (1,48:1,63), в котором автокорреляция остатков отсутствует, остатки независимы. Требование Е выполняется.

2.2.6. Сделать вывод о качестве модели множественной линейной регрессии с двумя объясняющими переменными.

Вывод: Уравнение множественной линейной регрессии с двумя независимыми переменными имеет хорошую точность, статистически значимо в целом, однако не все параметры уравнения статистически значимы. Факторы на 28% объясняют ее значения. Уравнение имеет достаточно хорошее качество.

2.2.7. Для уравнения регрессии с двумя объясняющими переменными найти средние и частные коэффициенты эластичности. Оценить силу влияния объясняющих переменных на зависимую переменную. Сделать выводы.

Средние коэффициенты эластичности находятся по формуле:






Для уравнения множественной линейной регрессии с двумя переменными средние коэффициенты эластичности равны (формулы)











Средние коэффициенты эластичности

Переменная

Среднее значение переменной

Значение среднего коэффициента эластичности

Y1

8,12




X4

0,31

-0,38

X13

280,37

-0,0004


Вывод:

Средний коэффициент эластичности показывает, что при увеличении среднего значения фактора «трудоемкость единицы продукции» (Х4) на 1 единицу своего измерения среднее значение показателя «производительность труда» (Y1) уменьшится на 0,51%, при неизменности средне годового фонда заработной платы ППП (Х13).

Средний коэффициент эластичности показывает, что при увеличении средне годового фонда заработной платы ППП (Х13) на 1 единицу своего измерения среднее значение показателя «производительность труда» (Y1) уменьшится на 0,011%, при неизменности трудоемкости единицы продукции (Х4).
Уравнение множественной линейной регрессии с двумя переменными имеет вид

9,94+(-9,4)*x4+0,004*x13

Для него найдены частные уравнения регрессии (формулы)

Частные коэффициенты эластичности находятся по формулам

предпри-ятия

Частные коэффициенты эластичности для Х

Частные коэффициенты эластичности для Х

предпри-ятия

Частные коэффициенты эластичности для Х

Частные коэффициенты эластичности для Х

1

-0,25

-0,0007

28

-0,55

-0,0005

2

-0,26

-0,0008

29

-0,24

-0,0003

3

-0,20

-0,0006

30

-0,34

-0,0005

4

-0,17

-0,0006

31

-0,80

-0,0002

5

-0,25

-0,0002

32

-0,46

-0,0003

6

-0,60

-0,0003

33

-0,25

-0,0006

7

-0,37

-0,0008

34

-0,29

-0,0003

8

-0,29

-0,0002

35

-0,31

-0,0003

9

-0,74

-0,0004

36

-0,34

-0,0003

10

-0,46

-0,0003

37

-0,01

-0,0001

11

-0,47

-0,0003

38

-0,02

-0,0009

12

-0,60

-0,0002

39

-0,19

-0,0014

13

-0,44

-0,0008

40

-0,28

-0,0004

14

-0,49

-0,0001

41

-0,37

-0,0002

15

-0,58

-0,0001

42

-0,49

-0,0003

16

-0,35

-0,0004

43

-0,26

-0,0002

17

-0,39

-0,0003

44

-0,37

-0,0003

18

-0,28

-0,0002

45

-0,58

-0,0003

19

-0,37

-0,0005

46

-0,80

-0,0001

20

-0,29

-0,0003

47

-0,37

-0,0004

21

-0,47

-0,0004

48

-0,47

-0,0006

22

-0,34

-0,0003

49

-0,16

-0,0007

23

-0,42

-0,0002

50

-0,19

-0,0001

24

-0,25

-0,0007

51

-0,60

-0,0002

25

-0,17

-0,0015

52

-0,53

-0,0003

26

-0,34

-0,0003

53

-0,37

-0,0003

27

-0,55

-0,0005










Вывод:

Частные коэффициенты эластичности показывают, что при неизменности среднегорного показателя фонда заработной платы ППП рост трудоемкость единицы продукции на 1 единицу своего измерения приводит к наибольшему росту производительности труда на предприятии 37. На предприятиях 25, 31, 46 – наименьший рост производительности труда. На предприятиях 7, 19, 41, 44, 47, 53 рост производительности такой же, как в среднем по группе предприятий.

Частные коэффициенты эластичности показывают, что при неизменности трудоемкость единицы продукции рост среднегодового фонда заработной платы ППП труда на 1 единицу своего измерения приводит к наибольшему росту производительности труда на предприятии 14, 15. На предприятии 37 – наименьший рост производительности труда. На предприятиях 9, 16, 21, 40, 47 рост производительности такой же, как в среднем по группе предприятий.

2.3. Провести сравнительный анализ уравнений регрессии. Выбрать наилучшее уравнение регрессии.

Характеристики уравнения

Уравнение множественной линейной регрессии

5 объясняющих переменных

2 объясняющие переменные



0,59

0,56



0,35

0,31



0,28

0,28



17,9

17,52



5,00

11,28



2,39

3,18

df1

5

2

df2

47

50



0.05

0.05



1,96

7,77

1

0,34

-2,98

2

0,08

2,24

3

-2,90

-----

4

2,16

-----

5

1,61

-----



7,61

2,01

df

47

50

Вывод: Наилучшим уравнением, наиболее адекватно описывающим исходные данные, является уравнение с 5 объясняющими переменными, так как в его случае скорректированный коэффициент детерминации имеет большее значение
(0,28 > 0,21).



написать администратору сайта