Главная страница

Лабораторная по линейной регрессии (оформление). Парная линейная регрессия


Скачать 114.37 Kb.
НазваниеПарная линейная регрессия
АнкорklirQez
Дата28.03.2023
Размер114.37 Kb.
Формат файлаdocx
Имя файлаЛабораторная по линейной регрессии (оформление).docx
ТипДокументы
#1020682

Тема: Парная линейная регрессия

Лабораторная №1



Имеются исходные данные (10 наблюдений):

Объем производства, млн. руб.

17

14

26

27

27

35

18

22

49

12

Численность рабочих, чел.

32

33

42

51

60

64

35

40

80

20,5



Необходимо определить, какой из заданных показателей является зависимой переменной, а какой – независимой. Построить поле корреляции. Найти точечные и интервальные оценки параметров модели . Оценить значимость коэффициентов регрессии, используя t-критерий Стьюдента и доверительные интервалы истинных значений параметров. Верифицировать полученную модель, используя дисперсионный анализ в регрессии и элементы теории корреляции. Интерпретировать полученные результаты. Сделать прогноз на основе модели.

Решение: 1 способ (ручной)


1 этап: Спецификация модели.
Определим, какой из заданных показателей будет зависимой переменной, а какой независимой. Так как труд является одним из факторов производства (экономическая теория), то численность работников обозначим в качестве независимой переменной , а объем производства – .

Чтобы определить характер зависимости, построим поле корреляции:


Следующим шагом наносим на поле корреляции прямую :


Из графика видно, что точки распределены практически однородно относительно прямой, поэтому можно сказать, что условие гомоскедастичности выполняется.
2 этап: Построение модели.
Найдем оценки параметров модели помощью метода наименьших квадратов (МНК). Оценки параметров модели находятся из условия:

.

Тогда:

,

,

,

.

Построим вспомогательную таблицу для расчетов:

№ наблюдения













1

32

17

-7,7

-13,75

189,063

105,875

2

33

14

-10,7

-12,75

162,563

136,425

3

42

26

1,3

-3,75

14,0625

-4,875

4

51

27

2,3

5,25

27,5625

12,075

5

60

27

2,3

14,25

203,063

32,775

6

64

35

10,3

18,25

333,063

187,975

7

35

18

-6,7

-10,75

115,563

72,025

8

40

22

-2,7

-5,75

33,0625

15,525

9

80

49

24,3

34,25

1173,06

832,275

10

20,5

12

-12,7

-25,25

637,563

320,675

Итого

457,5

247

0

0

2888,625

1710,75


,

,

,

.

Коэффициенты совпадают с уравнением на диаграмме.

При этом уравнение модели напишем в виде: .

Для анализа полученной модели рассчитываем теоретические значения объясняемой переменной: .

Также найдем значение остатков: и минимальное значение остаточной суммы квадратов . Для этого составим вспомогательную таблицу:


№ наблюдения









1

17

16,5567

0,4433

0,1965

2

14

17,1489

-3,1489

9,9156

3

26

22,4791

3,5209

12,3967

4

27

27,8092

-0,8092

0,6548

5

27

33,1394

-6,1394

37,6922

6

35

35,5083

-0,5083

0,2584

7

18

18,3335

-0,3335

0,1112

8

22

21,2946

0,7054

0,4976

9

49

44,9841

4,0159

16,1275

10

12

9,7460

2,254

5,0805

Итого

247

247

0

82,9309


Остаточная сумма квадратов:

Вычислим несмещенные оценки дисперсий оценок:

,

.

Несмещенная оценка дисперсии ошибок наблюдений:

.

Для расчетов составим вспомогательную таблицу:

№ наблюдения





1

32

1024

2

33

1089

3

42

1764

4

51

2601

5

60

3600

6

64

4096

7

35

1225

8

40

1600

9

80

6400

10

20,5

420,25

Итого

457,5

23819,25

Таким образом, получаем:

,

.

.

3 этап: Оценка значимости коэффициентов регрессии
Оценка значимости коэффициентов регрессии при доверительной вероятности с помощью:

а) доверительных интервалов истинных значений параметров.

Для нахождения интервальных оценок полученных коэффициентов регрессии предварительно вычислим квантиль распределения Стьюдента:

.

,

.

Доверительный интервал для параметра :

,

.


Доверительный интервал для параметра :

,

.

Как мы видим, доверительный интервал для коэффициента регрессии не содержит нулевых значений, значит, коэффициент считается статистически значимым, доверительный интервал для параметра содержит 0, соответственно, он считается незначимым.
б) t-критерий Стьюдента

Проверяем гипотезу против альтернативной гипотезы , используя при этом статистику .

– наблюдаемое или экспериментальное значение t-статистики.

Критическая область двухсторонняя:



Гипотеза отвергается с вероятностью 0,95, следовательно, принимается гипотеза , так как , т. е. . Это означает, что параметр незначим.

Проверяем гипотезу против альтернативной гипотезы , используя при этом статистику .

– наблюдаемое или экспериментальное значение t-статистики.

Критическая область двухсторонняя:



Гипотеза отвергается с вероятностью 0,95, следовательно, принимается гипотеза , так как , т. е. . Это означает, что параметр – значим.
4 этап: Верификация модели
Пригодность построенной модели или ее верификация, а также качество оценивания регрессии может быть проверено двумя равноценными способами: дисперсионным анализом в регрессии и с использованием элементов теории корреляции.
а) Дисперсионный анализ в регрессии
Суть метода заключается в разложении общей суммарной дисперсии объема производства на составляющие, обусловленные действием численности работников, и остаточную дисперсию, обусловленную дисперсию, обусловленную ошибкой или всеми неучтенными в данной модели переменными.

Для проверки гипотезы о равенстве таких дисперсий используем критерий Фишера (F-критерий). Поскольку для оценок дисперсий используются суммы квадратов отклонений значений данной переменной от ее средней величины, то можно говорить о разложении общей суммы квадратов на составляющие.

Cреднее значение зависимой переменной составляет 24,7 млн. (средний объем производства в течение наблюдаемого периода). Для расчета сумм квадратов составим вспомогательную таблицу:


№ наблюдения









1

17

16,5567

59,29

66,3133

2

14

17,1489

114,49

57,0191

3

26

22,4791

1,69

4,9324

4

27

27,8092

5,29

9,6671

5

27

33,1394

5,29

71,2235

6

35

35,5083

106,09

116,8193

7

18

18,3335

44,89

40,5323

8

22

21,2946

7,29

11,5967

9

49

44,9841

590,49

411,4447

10

12

9,7460

161,29

223,6221

Итого

247

247

1096,10

1013,17


– величина, характеризующая разброс значений относительно среднего значения .

Разобьем эту сумму на две части: объясненную регрессионным уравнением и необъясненную (т. е. связанную с ошибками :

– сумма квадратов, объясненная регрессией,

– остаточная сумма квадратов, обусловленная ошибкой.

Проверка: (верно).

Найдем коэффициент детерминации:

.

Значение коэффициента детерминации близко к 1. Это означает, что 92,43 % общей вариации объема производства объясняется численностью работников.

При этом остальные 7,57 % приходятся на долю прочих факторов, не учтенных в уравнении регрессии.

К таким факторам можно отнести: объем основных и оборотных средств, спрос на продукцию, цену и т. д.

Далее при заданном уровне значимости проверяем гипотезу об отсутствии линейной функциональной связи между и , используя статистику критерия Фишера:

.

Число степеней свободы: .

Критическое значение: .

Результаты представлены в таблице:
Дисперсионный анализ одномерной регрессии

Источник дисперсии

Число степеней свободы

Сумма квадратов

Средний квадрат

1

Критерий Фишера



Критическая точка


Гипотеза


Регрессор x

1

1013,17

1013,17

97,7362


5,3177


Отклонить

Ошибка (остаток)

8

82,93

10,37

Общая дисперсия (итог)

9

1096,1





Критическая область правосторонняя:



Если при заданном уровне значимости наблюдаемое значение статистики больше критической точки , т.е. гипотеза отвергается, то есть линейная связь между и есть, и результаты наблюдений не противоречат предположению о ее линейности.

Полученную модель в целом можно считать пригодной для дальнейшего использования.
б) Использование элементов теории корреляции
Другой способ верификации линейной модели состоит в использовании элементов теории корреляции. Мерой линейной связи двух величин является коэффициент корреляции:

.
Проверка: (верно).

Значение коэффициента корреляции говорит о том, что линейная связь между численностью работников и объемом производства очень тесная и прямая, т.е. рост численности работников приводит к увеличению объема производства.

Проверяем гипотезу об отсутствии линейной связи между и с помощью критерия Стьюдента:

,

.

Критическая область двухсторонняя:



С вероятностью 0,95 гипотезу отвергаем, так как , т. е. . Это означает, что коэффициент корреляции статистически значим.
5 этап: Интерпретация полученных показателей
Таким образом, коэффициент является незначимым. Значение коэффициента регрессии говорит о том, что при увеличении численности работников на 1 человека, объем продукции увеличится на 0,592 млн. руб. или 592,2 тыс. рублей.

Найдем коэффициент эластичности для данной модели:

(полученное выражено в процентах)

Значение коэффициента эластичности приближенно показывает, что значение величины объема производства изменится на 1,097 % при изменении численности работников на 1% от среднего значения.
6 этап: Прогноз на основе линейной модели
Точечный прогноз: .

Допустим, прогнозное значение независимой переменной изменяется на от среднего значения. Тогда оптимистическое и пессимистическое значения и составят:

.

.

При этом объем продукции в оптимистическом случае составит:

млн. руб.,

в пессимистическом соответственно:

млн. руб.

Интервальный прогноз значения :

.

Дисперсия величины определяется по формуле:

.

Для исчисления дисперсии составим вспомогательную таблицу:


№ наблюдения





1

32

189,0625

2

33

162,5625

3

42

14,0625

4

51

27,5625

5

60

203,0625

6

64

333,0625

7

35

115,5625

8

40

33,0625

9

80

1173,0625

10

20,5

637,5625

Итого

457,5

2888,625


Необходимые для расчета значения:

,

,

,

.

Оптимистический интервальный прогноз при (численность работников увеличится на 10% от среднего уровня):

,

.

Пессимистический интервальный прогноз при (численность работников снизится на 10% от среднего уровня):

,

.
Графически наши прогнозы можно представить так:


С вероятностью 0,95 можно гарантировать, что в случае увеличения численности работников на 10% от среднего значения, объем продукции составит от 24,98 млн. руб. до 29,84 млн. руб.; в случае снижения численности работников на 10% от среднего показателя, объем продукции составит от 19,56 млн. руб. до 24,42 млн. руб.

Решение: 2 способ (с помощью функции «анализ - регрессия» пакета анализа MS Excel)


Проверка всех результатов расчетов проводилась с использованием функции «анализ данных-регрессия» пакета анализа MS Excel.

Все расчеты, приведенные ранее, подтвердились.


ВЫВОД ИТОГОВ:










Регрессионная статистика

Множественный R

0,961426032

R-квадрат

0,924340015

Нормированный R-квадрат

0,914882516

Стандартная ошибка

3,219683797

Наблюдения

10




Дисперсионный анализ
















 

df

SS

MS

F

Значимость F

Регрессия

1

1013,16909

1013,16909

97,73620857

9,24504E-06

Остаток

8

82,93091004

10,36636375







Итого

9

1096,1

 

 

 




 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-2,394833182

2,923692412

-0,819112562

0,436441924

-9,136879968

4,347213605

Численность рабочих, чел.

0,592236791

0,05990563

9,886162479

9,24504E-06

0,454094161

0,730379421




ВЫВОД ОСТАТКА
















Наблюдение

Предсказанное у (объем производства, млн. руб.)

Остатки

1

16,55674413

0,443255874

2

17,14898092

-3,148980917

3

22,47911203

3,520887966

4

27,80924315

-0,809243152

5

33,13937427

-6,13937427

6

35,50832143

-0,508321433

7

18,3334545

-0,333454498

8

21,29463845

0,705361547

9

44,98411009

4,015889913

10

9,746021031

2,253978969




1 – средние квадраты (от англ. mean of squares), которые дают несмещенные оценки соответствующих теоретических дисперсий.



написать администратору сайта