Лабораторная по линейной регрессии (оформление). Парная линейная регрессия

Название	Парная линейная регрессия
Анкор	klirQez
Дата	28.03.2023
Размер	114.37 Kb.
Формат файла
Имя файла	Лабораторная по линейной регрессии (оформление).docx
Тип	Документы #1020682

Тема: Парная линейная регрессия

Лабораторная №1

Имеются исходные данные (10 наблюдений):

Объем производства, млн. руб.	17	14	26	27	27	35	18	22	49	12
Численность рабочих, чел.	32	33	42	51	60	64	35	40	80	20,5

Необходимо определить, какой из заданных показателей является зависимой переменной, а какой – независимой. Построить поле корреляции. Найти точечные и интервальные оценки параметров модели

. Оценить значимость коэффициентов регрессии, используя t-критерий Стьюдента и доверительные интервалы истинных значений параметров. Верифицировать полученную модель, используя дисперсионный анализ в регрессии и элементы теории корреляции. Интерпретировать полученные результаты. Сделать прогноз на основе модели.

Решение: 1 способ (ручной)

1 этап: Спецификация модели.
Определим, какой из заданных показателей будет зависимой переменной, а какой независимой. Так как труд является одним из факторов производства (экономическая теория), то численность работников обозначим в качестве независимой переменной

, а объем производства –

.

Чтобы определить характер зависимости, построим поле корреляции:

Следующим шагом наносим на поле корреляции прямую

Из графика видно, что точки распределены практически однородно относительно прямой, поэтому можно сказать, что условие гомоскедастичности выполняется.
2 этап: Построение модели.
Найдем оценки параметров модели

помощью метода наименьших квадратов (МНК). Оценки параметров модели находятся из условия:

.

Тогда:

.

Построим вспомогательную таблицу для расчетов:

№ наблюдения
1	32	17	-7,7	-13,75	189,063	105,875
2	33	14	-10,7	-12,75	162,563	136,425
3	42	26	1,3	-3,75	14,0625	-4,875
4	51	27	2,3	5,25	27,5625	12,075
5	60	27	2,3	14,25	203,063	32,775
6	64	35	10,3	18,25	333,063	187,975
7	35	18	-6,7	-10,75	115,563	72,025
8	40	22	-2,7	-5,75	33,0625	15,525
9	80	49	24,3	34,25	1173,06	832,275
10	20,5	12	-12,7	-25,25	637,563	320,675
Итого	457,5	247	0	0	2888,625	1710,75

.

Коэффициенты совпадают с уравнением на диаграмме.

При этом уравнение модели напишем в виде:

.

Для анализа полученной модели рассчитываем теоретические значения объясняемой переменной:

.

Также найдем значение остатков:

и минимальное значение остаточной суммы квадратов

. Для этого составим вспомогательную таблицу:

№ наблюдения
1	17	16,5567	0,4433	0,1965
2	14	17,1489	-3,1489	9,9156
3	26	22,4791	3,5209	12,3967
4	27	27,8092	-0,8092	0,6548
5	27	33,1394	-6,1394	37,6922
6	35	35,5083	-0,5083	0,2584
7	18	18,3335	-0,3335	0,1112
8	22	21,2946	0,7054	0,4976
9	49	44,9841	4,0159	16,1275
10	12	9,7460	2,254	5,0805
Итого	247	247	0	82,9309

Остаточная сумма квадратов:

Вычислим несмещенные оценки дисперсий оценок:

.

Несмещенная оценка дисперсии ошибок наблюдений:

.

Для расчетов составим вспомогательную таблицу:

№ наблюдения
1	32	1024
2	33	1089
3	42	1764
4	51	2601
5	60	3600
6	64	4096
7	35	1225
8	40	1600
9	80	6400
10	20,5	420,25
Итого	457,5	23819,25

Таким образом, получаем:

.

3 этап: Оценка значимости коэффициентов регрессии
Оценка значимости коэффициентов регрессии при доверительной вероятности

с помощью:

а) доверительных интервалов истинных значений параметров.

Для нахождения интервальных оценок полученных коэффициентов регрессии предварительно вычислим квантиль распределения Стьюдента:

.

Доверительный интервал для параметра

Доверительный интервал для параметра

Как мы видим, доверительный интервал для коэффициента регрессии

не содержит нулевых значений, значит, коэффициент считается статистически значимым, доверительный интервал для параметра

содержит 0, соответственно, он считается незначимым.
б) t-критерий Стьюдента

Проверяем гипотезу

против альтернативной гипотезы

, используя при этом статистику

– наблюдаемое или экспериментальное значение t-статистики.

Критическая область двухсторонняя:

Гипотеза

отвергается с вероятностью 0,95, следовательно, принимается гипотеза

, так как

, т. е.

. Это означает, что параметр

незначим.

Проверяем гипотезу

против альтернативной гипотезы

, используя при этом статистику

– наблюдаемое или экспериментальное значение t-статистики.

Критическая область двухсторонняя:

Гипотеза

отвергается с вероятностью 0,95, следовательно, принимается гипотеза

, так как

, т. е.

. Это означает, что параметр

– значим.
4 этап: Верификация модели
Пригодность построенной модели

или ее верификация, а также качество оценивания регрессии может быть проверено двумя равноценными способами: дисперсионным анализом в регрессии и с использованием элементов теории корреляции.
а) Дисперсионный анализ в регрессии
Суть метода заключается в разложении общей суммарной дисперсии объема производства на составляющие, обусловленные действием численности работников, и остаточную дисперсию, обусловленную дисперсию, обусловленную ошибкой или всеми неучтенными в данной модели переменными.

Для проверки гипотезы о равенстве таких дисперсий используем критерий Фишера (F-критерий). Поскольку для оценок дисперсий используются суммы квадратов

отклонений значений данной переменной от ее средней величины, то можно говорить о разложении общей суммы квадратов

на составляющие.

Cреднее значение

зависимой переменной

составляет 24,7 млн. (средний объем производства в течение наблюдаемого периода). Для расчета сумм квадратов составим вспомогательную таблицу:

№ наблюдения
1	17	16,5567	59,29	66,3133
2	14	17,1489	114,49	57,0191
3	26	22,4791	1,69	4,9324
4	27	27,8092	5,29	9,6671
5	27	33,1394	5,29	71,2235
6	35	35,5083	106,09	116,8193
7	18	18,3335	44,89	40,5323
8	22	21,2946	7,29	11,5967
9	49	44,9841	590,49	411,4447
10	12	9,7460	161,29	223,6221
Итого	247	247	1096,10	1013,17

– величина, характеризующая разброс значений

относительно среднего значения

.

Разобьем эту сумму на две части: объясненную регрессионным уравнением и необъясненную (т. е. связанную с ошибками

– сумма квадратов, объясненная регрессией,

– остаточная сумма квадратов, обусловленная ошибкой.

Проверка:

(верно).

Найдем коэффициент детерминации:

.

Значение коэффициента детерминации близко к 1. Это означает, что 92,43 % общей вариации объема производства объясняется численностью работников.

При этом остальные 7,57 % приходятся на долю прочих факторов, не учтенных в уравнении регрессии.

К таким факторам можно отнести: объем основных и оборотных средств, спрос на продукцию, цену и т. д.

Далее при заданном уровне значимости

проверяем гипотезу об отсутствии линейной функциональной связи между

, используя статистику критерия Фишера:

.

Число степеней свободы:

.

Критическое значение:

.

Результаты представлены в таблице:
Дисперсионный анализ одномерной регрессии

Источник дисперсии	Число степеней свободы	Сумма квадратов	Средний квадрат ¹	Критерий Фишера	Критическая точка	Гипотеза
Регрессор x	1	1013,17	1013,17	97,7362	5,3177	Отклонить
Ошибка (остаток)	8	82,93	10,37
Общая дисперсия (итог)	9	1096,1

Критическая область правосторонняя:

Если при заданном уровне значимости

наблюдаемое значение

статистики больше критической точки

, т.е. гипотеза

отвергается, то есть линейная связь между

есть, и результаты наблюдений не противоречат предположению о ее линейности.

Полученную модель

в целом можно считать пригодной для дальнейшего использования.
б) Использование элементов теории корреляции
Другой способ верификации линейной модели состоит в использовании элементов теории корреляции. Мерой линейной связи двух величин является коэффициент корреляции:

.
Проверка:

(верно).

Значение коэффициента корреляции говорит о том, что линейная связь между численностью работников и объемом производства очень тесная и прямая, т.е. рост численности работников приводит к увеличению объема производства.

Проверяем гипотезу об отсутствии линейной связи между

с помощью критерия Стьюдента:

.

Критическая область двухсторонняя:

С вероятностью 0,95 гипотезу

отвергаем, так как

, т. е.

. Это означает, что коэффициент корреляции статистически значим.
5 этап: Интерпретация полученных показателей
Таким образом, коэффициент

является незначимым. Значение коэффициента регрессии

говорит о том, что при увеличении численности работников на 1 человека, объем продукции увеличится на 0,592 млн. руб. или 592,2 тыс. рублей.

Найдем коэффициент эластичности для данной модели:

(полученное выражено в процентах)

Значение коэффициента эластичности приближенно показывает, что значение величины объема производства изменится на 1,097 % при изменении численности работников на 1% от среднего значения.
6 этап: Прогноз на основе линейной модели
Точечный прогноз:

.

Допустим, прогнозное значение независимой переменной изменяется на

от среднего значения. Тогда оптимистическое и пессимистическое значения

составят:

.

При этом объем продукции в оптимистическом случае составит:

млн. руб.,

в пессимистическом соответственно:

млн. руб.

Интервальный прогноз значения

.

Дисперсия величины

определяется по формуле:

.

Для исчисления дисперсии составим вспомогательную таблицу:

№ наблюдения
1	32	189,0625
2	33	162,5625
3	42	14,0625
4	51	27,5625
5	60	203,0625
6	64	333,0625
7	35	115,5625
8	40	33,0625
9	80	1173,0625
10	20,5	637,5625
Итого	457,5	2888,625

Необходимые для расчета значения:

.

Оптимистический интервальный прогноз при

(численность работников увеличится на 10% от среднего уровня):

.

Пессимистический интервальный прогноз при

(численность работников снизится на 10% от среднего уровня):

.
Графически наши прогнозы можно представить так:

С вероятностью 0,95 можно гарантировать, что в случае увеличения численности работников на 10% от среднего значения, объем продукции составит от 24,98 млн. руб. до 29,84 млн. руб.; в случае снижения численности работников на 10% от среднего показателя, объем продукции составит от 19,56 млн. руб. до 24,42 млн. руб.

Решение: 2 способ (с помощью функции «анализ - регрессия» пакета анализа MS Excel)

Проверка всех результатов расчетов проводилась с использованием функции «анализ данных-регрессия» пакета анализа MS Excel.

Все расчеты, приведенные ранее, подтвердились.

ВЫВОД ИТОГОВ:

Регрессионная статистика
Множественный R	0,961426032
R-квадрат	0,924340015
Нормированный R-квадрат	0,914882516
Стандартная ошибка	3,219683797
Наблюдения	10

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	1013,16909	1013,16909	97,73620857	9,24504E-06
Остаток	8	82,93091004	10,36636375
Итого	9	1096,1

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	-2,394833182	2,923692412	-0,819112562	0,436441924	-9,136879968	4,347213605
Численность рабочих, чел.	0,592236791	0,05990563	9,886162479	9,24504E-06	0,454094161	0,730379421

ВЫВОД ОСТАТКА

Наблюдение	Предсказанное у (объем производства, млн. руб.)	Остатки
1	16,55674413	0,443255874
2	17,14898092	-3,148980917
3	22,47911203	3,520887966
4	27,80924315	-0,809243152
5	33,13937427	-6,13937427
6	35,50832143	-0,508321433
7	18,3334545	-0,333454498
8	21,29463845	0,705361547
9	44,98411009	4,015889913
10	9,746021031	2,253978969

– средние квадраты (от англ. mean of squares), которые дают несмещенные оценки соответствующих теоретических дисперсий.