Лабораторная №1
Имеются исходные данные (10 наблюдений):
Объем производства, млн. руб.
| 17
| 14
| 26
| 27
| 27
| 35
| 18
| 22
| 49
| 12
| Численность рабочих, чел.
| 32
| 33
| 42
| 51
| 60
| 64
| 35
| 40
| 80
| 20,5
|
Необходимо определить, какой из заданных показателей является зависимой переменной, а какой – независимой. Построить поле корреляции. Найти точечные и интервальные оценки параметров модели . Оценить значимость коэффициентов регрессии, используя t-критерий Стьюдента и доверительные интервалы истинных значений параметров. Верифицировать полученную модель, используя дисперсионный анализ в регрессии и элементы теории корреляции. Интерпретировать полученные результаты. Сделать прогноз на основе модели.
Решение: 1 способ (ручной) 1 этап: Спецификация модели. Определим, какой из заданных показателей будет зависимой переменной, а какой независимой. Так как труд является одним из факторов производства (экономическая теория), то численность работников обозначим в качестве независимой переменной , а объем производства – .
Чтобы определить характер зависимости, построим поле корреляции:
Следующим шагом наносим на поле корреляции прямую :
Из графика видно, что точки распределены практически однородно относительно прямой, поэтому можно сказать, что условие гомоскедастичности выполняется. 2 этап: Построение модели. Найдем оценки параметров модели помощью метода наименьших квадратов (МНК). Оценки параметров модели находятся из условия:
.
Тогда:
,
,
,
.
Построим вспомогательную таблицу для расчетов:
№ наблюдения
|
|
|
|
|
|
| 1
| 32
| 17
| -7,7
| -13,75
| 189,063
| 105,875
| 2
| 33
| 14
| -10,7
| -12,75
| 162,563
| 136,425
| 3
| 42
| 26
| 1,3
| -3,75
| 14,0625
| -4,875
| 4
| 51
| 27
| 2,3
| 5,25
| 27,5625
| 12,075
| 5
| 60
| 27
| 2,3
| 14,25
| 203,063
| 32,775
| 6
| 64
| 35
| 10,3
| 18,25
| 333,063
| 187,975
| 7
| 35
| 18
| -6,7
| -10,75
| 115,563
| 72,025
| 8
| 40
| 22
| -2,7
| -5,75
| 33,0625
| 15,525
| 9
| 80
| 49
| 24,3
| 34,25
| 1173,06
| 832,275
| 10
| 20,5
| 12
| -12,7
| -25,25
| 637,563
| 320,675
| Итого
| 457,5
| 247
| 0
| 0
| 2888,625
| 1710,75
|
,
,
,
.
Коэффициенты совпадают с уравнением на диаграмме.
При этом уравнение модели напишем в виде: .
Для анализа полученной модели рассчитываем теоретические значения объясняемой переменной: .
Также найдем значение остатков: и минимальное значение остаточной суммы квадратов . Для этого составим вспомогательную таблицу:
№ наблюдения
|
|
|
|
| 1
| 17
| 16,5567
| 0,4433
| 0,1965
| 2
| 14
| 17,1489
| -3,1489
| 9,9156
| 3
| 26
| 22,4791
| 3,5209
| 12,3967
| 4
| 27
| 27,8092
| -0,8092
| 0,6548
| 5
| 27
| 33,1394
| -6,1394
| 37,6922
| 6
| 35
| 35,5083
| -0,5083
| 0,2584
| 7
| 18
| 18,3335
| -0,3335
| 0,1112
| 8
| 22
| 21,2946
| 0,7054
| 0,4976
| 9
| 49
| 44,9841
| 4,0159
| 16,1275
| 10
| 12
| 9,7460
| 2,254
| 5,0805
| Итого
| 247
| 247
| 0
| 82,9309
|
Остаточная сумма квадратов:
Вычислим несмещенные оценки дисперсий оценок:
,
.
Несмещенная оценка дисперсии ошибок наблюдений:
.
Для расчетов составим вспомогательную таблицу:
№ наблюдения
|
|
| 1
| 32
| 1024
| 2
| 33
| 1089
| 3
| 42
| 1764
| 4
| 51
| 2601
| 5
| 60
| 3600
| 6
| 64
| 4096
| 7
| 35
| 1225
| 8
| 40
| 1600
| 9
| 80
| 6400
| 10
| 20,5
| 420,25
| Итого
| 457,5
| 23819,25
| Таким образом, получаем:
,
.
.
3 этап: Оценка значимости коэффициентов регрессии Оценка значимости коэффициентов регрессии при доверительной вероятности с помощью:
а) доверительных интервалов истинных значений параметров.
Для нахождения интервальных оценок полученных коэффициентов регрессии предварительно вычислим квантиль распределения Стьюдента:
.
,
.
Доверительный интервал для параметра :
,
.
Доверительный интервал для параметра :
,
.
Как мы видим, доверительный интервал для коэффициента регрессии не содержит нулевых значений, значит, коэффициент считается статистически значимым, доверительный интервал для параметра содержит 0, соответственно, он считается незначимым. б) t-критерий Стьюдента
Проверяем гипотезу против альтернативной гипотезы , используя при этом статистику .
– наблюдаемое или экспериментальное значение t-статистики.
Критическая область двухсторонняя:
Гипотеза отвергается с вероятностью 0,95, следовательно, принимается гипотеза , так как , т. е. . Это означает, что параметр незначим.
Проверяем гипотезу против альтернативной гипотезы , используя при этом статистику .
– наблюдаемое или экспериментальное значение t-статистики.
Критическая область двухсторонняя:
Гипотеза отвергается с вероятностью 0,95, следовательно, принимается гипотеза , так как , т. е. . Это означает, что параметр – значим. 4 этап: Верификация модели Пригодность построенной модели или ее верификация, а также качество оценивания регрессии может быть проверено двумя равноценными способами: дисперсионным анализом в регрессии и с использованием элементов теории корреляции. а) Дисперсионный анализ в регрессии Суть метода заключается в разложении общей суммарной дисперсии объема производства на составляющие, обусловленные действием численности работников, и остаточную дисперсию, обусловленную дисперсию, обусловленную ошибкой или всеми неучтенными в данной модели переменными.
Для проверки гипотезы о равенстве таких дисперсий используем критерий Фишера (F-критерий). Поскольку для оценок дисперсий используются суммы квадратов отклонений значений данной переменной от ее средней величины, то можно говорить о разложении общей суммы квадратов на составляющие.
Cреднее значение зависимой переменной составляет 24,7 млн. (средний объем производства в течение наблюдаемого периода). Для расчета сумм квадратов составим вспомогательную таблицу:
№ наблюдения
|
|
|
|
| 1
| 17
| 16,5567
| 59,29
| 66,3133
| 2
| 14
| 17,1489
| 114,49
| 57,0191
| 3
| 26
| 22,4791
| 1,69
| 4,9324
| 4
| 27
| 27,8092
| 5,29
| 9,6671
| 5
| 27
| 33,1394
| 5,29
| 71,2235
| 6
| 35
| 35,5083
| 106,09
| 116,8193
| 7
| 18
| 18,3335
| 44,89
| 40,5323
| 8
| 22
| 21,2946
| 7,29
| 11,5967
| 9
| 49
| 44,9841
| 590,49
| 411,4447
| 10
| 12
| 9,7460
| 161,29
| 223,6221
| Итого
| 247
| 247
| 1096,10
| 1013,17
|
– величина, характеризующая разброс значений относительно среднего значения .
Разобьем эту сумму на две части: объясненную регрессионным уравнением и необъясненную (т. е. связанную с ошибками :
– сумма квадратов, объясненная регрессией,
– остаточная сумма квадратов, обусловленная ошибкой.
Проверка: (верно).
Найдем коэффициент детерминации:
.
Значение коэффициента детерминации близко к 1. Это означает, что 92,43 % общей вариации объема производства объясняется численностью работников.
При этом остальные 7,57 % приходятся на долю прочих факторов, не учтенных в уравнении регрессии.
К таким факторам можно отнести: объем основных и оборотных средств, спрос на продукцию, цену и т. д.
Далее при заданном уровне значимости проверяем гипотезу об отсутствии линейной функциональной связи между и , используя статистику критерия Фишера:
.
Число степеней свободы: .
Критическое значение: .
Результаты представлены в таблице: Дисперсионный анализ одномерной регрессии
Источник дисперсии
| Число степеней свободы
| Сумма квадратов
| Средний квадрат
1
| Критерий Фишера
| Критическая точка
| Гипотеза
| Регрессор x
| 1
| 1013,17
| 1013,17
| 97,7362
| 5,3177
| Отклонить
| Ошибка (остаток)
| 8
| 82,93
| 10,37
| Общая дисперсия (итог)
| 9
| 1096,1
|
|
Критическая область правосторонняя:
Если при заданном уровне значимости наблюдаемое значение статистики больше критической точки , т.е. гипотеза отвергается, то есть линейная связь между и есть, и результаты наблюдений не противоречат предположению о ее линейности.
Полученную модель в целом можно считать пригодной для дальнейшего использования. б) Использование элементов теории корреляции Другой способ верификации линейной модели состоит в использовании элементов теории корреляции. Мерой линейной связи двух величин является коэффициент корреляции:
. Проверка: (верно).
Значение коэффициента корреляции говорит о том, что линейная связь между численностью работников и объемом производства очень тесная и прямая, т.е. рост численности работников приводит к увеличению объема производства.
Проверяем гипотезу об отсутствии линейной связи между и с помощью критерия Стьюдента:
,
.
Критическая область двухсторонняя:
С вероятностью 0,95 гипотезу отвергаем, так как , т. е. . Это означает, что коэффициент корреляции статистически значим. 5 этап: Интерпретация полученных показателей Таким образом, коэффициент является незначимым. Значение коэффициента регрессии говорит о том, что при увеличении численности работников на 1 человека, объем продукции увеличится на 0,592 млн. руб. или 592,2 тыс. рублей.
Найдем коэффициент эластичности для данной модели:
(полученное выражено в процентах)
Значение коэффициента эластичности приближенно показывает, что значение величины объема производства изменится на 1,097 % при изменении численности работников на 1% от среднего значения. 6 этап: Прогноз на основе линейной модели Точечный прогноз: .
Допустим, прогнозное значение независимой переменной изменяется на от среднего значения. Тогда оптимистическое и пессимистическое значения и составят:
.
.
При этом объем продукции в оптимистическом случае составит:
млн. руб.,
в пессимистическом соответственно:
млн. руб.
Интервальный прогноз значения :
.
Дисперсия величины определяется по формуле:
.
Для исчисления дисперсии составим вспомогательную таблицу:
№ наблюдения
|
|
| 1
| 32
| 189,0625
| 2
| 33
| 162,5625
| 3
| 42
| 14,0625
| 4
| 51
| 27,5625
| 5
| 60
| 203,0625
| 6
| 64
| 333,0625
| 7
| 35
| 115,5625
| 8
| 40
| 33,0625
| 9
| 80
| 1173,0625
| 10
| 20,5
| 637,5625
| Итого
| 457,5
| 2888,625
|
Необходимые для расчета значения:
,
,
,
.
Оптимистический интервальный прогноз при (численность работников увеличится на 10% от среднего уровня):
,
.
Пессимистический интервальный прогноз при (численность работников снизится на 10% от среднего уровня):
,
. Графически наши прогнозы можно представить так:
С вероятностью 0,95 можно гарантировать, что в случае увеличения численности работников на 10% от среднего значения, объем продукции составит от 24,98 млн. руб. до 29,84 млн. руб.; в случае снижения численности работников на 10% от среднего показателя, объем продукции составит от 19,56 млн. руб. до 24,42 млн. руб.
Решение: 2 способ (с помощью функции «анализ - регрессия» пакета анализа MS Excel) Проверка всех результатов расчетов проводилась с использованием функции «анализ данных-регрессия» пакета анализа MS Excel.
Все расчеты, приведенные ранее, подтвердились.
ВЫВОД ИТОГОВ:
|
|
|
| Регрессионная статистика
| Множественный R
| 0,961426032
| R-квадрат
| 0,924340015
| Нормированный R-квадрат
| 0,914882516
| Стандартная ошибка
| 3,219683797
| Наблюдения
| 10
|
Дисперсионный анализ
|
|
|
|
|
|
| df
| SS
| MS
| F
| Значимость F
| Регрессия
| 1
| 1013,16909
| 1013,16909
| 97,73620857
| 9,24504E-06
| Остаток
| 8
| 82,93091004
| 10,36636375
|
|
| Итого
| 9
| 1096,1
|
|
|
|
| Коэффициенты
| Стандартная ошибка
| t-статистика
| P-Значение
| Нижние 95%
| Верхние 95%
| Y-пересечение
| -2,394833182
| 2,923692412
| -0,819112562
| 0,436441924
| -9,136879968
| 4,347213605
| Численность рабочих, чел.
| 0,592236791
| 0,05990563
| 9,886162479
| 9,24504E-06
| 0,454094161
| 0,730379421
|
ВЫВОД ОСТАТКА
|
|
|
|
|
| Наблюдение
| Предсказанное у (объем производства, млн. руб.)
| Остатки
| 1
| 16,55674413
| 0,443255874
| 2
| 17,14898092
| -3,148980917
| 3
| 22,47911203
| 3,520887966
| 4
| 27,80924315
| -0,809243152
| 5
| 33,13937427
| -6,13937427
| 6
| 35,50832143
| -0,508321433
| 7
| 18,3334545
| -0,333454498
| 8
| 21,29463845
| 0,705361547
| 9
| 44,98411009
| 4,015889913
| 10
| 9,746021031
| 2,253978969
|
1 ![](1020682_html_475e64dd3e651210.gif) – средние квадраты (от англ. mean of squares), которые дают несмещенные оценки соответствующих теоретических дисперсий. |