Лабораторная по линейной регрессии (оформление). Парная линейная регрессия
Скачать 114.37 Kb.
|
Тема: Парная линейная регрессияЛабораторная №1Имеются исходные данные (10 наблюдений):
Необходимо определить, какой из заданных показателей является зависимой переменной, а какой – независимой. Построить поле корреляции. Найти точечные и интервальные оценки параметров модели . Оценить значимость коэффициентов регрессии, используя t-критерий Стьюдента и доверительные интервалы истинных значений параметров. Верифицировать полученную модель, используя дисперсионный анализ в регрессии и элементы теории корреляции. Интерпретировать полученные результаты. Сделать прогноз на основе модели. Решение: 1 способ (ручной)1 этап: Спецификация модели. Определим, какой из заданных показателей будет зависимой переменной, а какой независимой. Так как труд является одним из факторов производства (экономическая теория), то численность работников обозначим в качестве независимой переменной , а объем производства – . Чтобы определить характер зависимости, построим поле корреляции: Следующим шагом наносим на поле корреляции прямую : Из графика видно, что точки распределены практически однородно относительно прямой, поэтому можно сказать, что условие гомоскедастичности выполняется. 2 этап: Построение модели. Найдем оценки параметров модели помощью метода наименьших квадратов (МНК). Оценки параметров модели находятся из условия: . Тогда: , , , . Построим вспомогательную таблицу для расчетов:
, , , . Коэффициенты совпадают с уравнением на диаграмме. При этом уравнение модели напишем в виде: . Для анализа полученной модели рассчитываем теоретические значения объясняемой переменной: . Также найдем значение остатков: и минимальное значение остаточной суммы квадратов . Для этого составим вспомогательную таблицу:
Остаточная сумма квадратов: Вычислим несмещенные оценки дисперсий оценок: , . Несмещенная оценка дисперсии ошибок наблюдений: . Для расчетов составим вспомогательную таблицу:
Таким образом, получаем: , . . 3 этап: Оценка значимости коэффициентов регрессии Оценка значимости коэффициентов регрессии при доверительной вероятности с помощью: а) доверительных интервалов истинных значений параметров. Для нахождения интервальных оценок полученных коэффициентов регрессии предварительно вычислим квантиль распределения Стьюдента: . , . Доверительный интервал для параметра : , . Доверительный интервал для параметра : , . Как мы видим, доверительный интервал для коэффициента регрессии не содержит нулевых значений, значит, коэффициент считается статистически значимым, доверительный интервал для параметра содержит 0, соответственно, он считается незначимым. б) t-критерий Стьюдента Проверяем гипотезу против альтернативной гипотезы , используя при этом статистику . – наблюдаемое или экспериментальное значение t-статистики. Критическая область двухсторонняя: Гипотеза отвергается с вероятностью 0,95, следовательно, принимается гипотеза , так как , т. е. . Это означает, что параметр незначим. Проверяем гипотезу против альтернативной гипотезы , используя при этом статистику . – наблюдаемое или экспериментальное значение t-статистики. Критическая область двухсторонняя: Гипотеза отвергается с вероятностью 0,95, следовательно, принимается гипотеза , так как , т. е. . Это означает, что параметр – значим. 4 этап: Верификация модели Пригодность построенной модели или ее верификация, а также качество оценивания регрессии может быть проверено двумя равноценными способами: дисперсионным анализом в регрессии и с использованием элементов теории корреляции. а) Дисперсионный анализ в регрессии Суть метода заключается в разложении общей суммарной дисперсии объема производства на составляющие, обусловленные действием численности работников, и остаточную дисперсию, обусловленную дисперсию, обусловленную ошибкой или всеми неучтенными в данной модели переменными. Для проверки гипотезы о равенстве таких дисперсий используем критерий Фишера (F-критерий). Поскольку для оценок дисперсий используются суммы квадратов отклонений значений данной переменной от ее средней величины, то можно говорить о разложении общей суммы квадратов на составляющие. Cреднее значение зависимой переменной составляет 24,7 млн. (средний объем производства в течение наблюдаемого периода). Для расчета сумм квадратов составим вспомогательную таблицу:
– величина, характеризующая разброс значений относительно среднего значения . Разобьем эту сумму на две части: объясненную регрессионным уравнением и необъясненную (т. е. связанную с ошибками : – сумма квадратов, объясненная регрессией, – остаточная сумма квадратов, обусловленная ошибкой. Проверка: (верно). Найдем коэффициент детерминации: . Значение коэффициента детерминации близко к 1. Это означает, что 92,43 % общей вариации объема производства объясняется численностью работников. При этом остальные 7,57 % приходятся на долю прочих факторов, не учтенных в уравнении регрессии. К таким факторам можно отнести: объем основных и оборотных средств, спрос на продукцию, цену и т. д. Далее при заданном уровне значимости проверяем гипотезу об отсутствии линейной функциональной связи между и , используя статистику критерия Фишера: . Число степеней свободы: . Критическое значение: . Результаты представлены в таблице: Дисперсионный анализ одномерной регрессии
Критическая область правосторонняя: Если при заданном уровне значимости наблюдаемое значение статистики больше критической точки , т.е. гипотеза отвергается, то есть линейная связь между и есть, и результаты наблюдений не противоречат предположению о ее линейности. Полученную модель в целом можно считать пригодной для дальнейшего использования. б) Использование элементов теории корреляции Другой способ верификации линейной модели состоит в использовании элементов теории корреляции. Мерой линейной связи двух величин является коэффициент корреляции: . Проверка: (верно). Значение коэффициента корреляции говорит о том, что линейная связь между численностью работников и объемом производства очень тесная и прямая, т.е. рост численности работников приводит к увеличению объема производства. Проверяем гипотезу об отсутствии линейной связи между и с помощью критерия Стьюдента: , . Критическая область двухсторонняя: С вероятностью 0,95 гипотезу отвергаем, так как , т. е. . Это означает, что коэффициент корреляции статистически значим. 5 этап: Интерпретация полученных показателей Таким образом, коэффициент является незначимым. Значение коэффициента регрессии говорит о том, что при увеличении численности работников на 1 человека, объем продукции увеличится на 0,592 млн. руб. или 592,2 тыс. рублей. Найдем коэффициент эластичности для данной модели: (полученное выражено в процентах) Значение коэффициента эластичности приближенно показывает, что значение величины объема производства изменится на 1,097 % при изменении численности работников на 1% от среднего значения. 6 этап: Прогноз на основе линейной модели Точечный прогноз: . Допустим, прогнозное значение независимой переменной изменяется на от среднего значения. Тогда оптимистическое и пессимистическое значения и составят: . . При этом объем продукции в оптимистическом случае составит: млн. руб., в пессимистическом соответственно: млн. руб. Интервальный прогноз значения : . Дисперсия величины определяется по формуле: . Для исчисления дисперсии составим вспомогательную таблицу:
Необходимые для расчета значения: , , , . Оптимистический интервальный прогноз при (численность работников увеличится на 10% от среднего уровня): , . Пессимистический интервальный прогноз при (численность работников снизится на 10% от среднего уровня): , . Графически наши прогнозы можно представить так: С вероятностью 0,95 можно гарантировать, что в случае увеличения численности работников на 10% от среднего значения, объем продукции составит от 24,98 млн. руб. до 29,84 млн. руб.; в случае снижения численности работников на 10% от среднего показателя, объем продукции составит от 19,56 млн. руб. до 24,42 млн. руб. Решение: 2 способ (с помощью функции «анализ - регрессия» пакета анализа MS Excel)Проверка всех результатов расчетов проводилась с использованием функции «анализ данных-регрессия» пакета анализа MS Excel. Все расчеты, приведенные ранее, подтвердились.
1 – средние квадраты (от англ. mean of squares), которые дают несмещенные оценки соответствующих теоретических дисперсий. |