Эконометрика КПИ _вар 5. Лабораторная работа Линейная регрессия с двумя переменными 3 Лабораторная работа Множественная регрессия 16
Скачать 478 Kb.
|
1 2 Министерство образования и науки Украины Национальный технический университет Украины «Киевский политехнический институт» Учебно-научный комплекс «Институт прикладного системного анализа» Лабораторные работы №№ 1,2 Вариант № 5 Выполнила: студентка ___курса группы Проверил: Киев 2014 Содержание Лабораторная работа 1. Линейная регрессия с двумя переменными 3 Лабораторная работа 2. Множественная регрессия 16 Список использованной литературы 20 Лабораторная работа 1. Линейная регрессия с двумя переменнымиПостановка задачи Имеем данные о стоимости автомобиля (тыс. долларов) в зависимости от мощности мотора (США, 2002). MSRP = manufacturer's suggested retail price (2002 model year). horse = horsepower.
Требуется: Провести анализ регрессии и построить линию регрессии (линию прогноза). Построить доверительные интервалы прогноза для среднего значения Y. Провести проверку модели регрессии. Замечание: Значение t* принять равным 2.07. Выполнение работы Копируем в Excel свой вариант. Называем книгу Расчеты_вар5.xls и сохраняем ее. 2. Вычисление параметров регрессии «вручную», т.е., не используя «Пакет анализа» Используя входные данные, построим точечную диаграмму и линию регрессии: Задаем: Вставка-Диаграмма В появившемся окне выбираем Точечная и нажимаем кнопку Готово. Кликаем правой мышкой по полю диаграммы и в выпавшем меню выбираем Исходные данные В появившемся окне выбираем опцию столбцах. Нажимаем Ряд. В окне Ряд нажимаем Добавить и заполняем окно, после чего нажимаем ОК. Появляется диаграмма. Ставим мышку на одну из точек диаграммы. Нажимаем правую кнопку мышки. В выпавшем окне выбираем Добавить линию тренда. В выпавшем окне выбираем Линейная, а затем нажимаем кнопку Параметры. Окончательно получаем: Рис.1 Построение точечной диаграммы и линии регрессии R2 = 0,8105 - как видим, информативность модели по отношению к данным не очень высокая, поскольку полученное значение коэффициента детерминации достаточно далеко от единицы. Уравнение регрессии имеет вид: , где b - коэффициент наклона, a - коэффициент сдвига, которые вычисляются по формулам: , . Для нахождения коэффициентов регрессии вычислим все необходимые параметры выборки: Среднее значение (по переменным X) = 205,92 Среднее значение (по переменным Y) =30494 Вычисляем стандартное отклонение выборки X и стандартное отклонение выборки Y: =15,03 =3128,88 Найдём коэффициент корреляции: =0.925. Видим, что значение коэффициента корреляции достаточно велико. Это говорит о высокой степени зависимости стоимости автомобиля от мощности мотора. Теперь можно вычислить коэффициенты наклона b и сдвига a регрессии : = 192,66 = -9177,57 Найдём коэффициент детерминации (R-квадрат). =r2 = 0,9252 = 0,856. Запишем полученное уравнение регрессии: Видим, что полученные , и того же порядка, что выводятся на точечной диаграмме (Рис.1). Стандартную ошибку находим по формуле: =1213,181 Стандартную ошибку коэффициента наклона b находим по формуле: = 16,481. Значение t -статистики находим по формуле: = 11,689. Критическое значение t* находится по таблице t-распределения для двухстороннего интервала при доверительной вероятности 95% и степени свободы n-2 = 25-2 = 23. t*-критическое=2,07 (задано по условию) Заполним второй столбец таблицы:
3. Автоматический расчет параметров регрессии, используя «Пакет анализа». С помощью пакета «Анализ данных » строим отчет Excel: Задаем: Сервис-Анализ Данных. В диалоговом окне выбираем Регрессия. В поле Входной интервал Y вводим диапазон ячеек C2:C27. В поле Входной интервал X вводим диапазон ячеек B2:B27. Поскольку первые ячейки содержат текстовые подписи, установим флажок Метки. Выбираем переключатель Новый рабочий лист и вводим строку Параметры_регрессии. В разделе Остатки устанавливаем флажки всех четырех параметров. Нажимаем ОК. Получаем: Рис.2 Результат выполнения команды Регрессия Коэффициенты регрессии b и a, стандартное отклонение коэффициента b, значение t- статистики находим из таблицы (см. рис.3): Рис. 3. Таблица 3. Результат выполнения команды Регрессии Коэффициент детерминации , стандартную ошибку оценки и значение числа переменных n находим из таблицы 1 Регрессионная статистика (см. Рис.4): Рис.4 Таблица 1. Регрессионная статистика Выборочное среднее Xсредн определяем с помощью функции СРЗНАЧ(): Xсредн = 205,92. Значение t*-критическое находится по таблице t-распределения для 95% доверительного интервала при n-2 = 25-2 = 23 свободы. У нас t*-критическое=2,07 (задано по условию) Заполним третий столбец таблицы:
Из таблицы видим, что вычисления, полученные при ручном и автоматическом расчете, совпадают (кроме значения Se). То есть можно говорить о правильности полученных значений. 4. Проверка того, является ли связь между и реальной или случайной Запишем полученное уравнение регрессии (линия прогнозирования): (1) Задача проверки состоит в том, является ли взаимосвязь (1) чистой случайностью или отражает реальную связь между X и Y. Эта задача называется задачей проверки гипотез. Нулевая гипотеза утверждает, что между X и Y никакой взаимосвязи нет и что выявленная нами взаимосвязь в данных — не что иное, как продукт случайного сочетания определенных пар значений X и Y. Единственный вариант, когда в рамках линейной модели Y не зависит от X имеет место лишь тогда, когда . В этом случае можно также сказать что X и Y независимы друг от друга. Альтернативная гипотеза утверждает, что между X и Y действительно существует взаимосвязь, которая не является случайностью. Это возможно тогда, когда , т.е. в линейной модели для Y сохраняется составляющая, зависящая от X. Математическая запись этих гипотез имеет следующий вид. Используем: Правило проверки гипотез. Если то нулевая гипотеза отвергается и принимается альтернативная гипотеза . В нашем случае t = 11,689 и t* = 2,07 - следовательно, нулевая гипотеза отвергается. Принимается альтернативная гипотеза: с вероятностью 95% можно утверждать, что между Y и X существует реальная взаимосвязь ( ). В таблице 2 (дисперсионный анализ) Значимость F = 3,72416E-11 < 0,05 – следовательно, нулевая гипотеза отвергаетсяи принимается альтернативная гипотеза , которая говорит о том, что связь между X и Y действительно существует. В таблице 3 P-Значение = 3,72416E-11 < 0,05 следовательно нулевая гипотеза отвергаетсяи принимается альтернативная гипотеза . 5. Построение доверительных интервалов для линии регрессии Формула стандартного (среднего) значения Y при заданном значении Xo: На листе Прогноз введем заглавия новых пяти столбцов и для удобства перекопируем Таблицу 1 как значения . 2. В ячейку D2вносим формулу . 3. В ячейку E2 вносим формулу стандартного (среднего) значения Y при заданном значении Xo . В ячейку F2 вносим (т.е. вычисляем корень квадратный из ячейки E2). В ячейку G2 вносим нижнюю границу доверительного интервала В ячейку H2 вносим верхнюю границу доверительного интервала Выделяем ячейки D2-H2 и протягиваем до конца таблицы. Результат представлен в таблице:
Таблица данных для построения доверительных интервалов Из таблицы видно, что прогнозируемое значение MSRP попадает в границы доверительного интервала (то есть находится между нижним и верхним его значением). Нанесём доверительные интервалы на исходную диаграмму (см. рис. 1): Рис.5 Линия регрессии и 95% доверительный интервал для прогнозных значений Вывод: С вероятностью 95% можно утверждать, что прогнозируемые значения MSRP будут лежать в построенном интервале. Проверка модели регрессии При анализе регрессии для заданного набора данных применимы следующие допущения: справедлива линейная модель; ошибка имеет нормальное распределение со средним 0; ошибка имеет постоянную дисперсию; ошибки не зависят друг от друга. Для проверки справедливости этих допущений выполним ряд диагностических тестов. Проверка допущения о линейности Исходя из построенной точечной диаграммы, можно увидеть, что точки на ней примерно соответствуют линии регрессии. Проверка соответствия остатков нормальному распределению Чтобы убедиться в том, что остатки удовлетворяют нормальному распределению, используем модуль StatPlus. Запускаем программу StatPlus. 1. Возвращаемся к рабочему листу Параметры_регрессии, копируем его и вставляем как лист StatPlus. 2. Выбираем команду меню Статистика-Проверка нормальности. 3. Указываем диапазон ячеек С25:С49 и щелкаем на кнопке ОК. 4. Щелкаем на кнопке ОК. Получаем: Нормальное распределение остатков подтверждается. Проверка постоянства дисперсии Диаграмма horse_График_Остатков уже имеется на листе Параметры_регрессии. Для лучшей обозримости переместим этот файл на отдельный лист Остатки horse. Получаем: Рис. 7. Диаграмма остатков как функция horse Как видно из диаграммы, дисперсия остатков различна и лишь приближенно можно считать, что поверка модели по этому критерию успешна. Проверка зависимости ошибок друг от друга Для определения степени корреляции ошибок модели между собой используем статистику Дарбина-Уотсона, которая вычисляется по формуле: Находим значения остатков (Лист Регрессия), нужные суммы и получаем: DW=2,52. Как видим, остатки между собой независимы, поскольку статистика . Выводы по работе: В ходе выполнения данной работы был проведён анализ регрессии и построена линия регрессии (линия прогноза), а также доверительные интервалы прогноза для среднего значения Y и сделана проверка модели регрессии. Вычисление параметров регрессии производилось «вручную», т.е. не используя «Пакет анализа» и автоматически (с использованием «Пакета анализа»). Результаты, полученные при ручном и автоматическом расчете, совпали, что говорит о правильности вычислений. Полученные коэффициенты регрессии: b=192,66; a = -9177,57. Уравнение регрессии: Коэффициент детерминации: = 0,856 – то есть, информативность модели по отношению к данным не очень высокая, поскольку значение далеко от единицы. Также была сделана проверка того, является ли связь между и реальной или случайной (с помощью механизма проверки гипотез). В результате выяснилось, что с вероятностью 95% можно утверждать, что между Y и X существует реальная взаимосвязь. Были вычислены нижние и верхние границы доверительного интервала и сделан вывод, что с вероятностью 95% прогнозируемые значения MSRP находятся в построенном интервале. При проверке модели регрессии был проведён ряд диагностических тестов, а именно: проверка допущения о линейности, проверка соответствия остатков нормальному распределению, проверка постоянства дисперсии, проверка зависимости ошибок друг от друга. Были получены такие выводы: модель в первом приближении можно считать линейной, остатки модели имеют нормальное распределение, дисперсия остатков различна и лишь приближенно можно считать, что поверка модели по этому критерию успешна. Также можно говорить об независимости ошибок друг от друга, поскольку значение статистики Дарбина-Уотсона приближается к идеальному значению. 1 2 |