Главная страница
Навигация по странице:

  • Лабораторные работы №№ 1,2 Вариант № 5 Выполнила: студентка ___курса группы Проверил: Киев 2014Содержание

  • Лабораторная работа 1. Линейная регрессия с двумя переменными

  • задачей проверки гипотез

  • Правило проверки гипотез

  • Вывод

  • Проверка допущения о линейности

  • Параметры_регрессии

  • Проверка постоянства дисперсии

  • Проверка зависимости ошибок друг от друга

  • Эконометрика КПИ _вар 5. Лабораторная работа Линейная регрессия с двумя переменными 3 Лабораторная работа Множественная регрессия 16


    Скачать 478 Kb.
    НазваниеЛабораторная работа Линейная регрессия с двумя переменными 3 Лабораторная работа Множественная регрессия 16
    Дата03.01.2022
    Размер478 Kb.
    Формат файлаdoc
    Имя файлаЭконометрика КПИ _вар 5.doc
    ТипЛабораторная работа
    #323315
    страница1 из 2
      1   2



    Министерство образования и науки Украины

    Национальный технический университет Украины

    «Киевский политехнический институт»

    Учебно-научный комплекс «Институт прикладного системного анализа»


    Лабораторные работы №№ 1,2

    Вариант № 5

    Выполнила: студентка ___курса
    группы
    Проверил:

    Киев 2014

    Содержание


    Лабораторная работа 1. Линейная регрессия с двумя переменными 3

    Лабораторная работа 2. Множественная регрессия 16

    Список использованной литературы 20



    Лабораторная работа 1. Линейная регрессия с двумя переменными



    Постановка задачи
    Имеем данные о стоимости автомобиля (тыс. долларов) в зависимости от мощности мотора (США, 2002). MSRP = manufacturer's suggested retail price (2002 model year). horse = horsepower.

    horse

    MSRP

    160

    25525

    394

    70545

    215

    26995

    320

    68665

    181

    17494

    270

    31660

    165

    23420

    150

    21960

    194

    26094

    236

    46750

    125

    13023

    240

    32860

    345

    53000

    275

    39647

    125

    16905

    285

    36728

    130

    16975

    130

    16985

    157

    25980

    140

    17570

    210

    35135

    190

    24825

    240

    39915

    130

    18695

    141

    14999

    Требуется:

    • Провести анализ регрессии и построить линию регрессии (линию прогноза).

    • Построить доверительные интервалы прогноза для среднего значения Y.

    • Провести проверку модели регрессии.

    Замечание: Значение t* принять равным 2.07.
    Выполнение работы


    1. Копируем в Excel свой вариант. Называем книгу Расчеты_вар5.xls и сохраняем ее.

    2. Вычисление параметров регрессии «вручную», т.е., не используя «Пакет анализа»

    Используя входные данные, построим точечную диаграмму и линию регрессии:

    1. Задаем: Вставка-Диаграмма

    2. В появившемся окне выбираем Точечная и нажимаем кнопку Готово.

    3. Кликаем правой мышкой по полю диаграммы и в выпавшем меню выбираем Исходные данные

    4. В появившемся окне выбираем опцию столбцах. Нажимаем Ряд.

    5. В окне Ряд нажимаем Добавить и заполняем окно, после чего нажимаем ОК.

    6. Появляется диаграмма.

    7. Ставим мышку на одну из точек диаграммы. Нажимаем правую кнопку мышки. В выпавшем окне выбираем Добавить линию тренда.

    8. В выпавшем окне выбираем Линейная, а затем нажимаем кнопку Параметры.

    Окончательно получаем:



    Рис.1 Построение точечной диаграммы и линии регрессии
    R2 = 0,8105 - как видим, информативность модели по отношению к данным не очень высокая, поскольку полученное значение коэффициента детерминации достаточно далеко от единицы.

    Уравнение регрессии имеет вид: , где b - коэффициент наклона, a - коэффициент сдвига, которые вычисляются по формулам:

    , .

    Для нахождения коэффициентов регрессии вычислим все необходимые параметры выборки:

    • Среднее значение (по переменным X)

    = 205,92

    • Среднее значение (по переменным Y)

    =30494

    Вычисляем стандартное отклонение выборки X и стандартное отклонение выборки Y:

    =15,03

    =3128,88

    Найдём коэффициент корреляции: =0.925.

    Видим, что значение коэффициента корреляции достаточно велико. Это говорит о высокой степени зависимости стоимости автомобиля от мощности мотора.

    Теперь можно вычислить коэффициенты наклона b и сдвига a регрессии :

    = 192,66

    = -9177,57

    Найдём коэффициент детерминации (R-квадрат).

    =r2 = 0,9252 = 0,856.

     Запишем полученное уравнение регрессии:



    Видим, что полученные , и того же порядка, что выводятся на точечной диаграмме (Рис.1).

    Стандартную ошибку находим по формуле:

    =1213,181

    Стандартную ошибку коэффициента наклона b находим по формуле:

    = 16,481.

    Значение t -статистики находим по формуле:

    = 11,689.

    Критическое значение t* находится по таблице t-распределения для двухстороннего интервала при доверительной вероятности 95% и степени свободы n-2 = 25-2 = 23. t*-критическое=2,07 (задано по условию)

    Заполним второй столбец таблицы:

     

    Ручной счет

    Автоматический счет

    b=

    192,66

     

    a=

    -9177,57

     

    R^2

    0,856

     

    Se

    1213,181

     

    Sb

    16,481

     

    Xсредн

    295,92

     

    n=

    25

     

    t-статистика=

    11,689

     

    t*-статистика=

    2,07

     


    3. Автоматический расчет параметров регрессии, используя «Пакет анализа».

    С помощью пакета «Анализ данных » строим отчет Excel:

    1. Задаем: Сервис-Анализ Данных.

    2. В диалоговом окне выбираем Регрессия.

    3. В поле Входной интервал Y вводим диапазон ячеек C2:C27.

    4. В поле Входной интервал X вводим диапазон ячеек B2:B27.

    5. Поскольку первые ячейки содержат текстовые подписи, установим флажок Метки.

    6. Выбираем переключатель Новый рабочий лист и вводим строку Параметры_регрессии.

    7. В разделе Остатки устанавливаем флажки всех четырех параметров.

    8. Нажимаем ОК.



    Получаем:


    Рис.2 Результат выполнения команды Регрессия

    Коэффициенты регрессии b и a, стандартное отклонение коэффициента b, значение t- статистики находим из таблицы (см. рис.3):


    Рис. 3. Таблица 3. Результат выполнения команды Регрессии

    Коэффициент детерминации , стандартную ошибку оценки и значение числа переменных n находим из таблицы 1 Регрессионная статистика (см. Рис.4):



    Рис.4 Таблица 1. Регрессионная статистика

    Выборочное среднее Xсредн определяем с помощью функции СРЗНАЧ(): Xсредн = 205,92.

    Значение t*-критическое находится по таблице t-распределения для 95% доверительного интервала при n-2 = 25-2 = 23 свободы.

    У нас t*-критическое=2,07 (задано по условию)

    Заполним третий столбец таблицы:

     

    Ручной счет

    Автоматический счет

    b=

    192,66

    192,66

    a=

    -9177,57

    -9177,57

    R^2

    0,856

    0,856

    Se

    1213,181

    6065,904

    Sb

    16,481

    16,481

    Xсредн

    295,92

    295,92

    n=

    25

    25

    t-статистика=

    11,689

    11,689

    t*-статистика=

    2,07

    2,07


    Из таблицы видим, что вычисления, полученные при ручном и автоматическом расчете, совпадают (кроме значения Se). То есть можно говорить о правильности полученных значений.

    4. Проверка того, является ли связь между   и   реальной или случайной

    Запишем полученное уравнение регрессии (линия прогнозирования):

    (1)

    Задача проверки состоит в том, является ли взаимосвязь (1) чистой случайностью или отражает реальную связь между X и Y. Эта задача называется задачей проверки гипотез.

    Нулевая гипотеза утверждает, что между X и Y никакой взаимосвязи нет и что выявленная нами взаимосвязь в данных — не что иное, как продукт случайного сочетания определенных пар значений X и Y. Единственный вариант, когда в рамках линейной модели Y не зависит от X имеет место лишь тогда, когда . В этом случае можно также сказать что X и Y независимы друг от друга.

    Альтернативная гипотеза утверждает, что между X и Y действительно существует взаимосвязь, которая не является случайностью. Это возможно тогда, когда , т.е. в линейной модели для Y сохраняется составляющая, зависящая от X. Математическая запись этих гипотез имеет следующий вид.



    Используем:

    Правило проверки гипотез. Если то нулевая гипотеза отвергается и принимается альтернативная гипотеза .
    В нашем случае t = 11,689 и t* = 2,07 - следовательно, нулевая гипотеза отвергается. Принимается альтернативная гипотеза: с вероятностью 95% можно утверждать, что между Y и X существует реальная взаимосвязь ( ).

    В таблице 2 (дисперсионный анализ) Значимость F = 3,72416E-11 < 0,05 – следовательно, нулевая гипотеза отвергаетсяи принимается альтернативная гипотеза , которая говорит о том, что связь между X и Y действительно существует.

    В таблице 3 P-Значение = 3,72416E-11 < 0,05 следовательно нулевая гипотеза отвергаетсяи принимается альтернативная гипотеза .

    5. Построение доверительных интервалов для линии регрессии
    Формула стандартного (среднего) значения Y при заданном значении Xo:

    На листе Прогноз введем заглавия новых пяти столбцов и для удобства перекопируем Таблицу 1 как значения .

    2. В ячейку D2вносим формулу .

    3. В ячейку E2 вносим формулу стандартного (среднего) значения Y при заданном значении Xo

    .

    1. В ячейку F2 вносим (т.е. вычисляем корень квадратный из ячейки E2).

    2. В ячейку G2 вносим нижнюю границу доверительного интервала



    1. В ячейку H2 вносим верхнюю границу доверительного интервала



    1. Выделяем ячейки D2-H2 и протягиваем до конца таблицы.

    Результат представлен в таблице:

    horse - X

    MSRP - Y

    bX+a

    S(Y|X)^2

    S(Y|X)

    Интервал нижний=

    Интервал верхний=

    160

    25525

    21648

    5076909

    2253,2

    16983,906

    26312,1535

    394

    70545

    66730,5

    2671804

    1634,57

    63346,92

    70114,0203

    215

    26995

    32244,3

    1837475

    1355,53

    29438,373

    35050,2871

    320

    68665

    52473,6

    216372

    465,158

    51510,753

    53436,5075

    181

    17494

    25693,9

    3646095

    1909,48

    21741,277

    29646,5034

    270

    31660

    42840,6

    241362

    491,286

    41823,669

    43857,5911

    165

    23420

    22611,3

    4714509

    2171,29

    18116,755

    27105,9046

    150

    21960

    19721,4

    5842453

    2417,12

    14717,999

    24724,8613

    194

    26094

    28198,5

    2880411

    1697,18

    24685,313

    31711,6269

    236

    46750

    36290,2

    1034111

    1016,91

    34185,182

    38395,1984

    125

    13023

    14904,9

    7993981

    2827,36

    9052,2887

    20757,5713

    240

    32860

    37060,8

    908251

    953,022

    35088,074

    39033,5858

    345

    53000

    57290,1

    713171

    844,495

    55542,026

    59038,234

    275

    39647

    43803,9

    177747

    421,601

    42931,216

    44676,6438

    125

    16905

    14904,9

    7993981

    2827,36

    9052,2887

    20757,5713

    285

    36728

    45730,5

    91262,4

    302,097

    45105,19

    46355,8702

    130

    16975

    15868,2

    7536513

    2745,27

    10185,519

    21550,9411

    130

    16985

    15868,2

    7536513

    2745,27

    10185,519

    21550,9411

    157

    25980

    21070,1

    5300868

    2302,36

    16304,162

    25835,9381

    140

    17570

    17794,8

    6662320

    2581,15

    12451,855

    23137,8045

    210

    35135

    31281

    2064063

    1436,68

    28307,093

    34254,9673

    190

    24825

    27427,8

    3106227

    1762,45

    23779,56

    31076,1

    240

    39915

    37060,8

    908251

    953,022

    35088,074

    39033,5858

    130

    18695

    15868,2

    7536513

    2745,27

    10185,519

    21550,9411

    141

    14999

    17987,5

    6577889

    2564,74

    12678,479

    23296,5009


    Таблица данных для построения доверительных интервалов

    Из таблицы видно, что прогнозируемое значение MSRP попадает в границы доверительного интервала (то есть находится между нижним и верхним его значением).

    Нанесём доверительные интервалы на исходную диаграмму (см. рис. 1):


    Рис.5 Линия регрессии и 95% доверительный интервал для прогнозных значений

    Вывод: С вероятностью 95% можно утверждать, что прогнозируемые значения MSRP будут лежать в построенном интервале.
    Проверка модели регрессии

    При анализе регрессии для заданного набора данных применимы следующие допущения:

    • справедлива линейная модель;

    • ошибка имеет нормальное распределение со средним 0;

    • ошибка имеет постоянную дисперсию;

    • ошибки не зависят друг от друга.


    Для проверки справедливости этих допущений выполним ряд диагностических тестов.

    Проверка допущения о линейности

    Исходя из построенной точечной диаграммы, можно увидеть, что точки на ней примерно соответствуют линии регрессии.

    Проверка соответствия остатков нормальному распределению

    Чтобы убедиться в том, что остатки удовлетворяют нормальному распределению, используем модуль StatPlus.

    Запускаем программу StatPlus.

    1. Возвращаемся к рабочему листу Параметры_регрессии, копируем его и вставляем как лист StatPlus.

    2. Выбираем команду меню Статистика-Проверка нормальности.

    3. Указываем диапазон ячеек С25:С49 и щелкаем на кнопке ОК.

    4. Щелкаем на кнопке ОК.

    Получаем:



    Нормальное распределение остатков подтверждается.

    Проверка постоянства дисперсии

    Диаграмма horse_График_Остатков уже имеется на листе Параметры_регрессии.

    Для лучшей обозримости переместим этот файл на отдельный лист Остатки horse.

    Получаем:


    Рис. 7. Диаграмма остатков как функция horse

    Как видно из диаграммы, дисперсия остатков различна и лишь приближенно можно считать, что поверка модели по этому критерию успешна.

    Проверка зависимости ошибок друг от друга

    Для определения степени корреляции ошибок модели между собой используем статистику Дарбина-Уотсона, которая вычисляется по формуле:



    Находим значения остатков (Лист Регрессия), нужные суммы и получаем: DW=2,52.

    Как видим, остатки между собой независимы, поскольку статистика  .

    Выводы по работе:

    В ходе выполнения данной работы был проведён анализ регрессии и построена линия регрессии (линия прогноза), а также доверительные интервалы прогноза для среднего значения Y и сделана проверка модели регрессии. Вычисление параметров регрессии производилось «вручную», т.е. не используя «Пакет анализа» и автоматически (с использованием «Пакета анализа»). Результаты, полученные при ручном и автоматическом расчете, совпали, что говорит о правильности вычислений.

    Полученные коэффициенты регрессии: b=192,66; a = -9177,57.

    Уравнение регрессии:

    Коэффициент детерминации: = 0,856 – то есть, информативность модели по отношению к данным не очень высокая, поскольку значение  далеко от единицы.

    Также была сделана проверка того, является ли связь между   и   реальной или случайной (с помощью механизма проверки гипотез). В результате выяснилось, что с вероятностью 95% можно утверждать, что между Y и X существует реальная взаимосвязь.

    Были вычислены нижние и верхние границы доверительного интервала и сделан вывод, что с вероятностью 95% прогнозируемые значения MSRP находятся в построенном интервале.

    При проверке модели регрессии был проведён ряд диагностических тестов, а именно: проверка допущения о линейности, проверка соответствия остатков нормальному распределению, проверка постоянства дисперсии, проверка зависимости ошибок друг от друга. Были получены такие выводы: модель в первом приближении можно считать линейной, остатки модели имеют нормальное распределение, дисперсия остатков различна и лишь приближенно можно считать, что поверка модели по этому критерию успешна. Также можно говорить об независимости ошибок друг от друга, поскольку значение статистики Дарбина-Уотсона приближается к идеальному значению.

      1   2


    написать администратору сайта