Главная страница
Навигация по странице:

  • 9. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ

  • Простая линейная регрессия

  • Проверка качества подгонки регрессионной модели к наблюдаемым данным

  • Проверка статистической значимости коэффициентов уравнения регрессии

  • .

  • Коэффициенты линейной модели уравнения регрессии

  • Решение с помощью MS Exel С помощью инструмента анализа данных Регрессия

  • Сервис/Анализ данных/Регрессия.

  • Миниобранауки россии


    Скачать 1.37 Mb.
    НазваниеМиниобранауки россии
    Дата05.06.2022
    Размер1.37 Mb.
    Формат файлаdoc
    Имя файлаMetodichkaTV_i_MS_2019.doc
    ТипКурсовая
    #571534
    страница8 из 9
    1   2   3   4   5   6   7   8   9

    ЗАДАНИЕ

    1. Сгенерировать 4 нормально распределенные переменные. Первые 3 переменные генерируется в соответствии с Вашим вариантом. При генерации четвертой переменной математическое ожидание увеличивается на 2, а стандартное отклонение не изменяется

    2. Проверить гипотезу

    3. Проверить гипотезу


    9. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ
    Задача регрессионного анализа состоит в применении статистических методов для описания взаимосвязей между случайными величинами (признаками) с помощью математических моделей и оценки параметров этих моделей на основе данных статистического наблюдения.

    Признаки разделяют на два класса: зависимые (результирующие) и независимые (факторные, предикторные, объясняющие), то есть те, от которых зависят результирующие.

    Для количественной оценки зависимости между результирующими и факторными признаками определяются структура математической модели (вид аппроксимирующей функции) и ее параметры (коэффициенты аппроксимирующей функции). Оценка параметров (коэффициентов) модели производится на основе данных статистического наблюдения по совокупности показателей исследуемой зависимости. При проведении эконометрического исследования предполагается, что значения результирующей переменной носят случайный характер, поскольку зависят не только от факторных переменных, но и от тех факторов, которые мы не учитываем явно.

    Обозначим: Y - зависимая переменная, а x1, x2,…,xj,…,xm – это m независимых (факторных) переменных. Здесь j – номер факторной переменной. Формально эконометрическая модель записывается следующим образом
    Y = f(x1, x2,…,xm) + ε. (1)

    Здесь f(x1, x2,…,xm) - аппроксимирующая функция m независимых переменных (детерминированная компонента), ε – случайная компонента, отражающая влияние факторов, не учтенных в модели. Уравнение вида y = f(x1, x2,…,xm) называется уравнением регрессии. Частным видом эконометрической модели вида (1) является модель множественной линейной регрессии

    Y = a0 + a1x1 + a2x2 + ... + amxm + ε

    Коэффициенты a1, a2, …, am называются параметрами уравнения регрессии. Пусть имеется n статистических наблюдений и i – номер наблюдения. Данные статистического наблюдения можно представить в виде таблицы, состоящей из n строк вида (yi, x1i, x2i,…,xji,…,xmi). На основе имеющихся статистических наблюдений можно подобрать параметры a1, a2, …, am таким образом, чтобы уравнение множественной линейной регрессии наилучшим образом описывало бы наблюдаемые данные. Значения параметров a1, a2, …, am, определенные тем или иным способом называются оценками. Зная оценки параметров, модели можно использовать далее для прогнозирования значений результирующих показателей при тех или иных сочетания значений факторных показателей. Используя регрессионные модели можно проводить многовариантные расчеты по принципу «что будет, если…?». Эти модели находят широкое применение при принятии ответственных решений на практике.

    Простая линейная регрессия

    Простая линейная регрессия используется для исследования зависимости двух переменных. Уравнение простой линейной регрессии можно записать в виде

    yi = a0 + a1xi + i(2)

    где 1,…n- независимые одинаково распределенные случайные величины, определяющие действие различных неучтенных факторов на изменение результирующего показателя Y.

    Для определения оценок параметров в уравнении (2) широко используется метод наименьших квадратов (МНК), суть которого заключается в следующем.

    Определим величину ei следующим образом:

    ei = yi – (a0 + a1xi).

    Величина ei называется отклонением (остатком) наблюдаемого значения результирующей переменной yi в i – ом наблюдении от расчетного. Отклонение ei является оценкой случайной компоненты i. По­строим оценку параметров (a0, a1) так, чтобы сумма их квадратов отклонений была минимальной:

    (3)

    Сумму минимимизируем по (a0, a1),приравнивая нулю соответствующие производные.В результате получим систему уравнений линейных относительно a0 и a1. Ее решение легко находится:

    (4) и (5)

    Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции ryx. Для линейной регрессии (-1≤ryx≤1)
    ryx = a1sx/sy

    sx = , sy = ,

    здесь sx и sy - стандартные (среднеквадратические) отклонения по x и y.
    Проверка качества подгонки регрессионной модели к наблюдаемым данным

    Качество построенной модели можно оценить с помощью коэффициента (индекса) детерминации:

    R2 = = ,

    где - выборочная дисперсия результирующего показателя y; - остаточная дисперсия, объясняемая случайной компонентой, - дисперсия, объясняемая регрессией. Чем больше значение этого показателя ( а оно изменяется от 0 до 1), тем лучше уравнение регрессии объясняет рассеяние наблюдаемых значений результирующего показателя y относительно средней величины, тем меньшее влияние на это рассеяние оказывают случайные факторы.

    Для оценки качества уравнения регрессии также используется показатель, связанный с индексом детерминации. Это показатель называется множественный коэффициент корреляции

    R = √ R2

    Для парной линейной регрессии R = ryx. Степень тесноты связи результирующей и факторных переменных можно оценить, используя шкалу Чеддока

    Значение R

    0,1 – 0,3

    0,3 – 0,5

    0,5 – 0,7

    0,7 – 0,9

    0,9 - 0,99

    Степень связи

    слабая

    умеренная

    заметная

    высокая

    очень высокая

    При значении R более 0,7 величина R2 будет более 50%. Это означает, что более 50% вариации результирующей переменной объясняется уравнением регрессии.
    Дисперсионный анализ

    Для определения статистической значимости показателя тесноты связи и существенности связи между результирующей и факторными переменными проводится дисперсионный анализ. Задача состоит в исследовании дисперсии результирующего показателя.

    Проверка гипотезы о существенности связи результирующей и факторных переменных в уравнения регрессии (статистической значимости множественного коэффициента корреляции) осуществляется с помощью F-критерия Фишера. Величина F-критерия связана с коэффициентом детерминации R2:

    .

    Проверка существенности связи в уравнения регрессии с помощью F-критерия проводится при условии нормальности распределения ошибки регрессии.

    Для проверки вычисляется F-статистика:



    где :



    Из таблиц распределения Фишера определяется критическое значение Fdf1,df2,α при заданном уровне значимости α и степенях свободы df1 = 1, df2 = n-2, где уровень значимости α – вероятность совершения ошибки первого рода.

    Если Fpасч> Fdf1,df2,α , то полученное значение множественного коэффициента корреляции можно считать статистически значимым. В противном случае полагаем R = 0, что свидетельствует об отсутствии линейной зависимости между результирующей и факторными переменными в уравнения регрессии

    В пакетах программ используется другой способ проверки гипотезы о существенности связи результирующей и факторных переменных в уравнения регрессии. Там автоматически рассчитывается p-уровень (pF),т.е. значение вероятности, соответствующее расчетному значению F-критерия.



    Если pF<α, то полученное значение множественного коэффициента корреляции можно считать статистически значимым. В противном случае полагаем R = 0, что свидетельствует об отсутствии линейной зависимости между результирующей и факторными переменными в уравнения регрессии. Чем меньше значение p-уровня, тем надежнее полученные оценки.
    Проверка статистической значимости коэффициентов уравнения регрессии

    При таком же предположении можно проверить гипотезы относительно каждого коэффициента с использованием t-статистики Стьюдента:

    a0, a1 – коэффициенты уравнения регрессии,

    r – коэффициент корреляции.

    t-статистика для коэффициента уравнения регрессии a0 ;

    t-статистика для коэффициента уравнения регрессии a1 ;

    t-статистика для коэффициента корреляции r – .

    Ma0, ma1, mr – стандартные ошибки.

    ; ; .

    Для проверки значимости этих коэффициентов необходимо сравнить полученные расчетные значения ta0, ta1, tr с табличным значением распределения Стьюдента с df степенями свободы при уровне значимости α, т.е. с tdf (df = n-2).

    Если расчетное значение по абсолютной величине больше табличного, то нулевая гипотеза H0

    Н0: a0 =0,

    Н0: a1 = 0,

    Н0: r = 0.

    отвергается и значение соответствующего коэффициента считается статистически значимым при данном уровне значимости α.

    Другой способ проверки заключается в сравнении p – уровня критерия Стьюдента (ptj) с уровнем значимости α. Если ptj<α, то полученное значение проверяемого коэффициента уравнения регрессии можно считать статистически значимым.

    Связь между F-критерием Фишера и t – статистикой Стьюдента выражается равенством:

    .

    Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равна проверке гипотезы о существенности связи между переменными (результирующей и факторными) в уравнении регрессии.

    Качество уравнения регрессии можно также оценить с помощью средней ошибки аппроксимации


    Множественная регрессия
    Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Уравнение линейной регрессии . В экономике широко используется степенная функция вида: . Эта функция используется для изучения спроса и потребления, для построения производственной функции, где y – выпуск, а x – факторы производства и др.

    Коэффициенты линейной модели уравнения регрессии называются коэффициентами чистой регрессии. В случае полинома коэффициенты характеризуют среднее изменение результата, при изменении соответствующего фактора на одну единицу и при неизменной величине остальных факторов.

    В степенной функции коэффициенты чистой регрессии показывают, на сколько процентов изменится результат, при изменении соответствующего фактора на один процент и при фиксированном значении остальных факторов. Они играют роль коэффициентов эластичности.

    Решение уравнения регрессии находится с помощью метода наименьших квадратов. Анализ полученного решения заключается в проверке полученного уравнения регрессии путем расчета коэффициента множественной детерминации:



    и F – статистики:

    .

    Если известен коэффициент детерминации R2, то F – статистка может быть рассчитана следующим образом:



    Рассчитанное значение сравнивается с табличным Fdf1,df2,α ( ), где m – число независимых переменных, n – число наблюдений. Либо для расчетного значения F – статистики определяется p – уровень, который сравнивается с уровнем значимости α, так как это было описано в предыдущем разделе.

    Недостатком коэффициента детерминации является то, что он увеличивается при добавлении новых переменных, хотя это и не обязательно означает улучшения качества регрессионной модели. Поэтому лучше пользоваться скорректированным коэффициентом детерминации, который определяется по формуле:


    Проверка значимости коэффициентов регрессии аналогична проверке коэффициентов парной регрессии и сводится к вычислению значения статистики

    ,

    где - среднеквадратическая ошибка коэффициента регрессии aj и сравнении ее с критическим значением. Альтернативой является вычисление p – уровня критерия Стьюдента (ptj) для каждого коэффициента aj и сравнение его с уровнем значимости α так, как это было описано выше.
    Уравнение регрессии может быть преобразовано к стандартизованному масштабу

    , где j – номер переменной.

    Значения коэффициентов j можно определить из уравнения:

    ,

    где - коэффициенты взаимной корреляции между xk и xj.

    Основное достоинство стандартизованного уравнения регрессии в том, что - коэффициенты позволяют ранжировать факторы по степени их воздействия на результат. Чем больше значение - коэффициента, тем больший вклад вносит соответствующая факторная переменная в значение результирующей.

    Коэффициенты чистой регрессии bj связаны со стандартизованными коэффициентами j соотношением



    Решение с помощью MS Exel

    С помощью инструмента анализа данных Регрессия, помимо результатов регрессионной статистики, дисперсионного анализа и доверительных интервалов, можно получить остатки и графики подбора линии регрессии, остатков и нормальной вероятности. Порядок действия следующий:

      • в главном меню выберите Сервис/Анализ данных/Регрессия. Щелкните по кнопке OK;

      • заполните диалоговое окно ввода данных и параметров вывода. Щелкните по кнопке OK;

    Пример использования инструмента Регрессия приведен в файле Пример.xls

    Исходные данные

    596

    913

    417

    1095

    354

    606

    526

    876

    934

    1314

    412

    593

    525

    754

    367

    528

    364

    520

    336

    539

    409

    540

    452

    682

    367

    537

    328

    589

    460

    626

    380

    521

    439

    626

    344

    521

    401

    658

    514

    746







    СрЗначY

    СрЗначX

    446,25

    689,2

    СтОтклY

    СтОтклY

    136,1179

    212,9822


    Две последние строки содержат выборочные средние значения и выборочные стандартные отклонения sx, sy, рассчитанные с помощью функции СТАНДОТКЛ.
    Исходные данные вводятся в окно ввода (рис.1).



    Рис 1. Окно Ввода

    Результаты расчета приведены ниже. Здесь:

    Множественный R - R

    R-квадрат - R2

    Нормированный R-квадрат -

    Значимость F - pF

    Коэффициенты - значения коэффициентов (оценки)

    Y-пересечение - a0

    Переменная X1 – a1

    P-Значение - ptj

    Предсказанное Y -

    Остатки


    ВЫВОД ИТОГОВ







    Регрессионная статистика

    Множественный R

    0,840977

    R-квадрат

    0,707243

    Нормированный R-квадрат

    0,690979

    Стандартная ошибка

    75,66752

    Наблюдения

    20




    Дисперсионный анализ













     

    df

    SS

    MS

    F

    Значимость F




    Регрессия

    1

    248973,4

    248973,4

    43,48445

    3,42E-06




    Остаток

    18

    103060,3

    5725,573










    Итого

    19

    352033,8

     

     

     







     

    Коэффициенты

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижние 95%

    Верхние 95%

    Y-пересечение

    75,82389

    58,66674

    1,292451

    0,212547

    -47,4303

    199,0781

    Переменная X 1

    0,537473

    0,081506

    6,594274

    3,42E-06

    0,366235

    0,70871

























    ВЫВОД ОСТАТКА













    Наблюдение

    Предсказанное Y

    Остатки

    1

    566,5364

    29,46363

    2

    664,3564

    -247,356

    3

    401,5323

    -47,5323

    4

    546,6499

    -20,6499

    5

    782,0629

    151,9371

    6

    394,5451

    17,45486

    7

    481,0782

    43,92178

    8

    359,6094

    7,390582

    9

    355,3096

    8,690363

    10

    365,5216

    -29,5216

    11

    366,0591

    42,94091

    12

    442,3802

    9,619803

    13

    364,4467

    2,553329

    14

    392,3952

    -64,3952

    15

    412,2817

    47,71827

    16

    355,8471

    24,15289

    17

    412,2817

    26,71827

    18

    355,8471

    -11,8471

    19

    429,4809

    -28,4809

    20

    476,7784

    37,22156


    График подбора содержит наблюдаемые и предсказанные значения, иллюстрирует размах отклонений рассчитанных значений от наблюдаемых для переменной Y.

    График нормального распределения используется для визуальной проверки выполнения условий Маркова-Гаусса


    1   2   3   4   5   6   7   8   9


    написать администратору сайта