Главная страница
Навигация по странице:

  • 4.4. Построение уравнения парной регрессии

  • 4.4.1. Статистический анализ модели

  • 4.4.2. Оценка качества построенной модели

  • Характеристики точности

  • Проверка адекватности модели

  • Мет[1].указ. Новикова В.В. РТА. Мет[1].указ. Новикова В.В. Методические указания по выполнению семестрового домашнего задания по дисциплине Статистика Раздел Общая теория статистики


    Скачать 3.2 Mb.
    НазваниеМетодические указания по выполнению семестрового домашнего задания по дисциплине Статистика Раздел Общая теория статистики
    АнкорМет[1].указ. Новикова В.В. РТА.docx
    Дата02.09.2018
    Размер3.2 Mb.
    Формат файлаdocx
    Имя файлаМет[1].указ. Новикова В.В. РТА.docx
    ТипМетодические указания
    #23945
    страница21 из 22
    1   ...   14   15   16   17   18   19   20   21   22

    4.3. Оценка степени взаимной согласованности между суммой

    внешнеторгового оборота фирм и величиной таможенных платежей в бюджет с помощью линейного коэффициента корреляции, проверка его значимости и возможности использования линейной функции в качестве формы уравнения

    Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции (); при любой форме зависимости (линейной и криволинейной) - эмпирическое корреляционное отношение ()).

    Для расчета линейного коэффициента корреляции можно использовать формулу:

    , (50)

    где — среднее значение произведения факторного и результативного признаков;

    - средние значения факторного и результативного признаков;

    n— число единиц в совокупности;

    — средние квадратические отклонения соответственно признака - фактора и результативного признака.

    Оценка существенности линейного коэффициента корреляции при большом объеме выборки (свыше 500) проводится с использованием отношения коэффициента корреляции () к его средней квадратической ошибке ():

    , (51)

    где . (52)

    Если это отношение окажется больше критического значения t-критерия Стьюдента, определяемого по формуле СТЬЮДЕНТ.ОБР.2X(0,95;46) при числе степеней свободы к = п -p - 2 и с вероятностью (1 — ), то следует говорить о существенности коэффициента корреляции (— уровень значимости 0,01 или 0,05; p-количество факторных признаков).

    При недостаточно большом объеме выборки величину средней квадратической ошибки коэффициента корреляции определяют по формуле

    . (53)

    В этом случае . (54)

    Полученная величина сравнивается с критическим значением t-критерия Стьюдента ().

    В тех случаях, когда получен по данным малой выборки и близок к единице (> 0,8), для построения доверительного интервала коэффициент корреляции преобразуют в величину , имеющую приблизительно нормальное распределение и рассчитываемую по формуле

    (55)

    Данное выражение имеет название «z – преобразование Фишера».

    Интервальная оценка для z определяется из выражения

    (56)

    где - табулированые значения для стандартного нормального распределения, зависимые от . На основе обратного преобразования Фишера определяется интервальная оценка линейного коэффициента корреляции.

    Приведем реализацию изложенного алгоритма.

    • по формуле ФИШЕР() – вычисляется значение ;

    • по формулам

    2,196-НОРМСТОБР((0,95+1)/2)*КОРЕНЬ(1/45)=1,904 и

    2,196+НОРМСТОБР((0,95+1)/2)*КОРЕНЬ(1/45)=2,489 рассчитываются интервальные оценки z;

    • по формулам ФИШЕРОБР(1,904)=0,957 и ФИШЕРОБР(2,489)=0,986 находим обратные преобразования Фишера.

    Таким образом, с вероятностью 0,95 линейный коэффициент корреляции заключен в интервале от 0,957 до 0,986.

    Средняя квадратическая ошибка Z'-распределения зависит только от объема выборки и определяется по формуле:

    . (57)

    Если соотношение Z' к средней квадратической ошибке (Z': =14,42) окажется больше критического значения критерия Стьюдента при определенном уровне значимости, то можно говорить о наличии связи между признаками в генеральной совокупности.
    4.4. Построение уравнения парной регрессии

    Для проверки возможности использования линейной функции определяется разность (); если она по модулю меньше 0,1, то считается возможным применение линейной функции. В рассматриваемом примере ABS (0,898-0,995) = 0,097< 0,100. Значение определено по сгруппированным данным.

    Для решения этой же задачи можно использовать величину , определяемую по формуле

    , (58)

    где m — число групп, на которое разделен диапазон значений факторного признака.

    Если окажется меньше критического значения F- критерия, то нулевая гипотеза о возможности использования в качестве уравнения регрессии линейной функции не опровергается. Значение F -критерия определяется по таблице в зависимости от уровня значимости = 0,05 (вероятность Р = 0,95) и числа степеней свободы знаменателя () и числителя () (см. функцию F.расп. EXCEL).

    При линейной связи параметры ( и ) уравнения парной регрессии:

    (59)

    находятся с помощью метода наименьших квадратов. Суть метода заключается в минимизации суммы квадратов отклонений теоритических значений результативного признака () от его фактических значений ():

    (60)

    Условие (7.26) выполняется при равенстве нулю частных производных по параметрам и :

    (61)

    Сократим каждое уравнение системы (7.27) на (-2), раскроем скобки и получим следующую систему нормальных уравнений:

    (62)

    Поделим каждое уравнение системы (7.28) на объём статистической совокупности (n), тогда упомянутую систему можно представить в более наглядном виде:

    (63)

    Из первого уравнения системы (63) следует, что:

    (64) Подставив полученное выражение во второе уравнение, получим:

    . (65) Коэффициент корреляции определяется по формуле:

    (66) Учитывая (65) и (66) получим

    (67)

    или . (68) Зная значения r, и можно вычислить по выражениям (68) и (64) параметры и линейного уравнения регрессии.

    Параметр , нельзя использовать для непосредственной оценки влияния факторного признака на результативный признак из-за различия единиц измерения исследуемых показателей. Для этих целей вычисляют значение среднего коэффициента эластичности и бета-коэффициент:

    (69)

    (70)

    Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак у при изменении факторного признака x на один процент.

    Бета-коэффициент показывает, на какую часть своего среднего квадратического отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину своего среднего квадратического отклонения.
    4.4.1. Статистический анализ модели

    Для того чтобы оценки и параметров уравнения регрессии обладали адекватностью ряд остатков должен удовлетворять следующим требованиям:

    1. математическое ожидание равно нулю (критерий нулевого среднего);

    2. величина является случайной переменной (критерий серий);

    3. значения независимы между собой (критерий Дарбина-Уотсона);

    4. дисперсия постоянна: для всех i, j (тест Гольдфельда-Квандта);

    5. Остатки распределены по нормальному закону (свойство используется для проверки статистической значимости и построения доверительных интервалов при прогнозировании)

    Отметим, что аппроксимировать уравнением парной регрессии у на х, имеет смысл только в том случае, если существует достаточно тесная статистическая зависимость между случайными величинами и линейный коэффициент корреляции является значимым, что и имеет место в рассматриваемом примере.

    4.4.2. Оценка качества построенной модели

    Формально качество модели определяется ее адекватностью и точностью. Эти свойства исследуются на основе анализа ряда остатков (отклонений расчетных значений от фактических):

    (71)

    При этом адекватность является более важной составляющей качества, но сначала рассмотрим характеристики точности и нормальности ряда остатков, так как некоторые из них используются при расчете различных критериев адекватности.
    Характеристики точности

    Под точностью понимается величина случайных ошибок. Сравнительный анализ точности имеет смысл только для адекватных моделей: среди них лучшей признается модель с меньшими значениями характеристик точности, к которым относятся:

    - максимальная ошибка соответствует максимальному отклонению расчетных значений от фактических;

    - средняя абсолютная ошибка



    показывает, насколько в среднем отклоняются фактические значения от модели;

    - средняя относительная ошибка

    ;

    - остаточная дисперсия

    ;

    - средняя квадратическая ошибка

    . (72)

    Средняя квадратическая ошибка является наиболее часто используемой характеристикой точности (что объясняется ее связью с остаточной дисперсией, которая играет центральную роль в регрессионном анализе). Значение средней квадратической ошибки всегда несколько больше значения средней абсолютной ошибки, но они имеют схожий смысл – характеризуют среднюю удаленность расчетных значений модели от фактических исходных данных. Обычно точность модели признается удовлетворительной если выполняется условие:

    . (73)

    К характеристикам точности можно отнести также множественный коэффициент детерминации

    , (74) характеризующий долю дисперсии зависимой переменной, объясненной с помощью регрессии, и множественный коэффициент корреляции (индекс корреляции):

    . (75)

    Проверка адекватности модели

    Проверка значимости осуществляется на основе t – критерия Стьюдента, т.е. проверяется гипотеза о том, что параметр, измеряющий связь, равен нулю.

    Средняя ошибка параметра равна:

    , (76) а для параметра :

    . (77)

    Расчетные значения t- критерия вычисляются по формуле:

    (78) Параметр считается значимым, если . Значение определяется по формуле СТЬЮДЕНТ.ОБР.2Х(0,95;46) при числе степеней свободы и с вероятностью (Р=1-) При и . Следовательно, в рассматриваемом примере параметры являются значимыми.

    Параметр лежит в пределах ;,

    а параметр - ;.

    Значимость уравнения регрессии в целом определяется с помощью F – критерия Фишера:

    (79)

    Расчетное значение F сопоставляется с критическимдля числа степеней свободы при заданном уровне значимости (например, ), где , .

    Если , то уравнение считается значимым.

    Другой подход к определению значений параметров уравнения парной регрессии и оценке значимости заключается в обращении к режиму “РЕГРЕССИЯ” EXCEL. Следует отметить, что результаты расчётов, приведенные в табл.7-9, получены с меньшими временными затратами и полностью совпадают с результатами “ручного” счёта.




    Проверка наличия или отсутствия систематической ошибки

    1. Проверка свойства нулевого среднего.

    Рассчитывается среднее значение ряда остатков (табл. 10):

    . (80)

    Если оно близко к нулю, то считается, что модель не содержит систематической ошибки и адекватна по критерию нулевого среднего, иначе – модель неадекватна по данному критерию. Если средняя ошибка не точно равна нулю, то для определения степени ее близости к нулю используется t – критерий Стьюдента. Расчётное значение критерия вычисляется по формуле

    (81)

    и сравнивается с критическим . Если выполняется неравенство , то модель неадекватна по данному критерию.

    1. Проверка случайности ряда остатков.

    Осуществляется по методу серий. Серией называется последовательность расположенных подряд значений ряда остатков, для которых разность имеет один и тот же знак, где - медиана ряда остатков.

    Если модель хорошо отражает исследуемую зависимость, то она часто пересекает линию графика исходных данных и тогда серий много, а их длина невелика. Иначе – серий мало и некоторые из них включают большое число членов.

    В качестве серий рассматриваются расположенные подряд ошибки с одинаковыми знаками. Далее подсчитывается число серий и длина максимальной из них . Полученные значения сравниваются с критическими

    (82) (83) (квадратные скобки означают округление вниз до ближайшего целого).

    Если выполняется система неравенств:

    , (84) то модель признается адекватной по критерию случайности, если хотя бы одно из неравенств нарушено, то модель признается неадекватной по данному критерию.

    1. Проверка независимости последовательных остатков.

    Является важнейшим критерием адекватности модели и осуществляется с помощью коэффициента Дарбина-Уотсона:

    . (85) Для рядов с тесной взаимосвязью между последовательными значениями остатков значение близко к нулю, что свидетельствует о том, что закономерная составляющая не полностью отражена в модели и частично закономерность присуща ряду остатков, т.е. модель неадекватна исходному процессу.

    Если последовательные остатки независимы, то близко к 2. Это свидетельствует о хорошем качестве модели и чистой фильтрации закономерной составляющей.

    При отрицательной автокорреляции остатков (строго периодичном чередовании их знаков) близко к 4.

    Для проверки существенности положительной автокорреляции остатков значение сравнивается с и из табл. 2 Приложения к лекции:

    • если , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков;

    • если , то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию (в рассматриваемом примере );

    • если , то значение критерия лежит в области неопределенности.

    Если , то возникает предположение об отрицательной автокорреляции остатков, и тогда с критическими значениями сравниваются не , а и делаются аналогичные выводы.

    1. Проверка постоянства дисперсии остатков.

    Если на графике остатков они укладываются в симметричную относительно нулевой линии полосу шириной (модуль стандартных остатков меньше 3) и не имеют как положительной так и отрицательной тенденций, то дисперсии ошибок наблюдений можно считать постоянными.

    Значения стандартных остатков вычисляются по формуле

    , где и приведены в графе 4 табл.10.



    Рис. 5. График стандартных остатков

    Кроме визуальной оценки постоянства дисперсии существуют и более точные методы, например, тест Гольдфельда-Квандта. Суть теста заключается в следующем. Все n наблюдений упорядочиваются по возрастанию значений независимой переменной (x) и производится оценка параметров регрессий для первых и последних наблюдений с помощью метода наименьших квадратов. Для наибольшей мощности теста рекомендуется выбирать значение порядка n/3. Далее вычисляется расчётное значение статистики Фишера

    , (86)

    где - суммы квадратов остатков для первых и последних наблюдений соответственно. Далее задаётся уровень значимости и определяется с помощью статистических таблиц..

    Если то делается вывод о постоянстве дисперсии.

    По совокупности четырех критериев делается вывод о принципиальной возможности использования модели: если модель адекватна по критериям постоянства дисперсий и нулевого среднего и хотя бы по одному из двух других критериев, то она может быть принята для использования, хотя и не признается полностью адекватной.
    1   ...   14   15   16   17   18   19   20   21   22


    написать администратору сайта