Мет[1].указ. Новикова В.В. РТА. Мет[1].указ. Новикова В.В. Методические указания по выполнению семестрового домашнего задания по дисциплине Статистика Раздел Общая теория статистики
![]()
|
4.3. Оценка степени взаимной согласованности между суммой внешнеторгового оборота фирм и величиной таможенных платежей в бюджет с помощью линейного коэффициента корреляции, проверка его значимости и возможности использования линейной функции в качестве формы уравнения Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции ( ![]() ![]() Для расчета линейного коэффициента корреляции можно использовать формулу: ![]() где ![]() ![]() n— число единиц в совокупности; ![]() Оценка существенности линейного коэффициента корреляции при большом объеме выборки (свыше 500) проводится с использованием отношения коэффициента корреляции ( ![]() ![]() ![]() где ![]() Если это отношение окажется больше критического значения t-критерия Стьюдента, определяемого по формуле СТЬЮДЕНТ.ОБР.2X(0,95;46) при числе степеней свободы к = п -p - 2 и с вероятностью (1 — ![]() ![]() При недостаточно большом объеме выборки величину средней квадратической ошибки коэффициента корреляции определяют по формуле ![]() В этом случае ![]() Полученная величина ![]() ![]() В тех случаях, когда ![]() ![]() ![]() ![]() Данное выражение имеет название «z – преобразование Фишера». Интервальная оценка для z определяется из выражения ![]() где ![]() ![]() ![]() Приведем реализацию изложенного алгоритма.
2,196-НОРМСТОБР((0,95+1)/2)*КОРЕНЬ(1/45)=1,904 и 2,196+НОРМСТОБР((0,95+1)/2)*КОРЕНЬ(1/45)=2,489 рассчитываются интервальные оценки z;
Таким образом, с вероятностью 0,95 линейный коэффициент корреляции заключен в интервале от 0,957 до 0,986. Средняя квадратическая ошибка Z'-распределения зависит только от объема выборки и определяется по формуле: ![]() Если соотношение Z' к средней квадратической ошибке (Z': ![]() 4.4. Построение уравнения парной регрессии Для проверки возможности использования линейной функции определяется разность ( ![]() ![]() Для решения этой же задачи можно использовать величину ![]() ![]() где m — число групп, на которое разделен диапазон значений факторного признака. Если ![]() ![]() ![]() ![]() При линейной связи параметры ( ![]() ![]() ![]() находятся с помощью метода наименьших квадратов. Суть метода заключается в минимизации суммы квадратов отклонений теоритических значений результативного признака ( ![]() ![]() ![]() Условие (7.26) выполняется при равенстве нулю частных производных по параметрам ![]() ![]() ![]() Сократим каждое уравнение системы (7.27) на (-2), раскроем скобки и получим следующую систему нормальных уравнений: ![]() Поделим каждое уравнение системы (7.28) на объём статистической совокупности (n), тогда упомянутую систему можно представить в более наглядном виде: ![]() Из первого уравнения системы (63) следует, что: ![]() ![]() ![]() ![]() или ![]() ![]() ![]() ![]() ![]() Параметр ![]() ![]() ![]() Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак у при изменении факторного признака x на один процент. Бета-коэффициент показывает, на какую часть своего среднего квадратического отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину своего среднего квадратического отклонения. 4.4.1. Статистический анализ модели Для того чтобы оценки ![]() ![]() ![]()
Отметим, что аппроксимировать уравнением парной регрессии у на х, имеет смысл только в том случае, если существует достаточно тесная статистическая зависимость между случайными величинами и линейный коэффициент корреляции является значимым, что и имеет место в рассматриваемом примере. 4.4.2. Оценка качества построенной модели Формально качество модели определяется ее адекватностью и точностью. Эти свойства исследуются на основе анализа ряда остатков (отклонений расчетных значений от фактических): ![]() При этом адекватность является более важной составляющей качества, но сначала рассмотрим характеристики точности и нормальности ряда остатков, так как некоторые из них используются при расчете различных критериев адекватности. Характеристики точности Под точностью понимается величина случайных ошибок. Сравнительный анализ точности имеет смысл только для адекватных моделей: среди них лучшей признается модель с меньшими значениями характеристик точности, к которым относятся: - максимальная ошибка ![]() - средняя абсолютная ошибка ![]() ![]() показывает, насколько в среднем отклоняются фактические значения от модели; - средняя относительная ошибка ![]() ![]() - остаточная дисперсия ![]() - средняя квадратическая ошибка ![]() Средняя квадратическая ошибка является наиболее часто используемой характеристикой точности (что объясняется ее связью с остаточной дисперсией, которая играет центральную роль в регрессионном анализе). Значение средней квадратической ошибки всегда несколько больше значения средней абсолютной ошибки, но они имеют схожий смысл – характеризуют среднюю удаленность расчетных значений модели от фактических исходных данных. Обычно точность модели признается удовлетворительной если выполняется условие: ![]() К характеристикам точности можно отнести также множественный коэффициент детерминации ![]() ![]() Проверка адекватности модели Проверка значимости осуществляется на основе t – критерия Стьюдента, т.е. проверяется гипотеза о том, что параметр, измеряющий связь, равен нулю. Средняя ошибка параметра ![]() ![]() ![]() ![]() Расчетные значения t- критерия вычисляются по формуле: ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Параметр ![]() ![]() ![]() а параметр ![]() ![]() ![]() Значимость уравнения регрессии в целом определяется с помощью F – критерия Фишера: ![]() Расчетное значение F сопоставляется с критическим ![]() ![]() ![]() ![]() ![]() ![]() ![]() Если ![]() Другой подход к определению значений параметров уравнения парной регрессии и оценке значимости заключается в обращении к режиму “РЕГРЕССИЯ” EXCEL. Следует отметить, что результаты расчётов, приведенные в табл.7-9, получены с меньшими временными затратами и полностью совпадают с результатами “ручного” счёта. ![]() ![]() Проверка наличия или отсутствия систематической ошибки
Рассчитывается среднее значение ряда остатков (табл. 10): ![]() Если оно близко к нулю, то считается, что модель не содержит систематической ошибки и адекватна по критерию нулевого среднего, иначе – модель неадекватна по данному критерию. Если средняя ошибка не точно равна нулю, то для определения степени ее близости к нулю используется t – критерий Стьюдента. Расчётное значение критерия вычисляется по формуле ![]() и сравнивается с критическим ![]() ![]()
Осуществляется по методу серий. Серией называется последовательность расположенных подряд значений ряда остатков, для которых разность ![]() ![]() Если модель хорошо отражает исследуемую зависимость, то она часто пересекает линию графика исходных данных и тогда серий много, а их длина невелика. Иначе – серий мало и некоторые из них включают большое число членов. В качестве серий рассматриваются расположенные подряд ошибки с одинаковыми знаками. Далее подсчитывается число серий ![]() ![]() ![]() ![]() Если выполняется система неравенств: ![]()
Является важнейшим критерием адекватности модели и осуществляется с помощью коэффициента Дарбина-Уотсона: ![]() ![]() Если последовательные остатки независимы, то ![]() При отрицательной автокорреляции остатков (строго периодичном чередовании их знаков) ![]() Для проверки существенности положительной автокорреляции остатков значение ![]() ![]() ![]()
Если ![]() ![]() ![]()
Если на графике остатков они укладываются в симметричную относительно нулевой линии полосу шириной ![]() Значения стандартных остатков вычисляются по формуле ![]() ![]() ![]() Рис. 5. График стандартных остатков Кроме визуальной оценки постоянства дисперсии существуют и более точные методы, например, тест Гольдфельда-Квандта. Суть теста заключается в следующем. Все n наблюдений упорядочиваются по возрастанию значений независимой переменной (x) и производится оценка параметров регрессий для первых ![]() ![]() ![]() ![]() где ![]() ![]() ![]() ![]() ![]() ![]() Если ![]() По совокупности четырех критериев делается вывод о принципиальной возможности использования модели: если модель адекватна по критериям постоянства дисперсий и нулевого среднего и хотя бы по одному из двух других критериев, то она может быть принята для использования, хотя и не признается полностью адекватной. |