xy 27,068172,17 29,889200,90 33,158232,10 34,444231,83 37,299246,53 37,554236,99 37,755233,40 37,909256,43 38,348261,89 39,137259,36 40,370253,62 46,298278,87 5.2. Методы выявления и оценки корреляционной связи Для выявления наличия и характера корреляционной связи между двумя признаками в статистике используется ряд методов.
1. Рассмотрениепараллельныхданных(значений x и y в каждой из n единиц). Единицы наблюдения необходимо расположить по возрастанию значений факторного признака х (как в таблице справа) и затем сравнить с ним (визуально) поведение результативного признака у.
В нашей задаче в 6 случаях по мере увеличения значений x увеличиваются и значения y, а в 5 случаях этого не происходит, поэтому затруднительно говорить о прямой связи между х и у.
2. Графическийметод – это графическое изображение корреляционной зависимости. Для этого, имея n взаимосвязанных пар значений x и y и пользуясь прямоугольной системой координат, каждую такую пару изображают в виде точки на плоскости с координатами x и y. Совокупность полученных точек представляет собой корреляционноеполе (рис. 0), а соединяя последовательно нанесенные точки отрезками, получают ломаную линию, именуемую эмпирическойлиниейрегрессии(рис. 0).
Рис. 0. Корреляционное поле Рис. 0. Эмпирическая линия регрессии
Визуально анализируя график, можно предположить характер зависимости между признаками x и y. В нашей задаче эмпирическая линия регрессии (рис.0) похожа на восходящую прямую, что позволяет выдвинуть гипотезу о наличии прямой зависимости между величиной стоимостного внешнеторгового товарооборота и величиной таможенных платежей в федеральный бюджет.
3. Коэффициенткорреляциизнаков (Фехнера) – простейший показатель тесноты связи, основанный на сравнении поведения отклонений индивидуальных значений каждого признака (x и y) от своей средней величины. При этом во внимание принимаются не величины отклонений () и (), а их знаки («+» или «–»). Определив знаки отклонений от средней величины в каждом ряду, рассматривают все пары знаков и подсчитывают число их совпадений (С) и несовпадений (Н). Тогда коэффициент Фехнера рассчитывается как отношение разности чисел пар совпадений и несовпадений знаков к их сумме, т.е. к общему числу наблюдаемых единиц:
. ( )
Очевидно, что если знаки всех отклонений по каждому признаку совпадут, то КФ=1, что характеризует наличие прямой связи. Если все знаки не совпадут, то КФ=–1(обратная связь). Если же С=Н, то КФ=0. Итак, как и любой показатель тесноты связи, коэффициент Фехнера может принимать значения от 0 до 1. Однако, если КФ=1, то это ни в коей мере нельзя воспринимать как свидетельство функциональной зависимости между х и у.
Средние значения факторного и результативного признаков определяем по формуле средней арифметической простой ( ):
; .
В двух последних столбцах таблицы 0 приведены знаки отклонений каждого х и у от своей средней величины. Число совпадений знаков – 10, а несовпадений – 2, тогда определяем коэффициент корреляции знаков (Фехнера) по формуле ( ):
КФ=
Таблица 0. Вспомогательная таблица для расчета коэффициента Фехнера
№
п/пxyx –y – 127,068172,17––229,889200,90––333,158232,10––434,444231,83––537,299246,53++637,554236,99+–737,755233,40+–837,909256,43++938,348261,89++1039,137259,36++1140,370253,62++1246,298278,87++Итого439,2292864,09Обычно такое значение показателя тесноты связи характеризует заметную прямую зависимость между x и y, однако, следует иметь в виду, что поскольку КФзависит только от знаков и не учитывает величину самих отклонений х и у от их средних величин, то он практически характеризует не столько тесноту связи, сколько ее наличие и направление.
4. Линейныйкоэффициенткорреляции – самый популярный измеритель тесноты линейной связи между двумя количественными признаками x и y. Он основан на предположении, что при полнойнезависимости24признаков x и у отклонения значений факторного признака от средней () носят случайный характер и должны случайно сочетаться с различными отклонениями (). При наличии значительного перевеса совпадений или несовпадений таких отклонений делается предположение о наличии связи между x и y.
В отличие от КФ в линейном коэффициенте корреляции учитываются не только знаки отклонений от средних величин, но и значения самих отклонений, выраженные для сопоставимости в единицах среднего квадратического отклонения t:
и .
Линейный коэффициент корреляции r представляет собой среднюю величину из произведений нормированных отклонений для x и у:
, ( ) или . ( )
Числитель формулы ( ) или . ( ), деленный на n, представляющий собой среднее произведение отклонений значений двух признаков от их средних значений, называется коэффициентом ковариации – это мера совместной вариации факторного x и результативного y признаков:
(46)
Недостатком коэффициента ковариации является то, что он не нормирован, в отличие от линейного коэффициента корреляции. Очевидно, что линейный коэффициент корреляции представляет собой частное от деления ковариации между х и у на произведение их средних квадратических отклонений:
. (47)
Путем несложных математических преобразований25 можно получить и другие модификации формулы линейного коэффициента корреляции, например:
, ( ) , ( )
, (48) . (49)
Линейный коэффициент корреляции может принимать значения от –1 до +1, причем знак определяется в ходе решения. Например, если , то r по формуле ( ) или . ( ) будет положительным, что характеризует прямую зависимость между х и у, в противном случае (r<0) – обратную связь. Если , то r=0, что означает отсутствие линейной зависимости между х и у, а при r=1 – функциональная зависимость между х и у. Следовательно, всякое промежуточное значение r от 0 до 1 характеризует степень приближения корреляционной связи между х и у к функциональной. Существует эмпирическое правило (шкала Чэддока) для оценки тесноты связи, представленное в таблице 0.
Таблица 0. Шкала Чэддока
|r|Теснотасвязименее 0,1отсутствует линейная связь0,1 ч 0,3слабая0,3 ч 0,5умеренная0,5 ч 0,7заметнаяболее 0,7сильная (тесная)Таким образом, коэффициент корреляции при линейной зависимости служит как мерой тесноты связи, так и показателем, характеризующим степень приближения корреляционной зависимости между х и у к линейной. Поэтому близость значения r к 0 в одних случаях может означать отсутствие связи между х и у, а в других свидетельствовать о том, что зависимость не линейная.
В нашей задаче для расчета rпостроим вспомогательную таблицу 0.
Таблица 0. Вспомогательные расчеты линейного коэффициента корреляции
№
п/пxytxtytx tyxy127,068172,1790,9054422,804-1,993-2,4084,799634,0784660,298229,889200,9045,0701426,888-1,403-1,3681,919253,5946004,700333,158232,1011,86443,220-0,720-0,2380,17122,6447695,972434,444231,834,65946,843-0,451-0,2480,11214,7737985,153537,299246,530,48561,7140,1460,2840,0415,4729195,322637,554236,990,9062,8360,199-0,061-0,012-1,6038899,922737,755233,401,32827,8170,241-0,191-0,046-6,0798812,017837,909256,431,707315,2700,2730,6430,17623,1999721,005938,348261,893,047538,9750,3650,8410,30740,52510042,9581039,137259,366,424427,9040,5300,7490,39752,43010150,5721140,37253,6214,195223,3780,7880,5410,42656,31010238,6391246,298278,8794,0041615,7052,0271,4552,950389,72212911,123Итого439,2292864,09274,5949153,35311,2411485,066106317,681В нашей задаче: = = 4,784; == 27,618.
Тогда линейный коэффициент корреляции по формуле ( ) или . ( ): r = 11,241/12 = 0,937.
Аналогичный результат получаем по формуле ( ) или . ( ): r = 1485,066/(12*4,784*27,618) = 0,937
Или по формуле ( ) или . ( ): r = (106317,681/12 – 36,602*238,674) / (4,784*27,618) = 0,937,
Найденное значение свидетельствует о том, что связь между величиной стоимостного внешнеторгового товарооборота и величиной таможенных платежей в федеральный бюджет очень близка к функциональной (сильная по шкале Чэддока).
Проверкакоэффициентакорреляцииназначимость (существенность). Интерпретируя значение коэффициента корреляции, следует иметь в виду, что он рассчитан для ограниченного числа наблюдений и подвержен случайным колебаниям, как и сами значения x и y, на основе которых он рассчитан. Другими словами, как любой выборочный показатель, он содержит случайную ошибку и не всегда однозначно отражает действительно реальную связь между изучаемыми показателями. Для того, чтобы оценить существенность (значимость) самого r и, соответственно, реальность измеряемой связи между х и у, необходимо рассчитать среднюю квадратическую ошибку коэффициента корреляции σr. Оценка существенности (значимости) r основана на сопоставлении значения r с его средней квадратической ошибкой: .
Существуют некоторые особенности расчета σr в зависимости от числа наблюдений (объема выборки) – n.
Если число наблюдений достаточно велико (n>30), то σr рассчитывается по формуле ( ):
. ( )
Обычно, если >3, то r считается значимым (существенным), а связь – реальной. Задавшись определенной вероятностью, можно определить доверительныепределы (границы) r = ( ), где t – коэффициент доверия, рассчитываемый по интегралу Лапласа (см. Приложение 1).
Если число наблюдений небольшое (n<30), то σr рассчитывается по формуле ( ):
, ( )
а значимость r проверяется на основе t-критерия Стьюдента, для чего определяется расчетное значение критерия по формуле ( ) и сопоставляется c tТАБЛ.
. ( )
Табличное значение tТАБЛ находится по таблице распределения t-критерия Стьюдента (см. Приложение 2) при уровне значимости α=1-β и числе степеней свободы ν=n–2. Если tРАСЧ> tТАБЛ,то r считается значимым, а связь между х и у – реальной. В противном случае (tРАСЧ< tТАБЛ) считается, что связь между х и у отсутствует, и значение r, отличное от нуля, получено случайно.
В нашей задаче число наблюдений небольшое, значит, оценивать существенность (значимость) линейного коэффициента корреляции будем по формулам ( ) и ( ):
= 0,349/3,162 = 0,110; = 0,937/0,110 = 8,482.
Из приложения 2 видно, что при числе степеней свободы ν = 12 – 2 = 10 (в 10-й строке) и вероятности β = 95% (уровень значимости α =1 – β = 0,05) tтабл=2,2281, а при вероятности 99% (α=0,01) tтабл=3,169, значит, tРАСЧ> tТАБЛ, что дает возможность считать линейный коэффициент корреляции r= 0,937 значимым.
5. Подборуравнениярегрессии26 представляет собой математическое описание изменения взаимно коррелируемых величин по эмпирическим (фактическим) данным. Уравнение регрессии должно определить, каким будет среднее значение результативного признака упри том или ином значении факторного признака х, если остальные факторы, влияющие на уи не связанные с х, не учитывать, т.е. абстрагироваться от них. Другими словами, уравнение регрессии можно рассматривать как вероятностную гипотетическую функциональную связь величины результативного признака усо значениями факторного признака х.
Уравнение регрессии можно также назвать теоретическойлиниейрегрессии. Рассчитанные по уравнению регрессии значения результативного признака называются теоретическими.Они обычно обозначаются или (читается: «игрек, выравненный по х») и рассматриваются как функция от х, т.е. = f(x).
Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее адекватно отразить ту или иную зависимость между признаками хиу, —одна из основных задач регрессионного анализа. Выбор теоретической линии регрессии часто обусловлен формой эмпирической линии регрессии; теоретическая линия как бы сглаживает изломы эмпирической линии регрессии. Кроме того, необходимо учитывать природу изучаемых показателей и специфику их взаимосвязей.
Для аналитической связи между хи умогут использоваться виды уравнений, приведенные в таблице 0 (при условии замены t на x). Обычно зависимость, выражаемую уравнением прямой, называют линейной(или прямолинейной), а все остальные — криволинейнымизависимостями.
Выбрав тип функции (таблица 0), по эмпирическим данным определяют параметры уравнения. При этом отыскиваемые параметры должны быть такими, при которых рассчитанные по уравнению теоретические значения результативного признака были бы максимально близки к эмпирическим данным.
Существует несколько методов нахождения параметров уравнения регрессии. Наиболее часто используется методнаименьшихквадратов(МНК). Его суть заключается в следующем требовании: искомые теоретические значения результативного признака должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических значений, т.е.
.
Поставив данное условие, легко определить, при каких значениях a0, a1 и т.д. для каждой аналитической кривой эта сумма квадратов отклонений будет минимальной. Данный метод уже использовался нами в теме 6 «Статистическое изучение динамики ВЭД», поэтому, воспользуемся формулой ( ) для нахождения параметров теоретической линии регрессии, заменив параметр t на x:
( )
Выразив из первого уравнения системы ( ) a0, получим27:
. ( )
Подставив ( ) во второе уравнение системы ( ), затем разделив обе его части на n, получим:
. (50)
Применяя 3 раза формулу средней арифметической, получим:
. (51)
Раскрыв скобки и перенеся члены без a1 в правую часть уравнения, выразимa1:
. ( )
Параметр a1 в уравнении линейной регрессии называется коэффициентомрегрессии, который показывает на сколько изменяется значение результативного признака y при изменении факторного признака x на единицу.
Исходные данные и расчеты для нашего примера представим в таблице 0.
Таблица 0. Вспомогательные расчеты для нахождения уравнения регрессии
№
п/пxyx2xy 127,068172,17732,6774660,298187,124223,6122657,453229,889200,90893,3526004,700202,3772,1811317,497333,158232,101099,4537695,972220,052145,147346,774434,444231,831186,3897985,153227,00623,274136,153537,299246,531391,2159195,322242,44316,70614,202637,554236,991410,3038899,922243,82146,66926,495737,755233,401425,4408812,017244,908132,44138,864837,909256,431437,0929721,005245,741114,25649,940938,348261,891470,56910042,958248,115189,76189,1221039,137259,361531,70510150,572252,38148,710187,8711140,370253,621629,73710238,639259,04829,459415,0761246,298278,872143,50512911,123291,100149,5802748,498Итого439,2292864,0916351,437106317,6812864,1151121,7958027,945По формуле ( ): = 5,407.
По формуле ( ): a0 = 238,674 – 5,407*36,602 = 40,767.
Отсюда получаем уравнение регрессии: =40,767+5,407x, подставляя в которое вместо x эмпирические значения факторного признака (2-й столбец таблицы 0), получаем выравненные по прямой линии теоретические значения результативного признака (6-й столбец таблицы 0)28. Для иллюстрации различий между эмпирическими и теоретическими линиями регрессии построим график (рисунок 0).
Рис. 0. График эмпирической и теоретической линий регрессии
Из рисунка 0 видно, что небольшие различия между эмпирической и теоретической линиями регрессии существуют, поэтому необходимо оценитьсущественностькоэффициента регрессии и уравнения связи, для чего определяют среднюю ошибку параметров уравнения регрессии и сравнивают их с этой ошибкой.
Расчет ошибок параметров уравнения регрессии основан на использовании остаточной дисперсии, характеризующей расхождение (отклонение) между эмпирическими и теоретическими значениями результативного признака. Для линейного уравнения регрессии ( ) средние ошибки параметров a1 и a2 определяются по формулам ( ) и ( ) соответственно:
, ( ) , ( ) . ( )
Значимость параметров проверяется путем сопоставления его значения со средней ошибкой. Обозначим это соотношение как t:
, ( )
При большом числе наблюдений (n>30) параметр ai считается значимым, если >3.
Если выборка малая (n<30), то значимость параметра ai проверяется путем сравнения с табличным значения t-критерия Стьюдента при числе степеней свободы ν=n-2 и заданном уровне значимости α (Приложение 2). Если рассчитанное по формуле ( ) значение больше табличного, то параметр считается значимым.
В нашем примере по формуле ( ): = 9,669.
Находим среднюю ошибку параметра a0 по формуле ( ): = 3,06.
Теперь находим среднюю ошибку параметра a1 по формуле ( ): =0,639.
Теперь по формуле ( ) для параметра a0: =13,3.
И по той же формуле для параметра a1: =8,46.
Так как выборка малая, то задавшись стандартной значимостью α=0,05 находим в 10-й строке Приложения 2 табличное значение tα=2,23, которое значительно меньше полученных значений 13,3 и 8,46, что свидетельствует о значимости обоих параметров уравнения регрессии.
Наряду с проверкой значимости отдельных параметров осуществляется проверказначимостиуравнениярегрессии в целом или, что то же самое, проверка адекватности модели с помощью критерия Фишера по Приложению 3. Данный метод уже использовался нами для проверки адекватности уравнения тренда в предыдущей теме, поэтому воспользовавшись формулой ( ) в нашем примере получим29:
Сравнивая расчетное значение критерия Фишера Fр = 71,56 с табличным Fт= 4,96, определяемое по Приложению 3 при числе степеней свободы ν1 = k– 1 = 2 –1 = 1 и ν2 = n– k= 12 – 2 = 10 (т.е. 1-й столбец и 10-я строка) и стандартном уровне значимости α=0,05, можно сделать вывод, что уравнение регрессии значимо.
6. Коэффициентэластичности показывает, на сколько процентов изменяется в среднем результативный признак y при изменении факторного признака x на 1%. Он рассчитывается на основе уравнения регрессии:
, (52)
где – первая производная уравнения регрессии y по x.
Коэффициент эластичности – величина переменная, т.е. изменяется с изменением значений фактора x. Так, для линейной зависимости :
. ( )
Применительно к рассмотренному уравнению регрессии, выражающему зависимость величины таможенных платежей в федеральный бюджет от величины стоимостного внешнеторгового оборота ( = 40,767 + 5,407x), коэффициент эластичности по формуле ( ): .
Подставляя в данное выражение разные значения x, получаем и разные значения Э. Так, например, при x = 40 коэффициент эластичности = 0,84, а при x = 50 соответственно = 0,87 и т.д. Это значит, что при увеличении внешнеторгового товарооборота x с 40 до 40,4 млрд.долл. (т.е. на 1%), величина таможенных платежей возрастет в среднем на 0,84% прежнего уровня; при увеличении x с 50 до 50,5 млрд.долл. (т.е. на 1%) y возрастет на 0,87% и т.д.
|