Главная страница

Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием прог - Бараз В.Р.. Корреляционно-регрессионный анализ связи показателей коммерческо. В. Р. Бараз корреляционнорегрессионный анализ


Скачать 1.37 Mb.
НазваниеВ. Р. Бараз корреляционнорегрессионный анализ
АнкорКорреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием прог - Бараз В.Р..pdf
Дата17.05.2018
Размер1.37 Mb.
Формат файлаpdf
Имя файлаКорреляционно-регрессионный анализ связи показателей коммерческо.pdf
ТипУчебное пособие
#19364
КатегорияЭкономика. Финансы
страница7 из 10
1   2   3   4   5   6   7   8   9   10
66
3.4.1. Проверка на адекватность уравнения регрессии
Статистическую оценку полученного уравнения (так называемый
статистический вывод) принято начинать с проведения F-теста, целью ко- торого является выяснение способности исследуемых факторов х
k
объяснять значимую часть колебания функции у. Этот тест используется как своеобраз- ные «входные ворота» в статистический вывод: если результат теста значим, то связь существует, значит приступать к ее исследованию и объяснению.
Если проверка указывает на незначимость связи, то заключение лишь одно: мы имеем дело с набором случайных чисел, никак не связанных между со- бой. И больше делать нечего, так как нет предмета для анализа.
Заметим при этом, что сам формальный факт отсутствия значимости на деле может и не соответствовать отсутствию взаимосвязи как таковой.
Просто в указанных обстоятельствах у нас не хватило экспериментальных данных доказать, что такая связь вообще-то есть. Иначе говоря, она может и быть, но из-за малого размера выборки или какой-либо случайности нам не удалось ее доказать на основании тех опытных данных, которые были в на- шем распоряжении.
Использование так называемой нулевой гипотезы для F-теста означа- ет, что между переменными х
k
и у значимая связь отсутствует. Следова- тельно, признается, что параметр у является чисто случайной величиной, по- этому значения переменных х
k
не оказывают на него никакого систематиче- ского влияния. Применительно к уравнению регрессии это утверждение можно трактовать как случай, когда все коэффициенты уравнения равны ну-
лю.
С другой стороны, альтернативная гипотеза F-теста говорит о том, что между параметром у и переменными х
k
существует определенная прогнозирующая взаимосвязь. Следовательно, параметр у уже не является чисто случайной величиной и должен зависеть хотя бы от одной из переменных х
k
. Тем самым альтернативная гипотеза настаивает на том, что

связи показателей коммерческой деятельности с использованием программы Excel
ГОУ ВПО УГТУ
УПИ – 2005
67
Тем самым альтернативная гипотеза настаивает на том, что по крайней мере один из коэффициентов регрессии отличен от нуля. Как видно, здесь прини- мается во внимание следующее обстоятельство: совершенно необязательно, чтобы каждая х-переменная влияла на параметр у, вполне достаточно, чтобы влияла хотя бы одна из них.
Для выполнения F-теста воспользуемся результатами компьютерного расчета, который исполнил замечательный Excel. Здесь обычно рекоменду- ются следующие приемы.
1. Решение принимается на основе критерия Фишера.
Это достаточно традиционный способ, им привычно пользуются при статистических анализах, хотя по удобству и простоте он может уступать другим методам.
Обычно F-тест проводится путем сопоставления вычисленного значе- ния F-критерия с эталонным (табличным) показателем F
табл для соответст- вующего уровня значимости. Если выполняется неравенство F
расч
< F
табл
, то с уверенностью, например на 95 %, можно утверждать, что рассматриваемая зависимость у = b
0
+ b
1
x
1
+ b
2
x
2
+…+ b
k
x
k
является статистически значимой. В противном случае наоборот.
2. Решение принимается на основе уровня значимости
α.
Для этого обратим внимание на представленные значения уровня зна- чимости
α (в интерпретации Excel это показатель р). Если р-значение боль- ше, чем 0,05, то полученный результат нужно трактовать как незначимый
(для 95-процентной вероятности). В том случае, когда величина р оказывает- ся меньше 0,05, то вывод такой: это значимое уравнение с вероятностью 95%.
Если же р
< 0,01, то полученный результат является высоко значимым, (сте- пень риска ошибиться в нашем утверждении оказывается меньше 1 %, т.е. степень надежности составляет 99 %)
3. Решение принимается на основе коэффициента детерминации R
2

Бараз В.Р.
Корреляционно-регрессионный анализ
ГОУ ВПО УГТУ
УПИ – 2005
68
В этом случае имеющуюся расчетную величину R
2
расч
(это то, что нам выдал Excel, см. рис.18) необходимо сравнить с табличными (критическими) значениями R
2
крит для соответствующего уровня значимости (повторим еще раз, обычно это 0,05). Если окажется, что R
2
расч
> R
2
крит
, то с упомянутой сте- пенью вероятности (95 %) можно утверждать, что анализируемая регрессия является значимой.
Теперь проанализируем наше уравнение с использованием рассмот- ренных статистических критериев.
1. Проведем проверку по F-критерию. Компьютерная распечатка вы- дала нам величину F
расч
, равную 16,99 (см. лист Excel на рис.18). С учетом сделанных замечаний (стр.36) для анализа уравнения будем пользоваться ве- личиной F
расч
, обратной представленной Excel. Она составит 1:16,99 = 0,06.
Отыщем по эталонной таблице (прил.3) критическую величину F
крит при ус- ловии, что для числителя степень свободы f
1
= k, т.е. составит 2 (число воз- действующих факторов равно 2), а для знаменателя f
2
= n
k

1 = 20
− 2 − −
1= 17. Тогда будем иметь следующие значения для F
крит
: 3,6 (для
α = 0,05),
6,2 (
α = 0,01) и 10,5 (α = 0,001). Понятно, что для всех рассмотренных веро- ятностей выполняется соотношение F
расч
< F
крит
, поэтому уверенно можно го- ворить о высокой степени адекватности анализируемого уравнения.
2. Теперь выполним проверку с использованием уровня значимости
α
(еще раз напомним, что Excel этот показатель именует как р). На рис.18 , где дано изображение листа Excel, находим позицию «Значимость F». Там ука- зана величина 8,84Е-5, т.е. это число 8,84, перед которым стоит 5 нулей. Фак- тически можно признать, что
α = 0,000. Это говорит о том, что действитель- но обнаруживается устойчивая зависимость рассматриваемой функции у(ве- личины продажи молока) от воздействующих факторов х
1
и х
2
, т.е. объем реализации не является чисто случайной величиной. Правда, нам пока неиз- вестно, какие именно факторы (оба х
1
и х
2
или какой-то один из них) реально

связи показателей коммерческой деятельности с использованием программы Excel
ГОУ ВПО УГТУ
УПИ – 2005
69
участвует в прогнозировании, но нам доподлинно понятно, что по крайней мере один из них влияет непременно.
3. Напомним, что, по нашим расчетам, коэффициент детерминации
R
2
расч составляет
0,67, или 67 %. Таблица для тестирования на уровне значи- мости 5 % в случае выборки n = 20 и числа переменных k = 2 дает критиче- ское значение R
2
крит
= 0,297 (прил.4). Поскольку выполняется соотношение
R
2
расч
> R
2
крит
, то с вероятностью 95 % можно утверждать о наличии значимо- сти данного уравнения регрессии.
Кстати заметим, что для наших обстоятельств (n = 20, k = 2) можно оценить критическое значение R
2
крит для
α=0,01 (высокая значимость) и α =
= 0,001 (высшая степень значимости). В этом случае R
2
крит составляет соответственно 0,384 и 0,517, что, как видно, все равно остается меньше рас- четного показателя R
2
расч
, т.е. 0,67. Из чего следует заключить, что обсуждае- мое нами уравнение действительно характеризуется очень высокой степенью значимости.
Как видно, все три рассмотренных приема статистической проверки дают одинаковый результат. В этом примере мы воспользовались подобным разнообразием способов анализа только с одной целью – дать представление о существующих методах такой проверки. На практике же нет нужды прово- дить статистическую оценку с использованием всех указанных вариантов.
Вполне разумно (да и экономично) ограничиться каким-то одним методом.
Каким именно? Более распространенным методом считается выполнение проверки по F-критерию.
Итак, нами проведена проверка на значимость самого уравнения, т.е. мы понимаем, что существует взаимосвязь между параметром у и перемен- ными х
k
. Однако нам пока неясно, каково влияние конкретных факторов х
1
и
х
2 на исследуемую функцию у: действуют ли оба фактора или только какой- то один из них. Поэтому предстоит определить значимость отдельных коэф-

Бараз В.Р.
Корреляционно-регрессионный анализ
ГОУ ВПО УГТУ
УПИ – 2005
70
фициентов регрессии b
1 и b
2
. Для этой цели используется так называемый t- тест.
3.4.2. Проверка на адекватность коэффициентов регрессии
Проверку на адекватность коэффициентов регрессии рекомендуется проводить по следующим эквивалентным методам.
1. Использование t-критерия. Необходимые расчеты делает исполни- тельный Excel, который выдает соответствующую компьютерную распечатку с обозначением значений показателя t. Анализируемый коэффициент счита- ется значимым, если его t-критерий по абсолютной величине превышает 2,00
(точнее 1,96), что соответствует уровню значимости 0,05. В нашем примере имеем для коэффициентов b
0
,
b
1 и b
2
следующие показатели критерия Стью- дента: t
b0
= 2,09; t
b1
= 2,59 и t
b2
= 2,57. Из всего вышесказанного следует, что значимыми оказываются все коэффициенты нашегоуравнения.
2. Использование уровня значимости. В этом случае оценка проводит- ся путем анализа показателя р, т.е. уровня значимости
α. Коэффициент при- знается значимым, если рассчитанное для него р-значение (эти данные выда- ет Excel) меньше (или равно) 0,05 (т.е. для 95 %-ной доверительной вероят- ности). Показатель р составляет для коэффициентов b
0
,
b
1 и b
2
следующие ве- личины: р
b0
= 0,05; р
b1
=0,02 и р
b2
=0,02.
Эти данные позволяют также заключить, что все рассмотренные ко- эффициенты статистически значимы. Иначе говоря, можно сделать вывод о неслучайном характере влияния всех изученных параметров.
Таким образом, проверка обоими методами дает вполне согласован- ные результаты. Поэтому в окончательном виде наше уравнение регрессии
(для уровня значимости 0,05) следует записать так: ŷ= 1,61 + 0,06x
1
+ 0,07 x
2

связи показателей коммерческой деятельности с использованием программы Excel
ГОУ ВПО УГТУ
УПИ – 2005
71
3.5. Сравнительная оценка степени влияния факторов
При анализе полученного уравнения множественной регрессии зако- номерно встает вопрос, а какой фактор х
k
из числа рассмотренных оказывает наибольшее влияние на исследуемый параметр у? К сожалению, исчерпы- вающего ответа на этот вопрос нет. Это связано с тем, что наличие возмож- ной взаимосвязи между х-переменными (например, парное взаимодействие типа х
1
х
2
, тройное х
1
х
2
х
3 и т.д.) может сильно усложнить ситуацию. В резуль- тате станет принципиально невозможным выяснить, какая именно из пере- менных х
k
в действительности отвечает за поведение параметра у.
Тем не менее, в статистике даются полезные рекомендации, позво- ляющие получить хотя бы оценочные представления по этому поводу. В ка- честве примера познакомимся с одним из таких методов
сравнение стан-
дартизованных коэффициентов регрессии.
В общем случае все коэффициенты регрессии b
1
, b
2
, …,
b
k
могут быть выражены в разных единицах измерения. Тем самым непосредственное их сравнение становится фактически некорректным, поскольку, скажем, фор- мально меньший по величине коэффициент на деле может оказаться важнее большего. Короче говоря, в данной ситуации мы сталкиваемся с классиче- ской проблемой «попытки сравнения кита и слона». Стандартизованные ко-
эффициенты регрессии позволяют решить эту проблему за счет представле- ния коэффициентов регрессии в некоторых кодированных единицах измере- ния.
Стандартизованный коэффициент регрессии вычисляется путем ум- ножения коэффициента регрессии b
i
на стандартное отклонение S
n
(для на- ших х-переменных обозначим его как S
xk
) и деления полученного произведе- ния на S
у
. Это означает, что каждый стандартизованный коэффициент рег- рессии измеряется как величина b
i
S
xk
/ S
у
.Применительно к нашему примеру получим следующие результаты (табл.10).

Бараз В.Р.
Корреляционно-регрессионный анализ
ГОУ ВПО УГТУ
УПИ – 2005
72
Т а б л и ц а 1 0
Стандартизованные коэффициенты регрессии
Статистические характиристики
Объем продажи
Бабушки с внучками
Помощь Шарика
Стандартные
отклонения
S
у
= 1,06
S
X1
= 8,26
S
X2
= 7,25
Коэффициенты
регрессии

b
1
= 0,06
b
2
= 0,07
Стандартизованные
коэффициенты
регрессии

b
1
S
X1
/
S
у
=
0,06
×8,26/1,06=0,47
b
2
S
X2
/ S
у
=
=0,07
×7,25/1,06=0,48
После проделанных расчетов мы можем на объективном основании сопоставить полученные коэффициенты. Для обоих анализируемых факторов стандартизованные коэффициенты практически одинаковы.
Таким образом, приведенное сравнение абсолютных величин стандар- тизованных коэффициентов регрессии позволяет получить пусть и довольно грубое, но достаточно наглядное представление о важности рассматриваемых факторов. Еще раз напомним, что эти результаты не являются идеальными, поскольку не в полной мере отражают реальное влияние исследуемых пере- менных (мы оставляем без внимания факт возможного взаимодействия этих факторов, что может исказить первоначальную картину).
В целом же проведенный регрессионный анализ дает основание коту
Матроскину по достоинству оценить коммерческий талант Шарика и заду- маться о перспективах делового сотрудничества со своим приятелем из Про- стоквашино. Также оказывает влияние и конкретная категория покупателей – бабушки с внучками. Вместе с тем для Матроскина остаются поводы для творческих размышлений: он явно не принял во внимание все факторы
(вспомним про 33 %, приходящихся на неучтенные причины), поскольку ре- шил ограничиться рассмотрением более понятных и очевидных воздействий на результативность своего молочного бизнеса.

связи показателей коммерческой деятельности с использованием программы Excel
ГОУ ВПО УГТУ
УПИ – 2005
73
4. Анализ «хи-квадрат»: поиск закономерностей
для качественных данных
Когда не знаешь, что именно ты делаешь,
делай это все-таки тщательно.
(Правило Мэрфи)
Если качественные признаки не поддаются упорядочению, то исполь- зовать непараметрические способы уже нельзя. Единственный подсчет, кото- рый в этом случае можно выполнить,
− это попытаться определить частоты проявления исследуемых признаков. Приходится прибегать к оценке наличия связи путем определения так называемого хи-квадрата.
Критерий хи-квадрат используют для проверки гипотез о качествен- ных данных, представленных не числами, а категориями. Здесь принято опе- рировать подсчетом частоты (поскольку ранжирование или арифметические действия выполнять невозможно).
Критерий (тест) «хи-квадрат» основан на частотах, которые пред- ставляют собой количество объектов выборки, попадающих в ту или иную категорию. Суть показателя хи-квадрат (
χ
2
): он измеряет разницу между на-
блюдаемыми (экспериментальными) частотами f
Э
и ожидаемыми (теорети- ческими) частотами f
Т
. Конкретно он рассчитывается как сумма квадратов разности этих частот, выраженная в долях частоты теоретической. Это ут- верждение можно записать следующим образом:
Т
2
Т
Э
2
)
(
f
f
f

Σ
=
χ
Использование такого статистического подхода возможно в разных обстоятельствах. Рассмотрим наиболее распространенные.

Бараз В.Р.
Корреляционно-регрессионный анализ
ГОУ ВПО УГТУ
УПИ – 2005
74
4.1.
Комбинация: нынешние и прошлые события
(критерий «хи-квадрат» соответствия)
Данный способ широко применяется в тех случаях, когда нужно опре- делить, является ли наш нынешний опыт (выраженный в частотах или про-
центах) типичным по отношению к прошлому опыту (набор так называемых
опорных величин). Такую ситуацию можно условно обозначить фразой «Это было недавно, а то было давно. Между ними есть соответствие?»
Тест «хи-квадрат» в отношении соответствия процентов использу- ется для проверки гипотезы о том, что комбинация наблюдаемых частот или процентов (характеризующих одну качественную переменную) построена на данных из некоторой генеральной совокупности с уже известными значе- ниями процентов (опорными величинами).
Можно сформулировать высказанные соображения и по-другому: те результаты, которые мы наблюдаем сейчас (фактические данные, т.е. наш нынешний опыт), по характеру аналогичны прошлым данным (опорным ве- личинам). Это объясняется тем, что и те, и другие относятся к одной и той же генеральной совокупности, но извлекались в разное время (сейчас и когда-то давно).
Ожидаемое значение частоты для каждой категории рассчитывается как произведение заданного опорного значения процента в генеральной сово- купности на размер выборки n. На основании имеющихся знаний о наблю-
даемой ожидаемой частотах анализируемого события определяется собст- венно показатель хи-квадрат. Расчетное значение хи-квадрат затем сравни- вают с критическим (табличным) показателем для соответствующего числа степеней свободы, который определяется как количество категорий минус
единица.
Если оказывается справедливым неравенство
χ
2
расч
>
χ
2
крит
, то с задан- ной вероятностью (или уровнем значимости) можно утверждать, что наблю- даемые частоты (наш опыт) значимо отличаются от тех, которые ожидаются

связи показателей коммерческой деятельности с использованием программы Excel
ГОУ ВПО УГТУ
УПИ – 2005
1   2   3   4   5   6   7   8   9   10


написать администратору сайта