Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием прог - Бараз В.Р.. Корреляционно-регрессионный анализ связи показателей коммерческо. В. Р. Бараз корреляционнорегрессионный анализ
Скачать 1.37 Mb.
|
66 3.4.1. Проверка на адекватность уравнения регрессии Статистическую оценку полученного уравнения (так называемый статистический вывод) принято начинать с проведения F-теста, целью ко- торого является выяснение способности исследуемых факторов х k объяснять значимую часть колебания функции у. Этот тест используется как своеобраз- ные «входные ворота» в статистический вывод: если результат теста значим, то связь существует, значит приступать к ее исследованию и объяснению. Если проверка указывает на незначимость связи, то заключение лишь одно: мы имеем дело с набором случайных чисел, никак не связанных между со- бой. И больше делать нечего, так как нет предмета для анализа. Заметим при этом, что сам формальный факт отсутствия значимости на деле может и не соответствовать отсутствию взаимосвязи как таковой. Просто в указанных обстоятельствах у нас не хватило экспериментальных данных доказать, что такая связь вообще-то есть. Иначе говоря, она может и быть, но из-за малого размера выборки или какой-либо случайности нам не удалось ее доказать на основании тех опытных данных, которые были в на- шем распоряжении. Использование так называемой нулевой гипотезы для F-теста означа- ет, что между переменными х k и у значимая связь отсутствует. Следова- тельно, признается, что параметр у является чисто случайной величиной, по- этому значения переменных х k не оказывают на него никакого систематиче- ского влияния. Применительно к уравнению регрессии это утверждение можно трактовать как случай, когда все коэффициенты уравнения равны ну- лю. С другой стороны, альтернативная гипотеза F-теста говорит о том, что между параметром у и переменными х k существует определенная прогнозирующая взаимосвязь. Следовательно, параметр у уже не является чисто случайной величиной и должен зависеть хотя бы от одной из переменных х k . Тем самым альтернативная гипотеза настаивает на том, что связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 67 Тем самым альтернативная гипотеза настаивает на том, что по крайней мере один из коэффициентов регрессии отличен от нуля. Как видно, здесь прини- мается во внимание следующее обстоятельство: совершенно необязательно, чтобы каждая х-переменная влияла на параметр у, вполне достаточно, чтобы влияла хотя бы одна из них. Для выполнения F-теста воспользуемся результатами компьютерного расчета, который исполнил замечательный Excel. Здесь обычно рекоменду- ются следующие приемы. 1. Решение принимается на основе критерия Фишера. Это достаточно традиционный способ, им привычно пользуются при статистических анализах, хотя по удобству и простоте он может уступать другим методам. Обычно F-тест проводится путем сопоставления вычисленного значе- ния F-критерия с эталонным (табличным) показателем F табл для соответст- вующего уровня значимости. Если выполняется неравенство F расч < F табл , то с уверенностью, например на 95 %, можно утверждать, что рассматриваемая зависимость у = b 0 + b 1 x 1 + b 2 x 2 +…+ b k x k является статистически значимой. В противном случае наоборот. 2. Решение принимается на основе уровня значимости α. Для этого обратим внимание на представленные значения уровня зна- чимости α (в интерпретации Excel это показатель р). Если р-значение боль- ше, чем 0,05, то полученный результат нужно трактовать как незначимый (для 95-процентной вероятности). В том случае, когда величина р оказывает- ся меньше 0,05, то вывод такой: это значимое уравнение с вероятностью 95%. Если же р < 0,01, то полученный результат является высоко значимым, (сте- пень риска ошибиться в нашем утверждении оказывается меньше 1 %, т.е. степень надежности составляет 99 %) 3. Решение принимается на основе коэффициента детерминации R 2 Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 68 В этом случае имеющуюся расчетную величину R 2 расч (это то, что нам выдал Excel, см. рис.18) необходимо сравнить с табличными (критическими) значениями R 2 крит для соответствующего уровня значимости (повторим еще раз, обычно это 0,05). Если окажется, что R 2 расч > R 2 крит , то с упомянутой сте- пенью вероятности (95 %) можно утверждать, что анализируемая регрессия является значимой. Теперь проанализируем наше уравнение с использованием рассмот- ренных статистических критериев. 1. Проведем проверку по F-критерию. Компьютерная распечатка вы- дала нам величину F расч , равную 16,99 (см. лист Excel на рис.18). С учетом сделанных замечаний (стр.36) для анализа уравнения будем пользоваться ве- личиной F расч , обратной представленной Excel. Она составит 1:16,99 = 0,06. Отыщем по эталонной таблице (прил.3) критическую величину F крит при ус- ловии, что для числителя степень свободы f 1 = k, т.е. составит 2 (число воз- действующих факторов равно 2), а для знаменателя f 2 = n − k − 1 = 20 − 2 − − 1= 17. Тогда будем иметь следующие значения для F крит : 3,6 (для α = 0,05), 6,2 ( α = 0,01) и 10,5 (α = 0,001). Понятно, что для всех рассмотренных веро- ятностей выполняется соотношение F расч < F крит , поэтому уверенно можно го- ворить о высокой степени адекватности анализируемого уравнения. 2. Теперь выполним проверку с использованием уровня значимости α (еще раз напомним, что Excel этот показатель именует как р). На рис.18 , где дано изображение листа Excel, находим позицию «Значимость F». Там ука- зана величина 8,84Е-5, т.е. это число 8,84, перед которым стоит 5 нулей. Фак- тически можно признать, что α = 0,000. Это говорит о том, что действитель- но обнаруживается устойчивая зависимость рассматриваемой функции у(ве- личины продажи молока) от воздействующих факторов х 1 и х 2 , т.е. объем реализации не является чисто случайной величиной. Правда, нам пока неиз- вестно, какие именно факторы (оба х 1 и х 2 или какой-то один из них) реально связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 69 участвует в прогнозировании, но нам доподлинно понятно, что по крайней мере один из них влияет непременно. 3. Напомним, что, по нашим расчетам, коэффициент детерминации R 2 расч составляет 0,67, или 67 %. Таблица для тестирования на уровне значи- мости 5 % в случае выборки n = 20 и числа переменных k = 2 дает критиче- ское значение R 2 крит = 0,297 (прил.4). Поскольку выполняется соотношение R 2 расч > R 2 крит , то с вероятностью 95 % можно утверждать о наличии значимо- сти данного уравнения регрессии. Кстати заметим, что для наших обстоятельств (n = 20, k = 2) можно оценить критическое значение R 2 крит для α=0,01 (высокая значимость) и α = = 0,001 (высшая степень значимости). В этом случае R 2 крит составляет соответственно 0,384 и 0,517, что, как видно, все равно остается меньше рас- четного показателя R 2 расч , т.е. 0,67. Из чего следует заключить, что обсуждае- мое нами уравнение действительно характеризуется очень высокой степенью значимости. Как видно, все три рассмотренных приема статистической проверки дают одинаковый результат. В этом примере мы воспользовались подобным разнообразием способов анализа только с одной целью – дать представление о существующих методах такой проверки. На практике же нет нужды прово- дить статистическую оценку с использованием всех указанных вариантов. Вполне разумно (да и экономично) ограничиться каким-то одним методом. Каким именно? Более распространенным методом считается выполнение проверки по F-критерию. Итак, нами проведена проверка на значимость самого уравнения, т.е. мы понимаем, что существует взаимосвязь между параметром у и перемен- ными х k . Однако нам пока неясно, каково влияние конкретных факторов х 1 и х 2 на исследуемую функцию у: действуют ли оба фактора или только какой- то один из них. Поэтому предстоит определить значимость отдельных коэф- Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 70 фициентов регрессии b 1 и b 2 . Для этой цели используется так называемый t- тест. 3.4.2. Проверка на адекватность коэффициентов регрессии Проверку на адекватность коэффициентов регрессии рекомендуется проводить по следующим эквивалентным методам. 1. Использование t-критерия. Необходимые расчеты делает исполни- тельный Excel, который выдает соответствующую компьютерную распечатку с обозначением значений показателя t. Анализируемый коэффициент счита- ется значимым, если его t-критерий по абсолютной величине превышает 2,00 (точнее 1,96), что соответствует уровню значимости 0,05. В нашем примере имеем для коэффициентов b 0 , b 1 и b 2 следующие показатели критерия Стью- дента: t b0 = 2,09; t b1 = 2,59 и t b2 = 2,57. Из всего вышесказанного следует, что значимыми оказываются все коэффициенты нашегоуравнения. 2. Использование уровня значимости. В этом случае оценка проводит- ся путем анализа показателя р, т.е. уровня значимости α. Коэффициент при- знается значимым, если рассчитанное для него р-значение (эти данные выда- ет Excel) меньше (или равно) 0,05 (т.е. для 95 %-ной доверительной вероят- ности). Показатель р составляет для коэффициентов b 0 , b 1 и b 2 следующие ве- личины: р b0 = 0,05; р b1 =0,02 и р b2 =0,02. Эти данные позволяют также заключить, что все рассмотренные ко- эффициенты статистически значимы. Иначе говоря, можно сделать вывод о неслучайном характере влияния всех изученных параметров. Таким образом, проверка обоими методами дает вполне согласован- ные результаты. Поэтому в окончательном виде наше уравнение регрессии (для уровня значимости 0,05) следует записать так: ŷ= 1,61 + 0,06x 1 + 0,07 x 2 связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 71 3.5. Сравнительная оценка степени влияния факторов При анализе полученного уравнения множественной регрессии зако- номерно встает вопрос, а какой фактор х k из числа рассмотренных оказывает наибольшее влияние на исследуемый параметр у? К сожалению, исчерпы- вающего ответа на этот вопрос нет. Это связано с тем, что наличие возмож- ной взаимосвязи между х-переменными (например, парное взаимодействие типа х 1 х 2 , тройное х 1 х 2 х 3 и т.д.) может сильно усложнить ситуацию. В резуль- тате станет принципиально невозможным выяснить, какая именно из пере- менных х k в действительности отвечает за поведение параметра у. Тем не менее, в статистике даются полезные рекомендации, позво- ляющие получить хотя бы оценочные представления по этому поводу. В ка- честве примера познакомимся с одним из таких методов − сравнение стан- дартизованных коэффициентов регрессии. В общем случае все коэффициенты регрессии b 1 , b 2 , …, b k могут быть выражены в разных единицах измерения. Тем самым непосредственное их сравнение становится фактически некорректным, поскольку, скажем, фор- мально меньший по величине коэффициент на деле может оказаться важнее большего. Короче говоря, в данной ситуации мы сталкиваемся с классиче- ской проблемой «попытки сравнения кита и слона». Стандартизованные ко- эффициенты регрессии позволяют решить эту проблему за счет представле- ния коэффициентов регрессии в некоторых кодированных единицах измере- ния. Стандартизованный коэффициент регрессии вычисляется путем ум- ножения коэффициента регрессии b i на стандартное отклонение S n (для на- ших х-переменных обозначим его как S xk ) и деления полученного произведе- ния на S у . Это означает, что каждый стандартизованный коэффициент рег- рессии измеряется как величина b i S xk / S у .Применительно к нашему примеру получим следующие результаты (табл.10). Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 72 Т а б л и ц а 1 0 Стандартизованные коэффициенты регрессии Статистические характиристики Объем продажи Бабушки с внучками Помощь Шарика Стандартные отклонения S у = 1,06 S X1 = 8,26 S X2 = 7,25 Коэффициенты регрессии ─ b 1 = 0,06 b 2 = 0,07 Стандартизованные коэффициенты регрессии ─ b 1 S X1 / S у = 0,06 ×8,26/1,06=0,47 b 2 S X2 / S у = =0,07 ×7,25/1,06=0,48 После проделанных расчетов мы можем на объективном основании сопоставить полученные коэффициенты. Для обоих анализируемых факторов стандартизованные коэффициенты практически одинаковы. Таким образом, приведенное сравнение абсолютных величин стандар- тизованных коэффициентов регрессии позволяет получить пусть и довольно грубое, но достаточно наглядное представление о важности рассматриваемых факторов. Еще раз напомним, что эти результаты не являются идеальными, поскольку не в полной мере отражают реальное влияние исследуемых пере- менных (мы оставляем без внимания факт возможного взаимодействия этих факторов, что может исказить первоначальную картину). В целом же проведенный регрессионный анализ дает основание коту Матроскину по достоинству оценить коммерческий талант Шарика и заду- маться о перспективах делового сотрудничества со своим приятелем из Про- стоквашино. Также оказывает влияние и конкретная категория покупателей – бабушки с внучками. Вместе с тем для Матроскина остаются поводы для творческих размышлений: он явно не принял во внимание все факторы (вспомним про 33 %, приходящихся на неучтенные причины), поскольку ре- шил ограничиться рассмотрением более понятных и очевидных воздействий на результативность своего молочного бизнеса. связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 73 4. Анализ «хи-квадрат»: поиск закономерностей для качественных данных Когда не знаешь, что именно ты делаешь, делай это все-таки тщательно. (Правило Мэрфи) Если качественные признаки не поддаются упорядочению, то исполь- зовать непараметрические способы уже нельзя. Единственный подсчет, кото- рый в этом случае можно выполнить, − это попытаться определить частоты проявления исследуемых признаков. Приходится прибегать к оценке наличия связи путем определения так называемого хи-квадрата. Критерий хи-квадрат используют для проверки гипотез о качествен- ных данных, представленных не числами, а категориями. Здесь принято опе- рировать подсчетом частоты (поскольку ранжирование или арифметические действия выполнять невозможно). Критерий (тест) «хи-квадрат» основан на частотах, которые пред- ставляют собой количество объектов выборки, попадающих в ту или иную категорию. Суть показателя хи-квадрат ( χ 2 ): он измеряет разницу между на- блюдаемыми (экспериментальными) частотами f Э и ожидаемыми (теорети- ческими) частотами f Т . Конкретно он рассчитывается как сумма квадратов разности этих частот, выраженная в долях частоты теоретической. Это ут- верждение можно записать следующим образом: Т 2 Т Э 2 ) ( f f f − Σ = χ Использование такого статистического подхода возможно в разных обстоятельствах. Рассмотрим наиболее распространенные. Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 74 4.1. Комбинация: нынешние и прошлые события (критерий «хи-квадрат» соответствия) Данный способ широко применяется в тех случаях, когда нужно опре- делить, является ли наш нынешний опыт (выраженный в частотах или про- центах) типичным по отношению к прошлому опыту (набор так называемых опорных величин). Такую ситуацию можно условно обозначить фразой «Это было недавно, а то было давно. Между ними есть соответствие?» Тест «хи-квадрат» в отношении соответствия процентов использу- ется для проверки гипотезы о том, что комбинация наблюдаемых частот или процентов (характеризующих одну качественную переменную) построена на данных из некоторой генеральной совокупности с уже известными значе- ниями процентов (опорными величинами). Можно сформулировать высказанные соображения и по-другому: те результаты, которые мы наблюдаем сейчас (фактические данные, т.е. наш нынешний опыт), по характеру аналогичны прошлым данным (опорным ве- личинам). Это объясняется тем, что и те, и другие относятся к одной и той же генеральной совокупности, но извлекались в разное время (сейчас и когда-то давно). Ожидаемое значение частоты для каждой категории рассчитывается как произведение заданного опорного значения процента в генеральной сово- купности на размер выборки n. На основании имеющихся знаний о наблю- даемой ожидаемой частотах анализируемого события определяется собст- венно показатель хи-квадрат. Расчетное значение хи-квадрат затем сравни- вают с критическим (табличным) показателем для соответствующего числа степеней свободы, который определяется как количество категорий минус единица. Если оказывается справедливым неравенство χ 2 расч > χ 2 крит , то с задан- ной вероятностью (или уровнем значимости) можно утверждать, что наблю- даемые частоты (наш опыт) значимо отличаются от тех, которые ожидаются |