Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием прог - Бараз В.Р.. Корреляционно-регрессионный анализ связи показателей коммерческо. В. Р. Бараз корреляционнорегрессионный анализ
Скачать 1.37 Mb.
|
86 Попробуем выполнить такие расчеты для нашего примера. 234 , 0 905 , 2 50 905 , 2 2 2 П = + = + = χ χ n К ; 184 , 0 ) 1 2 )( 1 4 ( 50 905 , 2 ) 1 )( 1 ( 2 1 2 Ч = − − × = − − = k k n К χ Расчет обоих коэффициентов дает весьма малые величины, что свиде- тельствует об отсутствии связи между исследуемыми характеристиками. Это же подтверждают и оценки по таблице Чеддока: рассчитанные коэффициен- ты, по модулю меньшие 0,3, говорят об отсутствии корреляционной связи. Иначе говоря, использование и этих коэффициентов подтверждает ранее вы- сказанное соображение: анализируемая ситуация по своим параметрам соот- ветствует опорным (ожидаемым) показателям и посему не требует введения каких-либо корректировок. 4.3. Проверка наличия взаимосвязи между двумя качественными переменными (критерий «хи-квадрат» независимости) Возможны ситуации, когда имеются две качественные переменные, т.е. набор экспериментальных данных представляет собой двумерные каче- ственные данные. После изучения каждой из них отдельно с помощью ана- лиза частот (или процентов) может возникнуть вопрос о наличии связи меж- ду ними. Считается, что две качественные переменные являются независимы- ми, если знание значения одной переменной не помогает предсказать значе- ние другой. Представим себе, что ваша фирма разработала технологию гальвани- ческого покрытия никелем стальных деталей автомобильного кузова. В сред- нем процент брака, связанного с отслаиванием покрытия, составляет 3,1 %. Однако когда работает технолог г-н Пупкин, размер брака достигает 11,2 %. связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 87 В этом случае знание значения одной переменной (имя конкретного техноло- га) помогает спрогнозировать значение другой переменной (объем брака оп- ределенного типа), поскольку 3,1 % и 11,2 % различаются между собой. По- явление брака более вероятно во время работы г-на Пупкина и менее вероят- но, когда работает кто-то другой. Следовательно, эти две переменные не яв- ляются независимыми. Использование критерия «хи-квадрат» позволяет решить вопрос о том, являются ли рассматриваемые качественные совокупности зависимыми или же независимыми друг от друга. В этом случае применяется так назы- ваемый критерий «хи-квадрат» независимости, который устанавливает на- личие (или отсутствие) связи между двумя качественными переменными. Для такого анализа используется таблица частот, которые можно было бы ожидать в том случае, если переменные оказались бы независимыми. В общем случае критерий «хи-квадрат» независимости принято представлять следующим образом: 1. Имеются исходные данные в форме табличного списка частот всех комбинаций категорий двух качественных переменных. Обсуждаются сле- дующие гипотезы: а) две переменные не зависят одна от другой; б) две переменные связаны, они не являются независимыми друг от друга. 2. Составляется таблица ожидаемых (теоретических) частот. Для их расчета частоту одной категории (результат эксперимента) следует умно- жить на частоту другой категории (также экспериментальный показатель) и полученное произведение поделить на общий объем выборки n: ⎪ Частота категории f Э1 ⎪ ×⎪ Частота категории f Э2 ⎪ ⎟ для одной переменной ⎪ ⎪ для другой переменной ⎪ Ожидаемая частота f ОЖ(Т) = ------------------------------------------------------------, Общий объем выборки n или более компактно, в символьной форме: n f f f Э Э 2 1 ) Т ( ОЖ × = Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 88 При этом считается, что а) набор данных представляет собой случай- ную выборку из рассматриваемой генеральной совокупности и б) для каждой комбинации категорий ожидаемая частота, по крайней мере, не меньше пяти. 3. Далее проводится анализ «хи-квадрат», расчет выполняется с ис- пользованием знакомого выражения: Т 2 Т Э 2 ) ( f f f − Σ = χ Степень свободы вычисляется следующим образом: f = (k 1 – 1) × (k 2 – 1), где k 1 и k 2 − число категорий соответственно для первой и второй перемен- ной. 4. Результат теста «хи-квадрат2 трактуется так: наличие значимой связи проявляется тогда, когда расчетное значение «хи-квадрат» больше критического (т.е. χ 2 расч > χ 2 крит ), в противном случае значимой связи нет. Давайте познакомимся с этим видом статистического анализа, для че- го рассмотрим следующий пример. Кот Матроскин, занявшись молочным бизнесом, решил провести маркетинговое исследование, чтобы уяснить, какой вид молочной продукции предпочитают те или иные покупатели. Для каждой покупки фиксировались две качественные переменные – вид продукции и тип покупателя. В качестве продаваемой молочной продукции фигурировали молоко, сметана и творог. Покупателей Матроскин условно разделил на две категории – практичные и импульсивные. К первым он отнес тех покупателей, которые идут на рынок уже с четко сформулированным намерением относительно того, что ку- пить и сколько именно. Вторую же категорию составили покупатели, ко- торые решение принимают на месте, непосредственно перед покупкой. Полученные данные статистического опроса аккуратный кот Мат- роскин представил в табличной форме (табл.13), в которой для каждого ви- связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 89 да молочной продукции указал количество совершаемых покупок тем или иным покупателем, т.е. привел фактическую частоту. Необходимо дать заключение по итогам статистической проверки по критерию «хи-квадрат», т.е. сформулировать вывод и пояснить резуль- тат с практической точки зрения – определить какую рыночную страте- гию должен избрать кот Матроскин и, следовательно, на какого покупате- ля и на какой вид молочной продукции ему надлежит ориентироваться Решение этой задачи вновь проделаем в двух вариантах − традицион- ным способом («вручную») и компьютерным. Т а б л и ц а 13 Результаты опроса о перспективах молочного бизнеса Частота предпочтений Вид молочной продукции Практичный покупатель Импульсивный покупатель Молоко Сметана Творог 38 24 18 15 31 27 Для этого дополним таблицу с исходными данными итоговой строкой и дополнительным «суммирующим» столбцом, заполним их, выполнив не- сложные расчеты (табл.14). Т а б л и ц а 14 Дополненные данные по результатам опроса о перспективах молочного бизнеса Частота предпочтений Вид молочной продукции Практичный покупатель Импульсивный покупатель Итого Молоко Сметана Творог 38 24 18 15 31 27 53 55 45 Итого: 80 73 153 Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 90 Чисто визуально трудно ответить, есть ли взаимосвязь между этими признаками: разными категориями покупателей и видами молочной продук- ции. Поэтому необходимо дать анализ распределения частот в таблице по строкам и графам. Будем исходить из следующего положения. Если признак, положен- ный в основу группировки по строкам (вид молочной продукции), не зависит от признака, положенного в основу группировки по столбцам (тип покупа- теля), то в каждой строке (столбце) распределение частот должно быть про- порционально распределению их в итоговой строке (столбце). Такое распре- деление можно рассматривать как теоретическое (ожидаемое), частоты ко- торого рассчитаны в предположении отсутствия связи между изучаемыми совокупностями. Рассчитаем ожидаемые частоты внутри таблицы пропорционально распределению частот в итоговой строке. Так, молоко как один из видов молочной продукции в зависимости от поведения посетителей рынка по частоте попадания в категории «Практич- ный покупатель» и «Импульсивный покупатель» имеет следующие показате- ли: 7 , 27 153 80 53 11 = × = f ; 3 , 25 153 73 53 12 = × = f Для второй строки, т.е. для категории сметана, эти показатели имеют уже такие значения: 8 , 28 153 80 55 21 = × = f ; 2 , 26 153 73 55 22 = × = f Для третьей строки (категория творог): 5 , 23 153 80 45 31 = × = f ; 5 , 21 153 73 45 32 = × = f связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 91 Полученные результаты (вычисленные значения частот) поместим в табл.15. Т а б л и ц а 15 Данные о перспективах молочного бизнеса с учетом ожидаемых частот Ожидаемая частота предпочтений Вид молочной продукции Практичный покупатель Импульсивный покупатель Итого Молоко Сметана Творог 27,7 28,8 23,5 25,3 26,2 21,5 53 55 45 Итого: 80 73 153 Расчетное значение критерия хи-квадрат определим по формуле: ∑∑ = = ∗ ∗ − = 1 2 1 1 2 2 ) ( k i k j ij ij ij f f f χ , где ij f и ∗ ij f − соответственно фактические и теоретические (ожидаемые) частоты в i-й строке и j-го столбца; k 1 и k 2 − соответственно число категорий в строках и столбцах таблицы. Выполним соответствующие расчеты: 4 , 12 5 , 21 ) 5 , 21 27 ( 5 , 23 ) 5 , 23 18 ( 2 , 26 ) 2 , 26 31 ( 8 , 28 ) 8 , 28 24 ( 3 , 25 ) 3 , 25 15 ( 7 , 27 ) 7 , 27 38 ( 2 2 2 2 2 2 2 расч = − + − + + − + − + − + − = χ Далее полагается сравнить расчетное значение χ 2 расч с табличным по- казателем (обычно для уровня значимости 0,05 или 0,01). В рассматриваемом примере число степеней свободы равно двум, т.е. f = (3 − 1) (2 − 1) = 2 * . При * В данном случае и частота и степень свободы обозначены одним и тем же буквенным символом f. Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 92 α = 0,05 табличное значение χ 2 табл при f = 2 составляет 5,991 (прил.5), а для α = 0,01 соответственно 9,210. Поскольку χ 2 расч > χ 2 табл , то с уверенностью на 95 % (даже на 99 %) можно утверждать, что влияние психологического типа покупателя очевидным образом сказывается на результатах коммерческой деятельности кота Матроскина. Ему, как видно, есть над чем поразмышлять. Теперь посмотрим, что нам покажет расторопный Excel. Прежде всего, перенесем данные табл.13 и 14 в рабочий лист Excel (рис.22). При этом в ячейке А22 запишем «ХИ2крит», а соседние ячейки В22 и С22 зарезервируем за численными значениями χ 2 крит Считать будем для двух значений уровня значимости – 0,05 и 0,01. После этого приступим соб- ственно к работе в компьютерном варианте. Для определения показателя χ 2 крит применим функцию ХИ2ОБР. Воспользуемся Мастером функций, а затем командами Статистические/ Хи2обр. При заполнении диалогового окна укажем следующие параметры: для α = 0,05 и 0,01, а для степени свободы − 2. После исполнения всех манипуляций и необходимых округлений в ячейках В22 и С22 будут содержаться следующие результаты: 5,991 и 9,210. Затем произведем необходимые подсчеты ожидаемых частот. Ис- пользуем уже знакомое выражение: n f f f Э Э 2 1 Т) ( ОЖ × = Здесь поступим следующим образом. Вычисленные значения будем помещать в диапазоне ячеек B11:C13. Запишем формулу вычисления ожи- даемых частот, которую затем скопируем для заполнения всей таблицы. Бу- дем использовать знак $ для задания «абсолютного адреса». Так, для расчета первого ожидаемого значения частоты используем выражение = B$9*$D6/$D$9 и получим 27,7124183 (с округлением 27,7). связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 93 Чтобы получить остальные значения ожидаемых частот, проделаем следующее. Выделим ячейку В11, в которой сидит наш первый вычисленный показатель, поднесем курсор к нижнему правому углу и, как только появится маленький черный крестик, протянем вниз, захватывая ячейки В12 и В13. Тот же час в ячейках окажутся рассчитанные значения частот. Если теперь эти ячейки последовательно выделять и протягивать вправо, то в диапазоне С11:С13 появятся остальные показатели. А теперь посмотрим на эти результаты и на скопированную нами табл.14 с ожидаемыми частотами. Что-то очень знакомое! С учетом необхо- димых округлений они почти полные копии друг друга. Теперь мы наглядно представляем, насколько легко Excel справляется с расчетами, над которыми нам перед этим (вспомним ручной счет) при- шлось изрядно потрудиться. Анализ хи-квадрат выполним с помощью функции ХИ2ТЕСТ. Дей- ствием уже привычным образом, используя следующие команды: Мастер функций/ Статистические / Хи2тест. Ячейку В32 выделим для ХИ2ТЕСТ. При заполнении диалогового окна в текстовом поле фактического интервала укажем адрес ячеек B6:С8, в которых находятся эксперименталь- ные данные по частотам (табл.13). Соответственно в текстовом поле ожи- даемого интервала укажем диапазон B16:С18, содержимое которого отража- ет теоретические значения частот (табл.14). Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 94 Рис.22. Лист Excel с результатами расчета критерия хи-квадрат В окончательном виде в ячейке В32 будет находиться следующий по- казатель, а именно: 0,002. Как же следует трактовать полученный результат? Тезис о независи- мости обсуждаемых параметров (вид молочной продукции и психологиче- ский тип покупателя) можно было бы принять, если бы уровень значимости α был бы меньше 0,002. Но для 95 %−ной вероятности (даже 99-процентной) установленные значения α (0,05 и 0,01) превышают 0,002. Это говорит о вы- сокой степени значимости, следовательно, указанные качественные перемен- ные являются зависимыми друг от друга. И еще. Вспомним, что вывод о значимости связи между сопоставляе- мыми переменными можно сделать также на основе сравнения значений χ 2 расч и χ 2 табл . Табличные значения у нас уже есть, это 7,815 и 11,345 (для связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 95 уровней значимости 0,05 и 0,01). Теперь рассчитаем χ 2 расч , для этого по фор- муле Т 2 Т Э 2 ) ( f f f − = χ для каждой комбинации наблюдаемых (эксперимен- тальных) f Э и ожидаемых (теоретических) частот f Т вычислим текущие зна- чения χ 2 , а затем их просуммируем. Результат приведен в виде списка на рис.22 (диапазон ячеек В24:В29) он, как и в случае ручного счета, равен 12,4 (ячейка В30). Дальше знакомые процедуры − сопоставление значений χ 2 расч (12,4), с одной стороны, и χ 2 табл (7,815 и 11,345), с другой, указывает на то, что анализируемые качественные переменные не являются независимыми (мы это утверждаем с риском ошибиться на 5 и даже 1 %). И ручной, и ком- пьютерный расчеты приводят нас к одному и тому же статистическому вы- воду − значимая связь между двумя рассматриваемыми качественными сово- купностями имеет место быть. Таким образом, коту Матроскину, как мы и полагали по итогам руч- ного счета, надлежит внимательно продумать свою дальнейшую коммерче- скую стратегию − продаваемая продукция существенного зависит от того, кто ее покупает. Причем наиболее заметно это проявляется в торговле моло- ком. Очевидно, что свежее молоко предпочитают главным образом покупа- тели основательные, хорошо обдумывающие свой поход на рынок. В тоже время импульсивные визитеры эту продукцию заметно игнорируют, предпо- читая сметану. Такого рода соображения можно высказать на основании вы- полненного анализа. Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 96 Приложения Статистико-математические таблицы Приложение 1 Критические значения корреляции τ крит для уровня значимости α и степени свободы f α f 0,1 0,05 0,01 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100 0,988 0,900 0,805 0,729 0,669 0,622 0,582 0,549 0,521 0,497 0,476 0,457 0,441 0,426 0,412 0,400 0,389 0,378 0,369 0,360 0,323 0,296 0,275 0,257 0,243 0,231 0,211 0,195 0,183 0,173 0,164 0,997 0,950 0,878 0,811 0,754 0,707 0,666 0,632 0,602 0,576 0,553 0,532 0,514 0,497 0,482 0,468 0,455 0,444 0,433 0,423 0,381 0,349 0,325 0,304 0,287 0,273 0,250 0,232 0,217 0,205 0,196 0,999 0,990 0,959 0,917 0,874 0,834 0,798 0,765 0,735 0,708 0,684 0,661 0,641 0,623 0,606 0,590 0,575 0,561 0,549 0,537 0,487 0,449 0,418 0,393 0,372 0,354 0,325 0,302 0,283 0,267 0,254 |