Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием прог - Бараз В.Р.. Корреляционно-регрессионный анализ связи показателей коммерческо. В. Р. Бараз корреляционнорегрессионный анализ
Скачать 1.37 Mb.
|
75 исходя из известных нам опорных значений процентов (частот). Следова- тельно, обоснованно можно делать вывод о том, что наблюдаемые выбороч- ные проценты значимо отличаются от заданных опорных значений. Если имеем соотношение χ 2 расч < χ 2 крит , то наблюдаемые значения не- значительно отличаются от опорных показателей и, следовательно, наши фактические результаты не имеют значимых отличий от заданных опор- ных значений. При выполнении такого анализа принято придерживаться следующего эмпирического правила: ожидаемые частоты в каждой категории должны быть, по крайней мере, не меньше пяти (поскольку критерий хи-квадрат ос- тается приблизительной, а не точной оценкой). Анализ критерия соответствия процентов (частот) удобно выпол- нять, придерживаясь следующей схемы. 1. Имеются табличные данные частот для каждой категории одной ка- чественной переменной. Обсуждаются следующие гипотезы: а) частоты (проценты) нынешнего опыта равны набору известных, фиксированных опорных величин (из прошлого опыта); б) частоты (проценты) нынешнего опыта не равны набору опорных величин (данных прошлого опыта). 2. Ожидаемые частоты вычисляются так: нужно для каждой катего- рии умножить известное значение ее доли в общем количестве (генеральной совокупности) на размер выборки n. При этом предполагается, что а) набор данных представляет собой случайную выборку из рассматриваемой генеральной совокупности и б) ожидается наличие, по крайней мере, пяти объектов в каждой из категорий. 3. Анализ «хи-квадрат» проводится с использованием уже упомянуто- го выражения: Т 2 Т Э 2 ) ( f f f − Σ = χ Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 76 Степень свободы f рассчитывается так: f = k − 1, где k − это число категорий, т.е. количество анализируемых параметров. 4. Интерпретация результата теста "хи-квадрат": наличие значимой связи отмечается тогда, когда расчетное значение "хи-квадрат" больше таб- личного или критического (т.е. χ 2 расч > χ 2 крит ), в противном случае значимой связи нет. Теперь приступим к конкретному анализу критерия соответствия час- тот и, самое главное, выясним, как такой расчет можно выполнить с исполь- зованием компьютерной программы Excel. Рассмотрим следующий пример. Среди студентов металлургического факультета, сдававших на первом курсе в летнюю сессию экзамен по математике, был проведен опрос с целью выяснения того, какие факторы влияют на получение неудовлетво- рительной оценки. Число опрошенных студентов составляло 50 человек. Наиболее часто упомянутыми причинами были следующие: 1. Сам виноват, нужно было лучше заниматься. 2. Я знал, да, видите ли, профессор был не в духе. 3. К сожалению, не удалось списать. 4. Сказалось влияние роковых примет (достался билет № 13, по- встречал черного кота, забыл надеть «счастливый» свитер и проч.). Эти ответы можно условно разделить на следующие категории: 1. Сам болван. 2. Вредный «препод». 3. Шпоры. 4. Черный кот. В табл.11 приведены данные о причинах получения «неудов» по ма- тематике за прошедшую сессию, а также указаны значения опорных величин, связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 77 взятые из экзаменационных ведомостей по этому предмету за прошлые годы (по таким же категориям). Как видно из данных таблицы, по количественным показателям все анализируемые причины формально отличаются от опорных значений. Од- нако это различие оказывается далеко неравноценным. Так, можно признать, что в категории самооценки («Сам болван») фактические данные отличаются от соответствующих опорных величин относительно слабо (например, 57 % по сравнению с 59 % для прошлых сессий). В то же время по другим катего- риям относительное различие выглядит более заметным. Особенно бросает- ся в глаза несоответствие по позиции «Шпоры». Т а б л и ц а 11 Итоговые данные о причинах получения неудовлетворительной оценки по математике за анализируемую сессию и сессии прошлых лет Наблюдаемые данные (за прошедшую сессию) Причина Частота Процент от общего числа Опорные значения, % (ожидаемые данные) Сам болван 28 57,0 59,0 Вредный «препод» 10 19,0 14,0 Шпоры 7 14,0 20,0 Черный кот 5 10,0 7,0 Итого: 50 100 100 Вопрос заключается в том, значима ли эта разница? Иначе говоря, могут ли полученные по итогам прошедшей сессии «неуды» рассматриваться как результат извлечения случайной выборки из генеральной совокупности, в которой проценты «неудов» соответствуют опорным величинам? Или еще Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 78 по-другому: достаточно ли велика наблюдаемая разница, чтобы ее нельзя было объяснить только случайностью? Тест хи-квадрат соответствия процентов позволит дать ответ на этот вопрос. Утвердительное заключение получим при условии, когда окажется справедливым соотношение χ 2 расч > χ 2 крит Его нужно будет истолковать так: результаты нынешней сессии и результаты прошлых сессий отличаются ме- жду собой принципиально, поскольку различие между ними не носит слу- чайного характера. Если окажется справедливым неравенство χ 2 расч < χ 2 крит , то с заданной вероятностью можно будет говорить о незначимости различия между анализируемыми результатами. В табл.12 укажем частотные величины для обеих информационных позиций – текущие данные («Наблюдение») и сведения за прошлые годы («Ожидание»). Расчет частот для графы «Ожидание» (т.е. ожидаемые часто- ты) проведем путем умножения значений опорных величин процентов (59 %, 14 %, 20 % и 7 %) на размер выборки (n = 50). В результате получим сле- дующие значения частот: 0,59 ×50 = 29,5; 0,14×50 = 7,0 и т.д. Заметим, что в итоговой строке для обеих колонок общая сумма частот одинакова – равна 50. Т а б л и ц а 12 Наблюдаемые и ожидаемые данные (частоты) о причинах неудовлетворительных отметок Причина Наблюдение Ожидание Сам болван 28 29,5 Вредный «препод» 10 7,0 Шпоры 7 10,0 Черный кот 5 3,5 Итого: 50 50,0 связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 79 Эти данные и будем использовать для решения вопроса о значимом соответствии (или несоответствии) фактических и ожидаемых результатов. Воспользуемся для этого теми возможностями, которые предоставляет при- ложение Excel. Напомним, что нам для анализа нужно располагать величи- нами χ 2 расч и χ 2 крит . Все эти характеристики вычисляются с помощью расто- ропного Excel. Примечание. Вообще-то значения χ 2 крит , как обычно это делается при статистическом анализе, извлекаются из специальных таблиц, содержащих заранее рассчитанные эталонные значения этой характеристики (см. прил.5). Однако в нашем случае используем возможности Excel, поскольку подобную услугу он способен оказать совершенно элементарно. Откроем лист Excel и составим нашу таблицу с имеющими данными (рис. 19). Пусть они будут находиться в диапазоне ячеек (вместе с названия- ми) B2:D6. Пристроим к таблице еще одну графу (Е2:Е6), в которой, помимо заголовка, будут находиться расчетные значения хи-квадрат, вычисленные для каждой строки (т.е. для каждого анализируемого фактора). Расчет проведем по уже известной формуле, запись которой представ- лена в виде: ХИ2расч = Σ(f Э − f Т )^2/f Т , где f Э и f Т − соответственно экспериментальные (наблюдаемые) и тео- ретические (ожидаемые) значения частот. Чтобы выполнить расчет для данных первой строки, выделим ячейку Е3 и в строке формул запишем = (С3-D3)^2/D3. Полученный результат рас- чета появится в этой ячейке. С округлением до третьего знака это составит 0,076. Аналогичные вычисления проделаем для остальных позиций. Для это- го вновь выделим ячейку Е3 и протянем Маркер заполнения(маленький квадратик в правом нижнем углу) вдоль всей графы вниз – во всех соответст- вующих ячейках будут содержаться готовые расчетные значения хи-квадрат. Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 80 Просуммируем эти данные, получим величину 2,905. Это и есть наш искомый χ 2 расч Рис.19. Фрагмент рабочего листа Excel с исходными данными и результатами анализа хи-квадрат Теперь займемся вычислением показателя χ 2 крит . Для этого применим функцию ХИ2ОБР. Для ее запуска предназначена специальная программа. Воспользуемся Мастером функций. Поступим следующим образом: − выделим ту ячейку, в которой должен находиться получаемый ре- зультат; − активизируем Мастер функций кнопкой f x ; − в появившемся диалоговом окне выберем нужную категорию из имеющегося списка и укажем опцию Статистические; − затем отыщем собственно нужную нам функцию Хи2обр, после че- го нажмем на кнопку ОК. связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 81 На экране появится диалоговое окно для ввода параметров, необхо- димых для вычисления критического (табличного) значения хи-квадрата (рис.20). В первом текстовом поле ввода (Вероятность) укажем выбранную величину уровня значимости α. Примем традиционный показатель степени риска, равный 0,05. Во втором поле ввода (Степени свободы) запишем число степеней свободы. В нашем примере фигурируют четыре компонента (причины "не- удов"), поэтому число степеней свободы составит: f = k − 1 = 4 − 1 = = 3. После нажатия на кнопку ОКв выбранной нами ранее ячейке (Е11) появится значение χ 2 крит , равное 7,815 (после надлежащих округлений). Рис.20. Диалоговое окно ввода параметров для определения критического(табличного) значения хи-квадрат Вот с этим-то числом нам и нужно теперь сравнить расчетное значе- ние χ 2 расч . Поскольку выполняется неравенство χ 2 расч < χ 2 крит (2,905 < 7,815), то с вероятностью 95 % можно утверждать, что наблюдаемые (фактические) показатели незначимо отличаются от ожидаемых (опорных) значений. Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 82 Анализ хи-квадрат в режиме Excel можно выполнить и по-другому, с использованием так называемого хи-теста. Функция ХИ2ТЕСТпозволяет определить вероятность того, является ли различие между наблюдаемыми и ожидаемыми значениями статистически значимым результатом. Покажем это на нашем примере. Для этого вновь действуем с помощью Мастера функций: − выделяем ячейку (допустим Е13), в которой должен находиться по- лучаемый результат; − активизируем Мастер функций; − в диалоговом окне выбираем нужную категорию и указываем оп- цию Статистические; − отыскиваем функцию Хи2тест, после чего нажимаем на кнопку ОК. Рис.21. Диалоговое окно ввода параметров для определения расчетногозначения хи-квадрат В появившемся диалоговом окне (рис.21) нужно заполнить текстовые поля, в которых следует указать имеющиеся данные, относящиеся к фактиче- ским и ожидаемым результатам. Напомним, эти данные занимают соответст- венно ячейки C3:C6 и D3:D6. Кстати, после введения интервальных ячеек справа от каждого поля ввода в скобках будут перечислены те табличные значения, которые содер- жались в соответствующих столбцах (рис.21). Там же в окне можно будет прочитать и полученное расчетное значение уровня значимости, равное связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 83 0,406530471. А после нажатия на клавишу ОКэтот результат будет помещен в выделенную нами ячейку. Проведем округление полученного результата до третьего знака после запятой и в окончательном виде получим 0,407. Теперь попытаемся обсудить полученные данные. Указанное число показывает: гипотеза о том, что результаты нынеш- ней сессии отличаются от итогов прошлых лет, высказывается с риском до- пустить ошибку на 40,7 %. И напротив, почти с вероятностью 60 % можно говорить о том, что различие между этими данными несущественное. Как же следует толковать данные анализа хи-квадрат, исполненные обоими способами (сравнением χ 2 расч и χ 2 крит , а также применением функции хи2-тест)? Покажем, что оба подхода идентичны. 1. Нами сделано заключение о статистической неразличимости на- блюдаемых и ожидаемых результатов на основании сопоставления значений χ 2 расч (2,905) и χ 2 крит (7,815). Напомним, что этот вывод был сделан для уровня значимости α = 0,05 (т.е. для 5-процентной степени риска). Теперь попыта- емся выяснить, при каких же условиях можно отважиться на утверждение, что экзаменационные данные нынешней и прошлых сессий (по характеру рассматриваемых факторов влияния на их итоги) все-таки разнятся. Иными словами, определим, когда можно считать, что эти данные являются извлече- нием не из одной и той же генеральной совокупности, а принадлежат к со- вершенно различным массивам. Для этого, используя функцию ХИ2ОБР, рассчитаем значения χ 2 крит для различных уровней значимости, постепенно повышая вероятность допус- тить ошибочный прогноз (увеличивая α). На рабочем листе Excel (рис.19) в виде списка приведены полученные значения χ 2 крит для α, равного соответст- венно 0,05; 0,1; 0,2 и т.д. Закончим расчет и для случая α = 0,407 и 0,41. По- чему надо учесть именно эти числа, обусловлено следующим. Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 84 Наше расчетное значение χ 2 расч (2,905) окажется превышающим χ 2 крит (2,902), когда α будет больше 0,407. Например, для α = 0,41 уже можно опре- деленно говорить, что условие χ 2 расч > χ 2 крит (2,905 ∗ > 2,883) выполняется. По- этому допустимо утверждение, что обе рассматриваемые совокупности яв- ляются различными. 2. Теперь дадим оценку только что сделанному заявлению. Прелесть статистики состоит в том, что она любое утверждение дает с определенной гарантией надежности, т.е. страхуется от проявления возможных случайно- стей (погрешностей). Совершенно недостаточно высказать какое-то сообра- жение. Обязательно также определить, с какой степенью вероятности (или уровнем риска впасть в ошибку) оно формулируется. Когда мы заявили, что влияние рассматриваемых факторов на итоги прошедшей сессии и сессий прошлых лет различаются, то сделали это с рис- ком оказаться неправыми почти на 41 %! Совершенно чудовищная степень ошибочности утверждения! Кто всерьез примет в расчет такое мало обосно- ванное соображение? Поэтому в ситуациях, когда мы должны высказывать суждения с дос- таточной степенью надежности (обычно при α = 0,05, а еще лучше 0,01), ве- личина порогового (критического) значения χ 2 имеет очевидную тенденцию к возрастанию. А это означает, при разумном объеме единиц наблюдения (в данном случае это студенты, большие знатоки математической науки) мы можем говорить лишь о незначимости рассматриваемых итогов. Чтобы все- таки обнаружить подобное возможное различие, следовало бы провести бо- лее масштабное по охвату обследование. Однако можно утешиться тем об- стоятельством, что проделать всю эту процедуру весьма проблематично вследствие недостаточного числа (смеем надеяться!) физически наличест- вующих двоечников. ∗ Числа 2,902 и 2,905 - это фактически одно и то же, различие обусловлено некоторым ис- кажением при выполнении операции округления связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 85 Итак, резюме. Для обсуждаемого примера можно заключить, что «не- уды» по математике, полученные в прошедшую сессию, по характеру причин (в интерпретации самих студентов) соответствуют тем же показателям, что случались и в прошлые годы. Имеющиеся расхождения обусловлены только лишь случайностью (для выборки размером 50). У нас нет убедительных причин полагать, что воздействующие прискорбные факторы как-то принци- пиально изменились (т.е. как было раньше, так и осталось нынче) и повлияли на результативность сдачи экзамена. По-прежнему доминирующей причиной остается собственная нерадивость студентов, а изменения остальных факто- ров вполне укладываются в границы случайных колебаний. Так что в этом отношении у деканата и методической комиссии факультета нет повода для беспокойства. 4.2. О коэффициентах взаимной сопряженности На основе хи-квадрата принято также оценивать показатели степени тесноты связи – коэффициенты взаимной сопряженности К.Пирсона и А.Чупрова. Коэффициент Пирсона рассчитывается по формуле: 2 2 П χ χ + = n К , где χ 2 − расчетное значение хи-квадрата, n – общее число наблюде- ний (объем выборки). Коэффициент Чупрова позволяет учесть число групп по каждому признаку и определяется следующим образом: ) 1 )( 1 ( 2 1 2 Ч − − = k k n К χ , где k 1 и k 2 – соответственно число значений (групп) для первого и второго признаков или, по-другому, число строк и столбцов в таблице, а n – общее число наблюдений (объем выборки). |