Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием прог - Бараз В.Р.. Корреляционно-регрессионный анализ связи показателей коммерческо. В. Р. Бараз корреляционнорегрессионный анализ
Скачать 1.37 Mb.
|
44 методом, поскольку обеспечивает с определенной вероятностью предсказа- ние любых значений y i в интервале изученных значений x i Напомним, что экстраполяционный метод (в отличие от интерполя- ционного) дает возможность предсказывать результаты за пределами изучен- ной области. После того как уравнение регрессии найдено, необходимо определить его статистическую пригодность, т.е. выяснить, насколько оно верно (надеж- но) предсказывает в интервале х 1 ; х 2 ; … х n экспериментальные результаты для у. Подобную оценку принято называть проверкой на значимость или аде- кватность. 2.4. Поиск уравнения регрессии Рассмотрим на конкретном примере решение задачи по построению уравнения регрессии. Студент Боб Деканкин решил в период летних каникул немного под- заработать, для чего устроился в контору «Ржавая подкова», занимаю- щуюся сбором металлического лома от населения. Начальник конторы г-н Тютякин Фрол Макарович, преисполненный глубоким уважением к учености будущего дипломированного коммерсанта, попросил Боба проанализировать конкретные временные затраты на сбор (среди прочего металлолома) вся- ческих промышленных отходов и бытового старья из меди и ее сплавов. При этом г-на Тютякина интересовало, сколько медного металлолома в среднем можно собрать за одну рабочую смену (8 часов). Боб Деканкин, знакомый с методом регрессионного анализа, решил взяться за порученное дело. В течение месяца он аккуратно регистрировал результаты сбора медного металлолома. Это позволило ему представить в табличной форме (табл.4) основные итоги, указав для статистического массива n = 8: а) затраченное время (часы) и б) вес собранного металлолома (кг). связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 45 Т а б л и ц а 4 Результаты сбора медного лома в конторе «Ржавая подкова» Время, затраченное на сбор медного лома, х, ч 1,5 4,0 5,0 7,0 8,5 10,0 11,0 12,5 Количество собранного металлолома у, кг 5,0 4,5 7,0 6,5 9,5 9,0 11,0 9,0 Итак, исследуется некоторая зависимость y = f(x). Будем исходить из предположения, что эта зависимость описывается линейным уравнением. Об этом предварительно можно судить по виду построенного графика (рис.12). 2.4.1. Использование традиционных способов расчета На первом этапе проведем вычисление традиционным, а потому и са- мым утомительным способом, т.е. «вручную». Здесь нам в лучшем случае может помочь лишь калькулятор. Рис.12. Графическое изображение исследуемой зависимости y = f(x) Вычисление коэффициентов регрессии удобнее проводить в таблич- ной форме. Для этого заполним табл.5, в которой, помимо исходных данных (их мы расположим по столбцам), в графах 4-8 укажем вспомогательные рас- четные данные. Для проверки правильности вычисления в таблице можно использо- вать следующее выражение: Σ(х+у) 2 = Σх 2 + 2Σху + Σу 2 Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 46 1. Определим среднее арифметическое для каждого ряда − для х и у. Они составят соответственно: ⎯ х = 59,5/8 = 7,44 чи у = 61,5/8 = 7,69 кг. Значения полученных сумм подставляем в формулу для последующей проверки. Получим: 2072,00 = 541,75 + 2×510,25 + 509,75; 2072,00 = 2072,00. Следовательно, вычисления выполнены правильно. Т а б л и ц а 5 Вспомогательная таблица для расчета коэффициентов регрессии № п/п х У х 2 у 2 ху х+у (х + у) 2 1 2 3 4 5 6 7 8 1 1,5 5,0 2,25 25,00 7,50 6,50 42,25 2 4,0 4,5 16,00 20,25 18,00 8,50 72,25 3 5,0 7,0 25,00 49,00 35,00 12,00 144,00 4 7,0 6,5 49,00 42,25 45,50 13,50 182,25 5 8,5 9,5 72,25 90,25 80,75 18,00 324,00 6 10,0 9,0 100,00 81,00 90,00 19,00 361,00 7 11,0 11,0 121,00 121,00 121,00 22,00 484,00 8 12,5 9,0 156,25 81,00 112,50 21,50 462,25 Итого Σ=59,5 Σ=61,5 Σ=541,75 Σ=509,75 Σ=510,25 Σ=121,00 Σ=2072,00 2. Рассчитаем теперь коэффициенты b 0 и b 1 по известным формулам: ∑ ∑ ∑ ∑ ∑ ∑ = = = = = = ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − − = n i n i i i n i n i n i n i i i i i i x x n y x x y x b 1 2 1 2 1 1 1 1 2 0 , b 0 = 73 , 3 50 , 59 75 , 541 8 25 , 510 50 , 59 50 , 61 75 , 541 2 = − × × − × кг. связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 47 ∑ ∑ ∑ ∑ ∑ = = = = = ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − − = n i n i i i n i n i i i i n i i x x n y x y x n b 1 2 1 2 1 1 1 1 , b 1 = 53 , 0 50 , 59 75 , 541 8 50 , 61 50 , 59 25 , 510 8 2 = − × × − × кг/ч. Следовательно, уравнение регрессии, т.е. формула, с некоторой веро- ятностью отображающая зависимость у от х, имеет следующий вид: ŷ = 3,73 + 0,53х. 3. Для проверки значимости (пригодности) полученного уравнения регрессии применяют специальные приемы. Такую проверку называют про- веркой адекватности модели. Для количественной проверки гипотезы об адекватности можно ис- пользовать так называемый F − критерий (критерий Фишера): 2 общ 2 ад S S F = Где 2 ад S − остаточная дисперсия, или дисперсия адекватности. Она характеризует величину среднего разброса экспериментальных точек ∆у от- носительно линии регрессии, т.е. ∆у = y i - ŷ i ( ∆у есть ошибка в предсказании экспериментального результата на основании математической модели). Остаточная дисперсия, таким образом, позволяет оценить ошибку, с которой уравнение регрессии предсказывает фактический результат. Сле- довательно, минимальная величина остаточной дисперсии должна свидетель- ствовать о более удачном выборе линии регрессии. Вообще в статистике принято считать, что применение критерия ми- нимальности остаточной дисперсии является вполне надежным способом от- бора адекватных экономико-математических моделей. Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 48 Чтобы определить, велика или мала ошибка в предсказании эмпири- ческих результатов, ее нужно сопоставить с некоторой статистической ве- личиной (эталоном), принимаемой в качестве критической. Вот почему ис- пользуется расчетный F-критерий, который затем сравнивают с F крит Если F расч < F крит , то модель признается адекватной, т.е. с заданной степенью достоверности (надежности) она верно предсказывает реальный ре- зультат. Если же F расч > F крит , то вывод обратный: данное уравнение не может с заданной надежностью прогнозировать эмпирические данные. Проверка адекватности модели по критерию Фишера дает возмож- ность ответить на вопрос, во сколько раз хуже по сравнению с опытом пред- сказывает результат модель. Остаточная дисперсия 2 ад S рассчитывается путем деления остаточной суммы квадратов на число степеней свободы f по следующей формуле: f y S n i ∑ = ∆ = 1 2 2 ад Здесь число степеней свободы f = n − (k + 1), где n − число опытов в экспе- рименте (т.е. объем случайной выборки); k − число изучаемых факторов. Для однофакторного эксперимента имеем f = n − 2 и тогда 2 ) € ( 2 1 2 1 2 2 ад − − = − ∆ = ∑ ∑ = = n y y n y S n i n i Вторая характеристика в формуле для расчета F-критерия (знамена- тель) − это так называемая усредненная, или общая дисперсия. В качестве та- ковой принимается квадрат стандартной ошибки 2 общ S . Этот показатель фак- тически характеризует случайную ошибку для всей выборки, т.е. оценивает несоответствие между конкретными (текущими) значениями результата эксперимента и средним арифметическим. связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 49 Общая дисперсия рассчитывается так: 1 ) € ( ) € ( 1 2 1 2 2 общ − − = − = ∑ ∑ = = n y y f y y S n i i n i i . Вернемся к нашему примеру. Оценим статистическую пригодность полученного линейного уравнения. Показатель 2 ад S удобно вычислять в таб- личной форме (табл.6). Расчет проведем по формулам: 11 , 1 8 86 , 8 1 2 2 ад = = ∆ = ∑ = n y S n i и 63 , 4 8 05 , 35 ) € ( 1 2 2 общ = = − = ∑ = n y y S n i i . Т а б л и ц а 6 Вспомогательная таблица для проверки уравнения на адекватность № п/п x i y i ŷ i =3,73+0,53х y i − ŷ i (y i − ŷ i ) 2 ⎯ y i − y i _ (y i − y i ) 2 1 2 3 4 5 6 7 8 1 1,5 5,0 4,53 0,47 0,221 2,69 7,24 2 4,0 4,5 5,85 −1,35 1,822 3,19 10,18 3 5,0 7,0 6,36 0,62 0,384 0,69 0,48 4 7,0 6,5 7,44 −0,94 0,884 1,19 1,42 5 8,5 9,5 8,24 1,26 1,588 1,81 3,28 6 10,0 9,0 9,03 −0,03 0,001 1,31 1,72 7 11,0 11,0 9,53 1,44 2,074 3,31 10,96 8 12,5 9,0 10,35 −1,35 1,882 1,31 1,72 Σ=59, 5 Σ=61, 5 Σ=0,12 Σ=8,86 Σ=15,51 Σ=36,30 Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 50 Определим величину критерия Фишера: 24 , 0 63 , 4 11 , 1 2 общ 2 ад расч = = = S S F Определим табличное значение для α = 0,05, а также степеней свободы для числителя f 1 ( 2 ад S ) и знаменателя f 2 ( 2 общ S ). Они составят соответственно f 1 = n − 2, т.к. f = n − (k + 1),где n − число опытов в эксперименте (т.е. составляет объем случайной выборки); k − число изучаемых факторов. Для однофактор- ного эксперимента имеем f = n − 2. Для второго показателя f 2 = n − m, где m − количество вычисленных констант для переменной у, которая соответствует среднемарифметическому ⎯у (т.е. m = 1). Тогда f 2 = n − 1,а F крит (0,05; f 1; f 2) = 3,87 (прил.3). Поскольку 0,24 < 3,87, то с вероятностью 95 % можно утверждать, что рассматриваемое уравнение адекватно и способно с указанной достоверно- стью предсказывать экспериментальные результаты. Если теперь возвратиться к самому обсуждаемому заданию, то можно заметить, что смышленый студент Боб Деканкин вполне управился с пору- ченным делом. Он сообщил пытливому г-ну Тютякину, что на основании имеющихся опытных данных можно уверенно спрогнозировать (с надежно- стью 95 %) результат сбора медного лома: за 8 часов работы это составит почти 8 кг (3,7 + 0,53 ×8 = 7,97). Примечание. В литературе по статистике обычно используются два подхода к оценке F расч : либо как отношение 2 ад S / 2 общ S , либо как 2 общ S / 2 ад S . Со- ответственно и статистический вывод на основании сравнения вычисленного F-критерия и эталонного F крит дается с учетом принятого соотношения. Нами рассматривается версия, когда F расч = 2 ад S / 2 общ S ; в то же время в компьютерной программе используется обратное отношение, т.е. F расч = 2 общ S / 2 ад S . Это разли- чие не носит принципиального характера. Важно только помнить, какой при- связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 51 ем для анализа используется и, следовательно, каким образом дается надле- жащее заключение. 2.4.2. Расчет с использованием компьютерной программы А теперь покажем, как всю эту громоздкую и довольно затратную по времени процедуру можно весьма элегантным образом заменить услугами Excel.Для этого на рабочем листе Excel предварительно создадим таблицу с исходными данными, в которой укажем содержимое табл.4. Причем саму таблицу построим по столбцам и поместим ее в ячейках A1:C9. Итоговый ре- зультат показан на рис.13. Далее будем действовать привычным образом: − в главном меню запустим серию команд Сервис/Анализ дан- ных/Регрессия; − в появившемся диалоговом окне заполним поля ввода данных для обоих параметров у и х;для этого в каждое окно (Входной интервал Y и Входной интервал Х) поместим наши данные, выделив их предварительно в соответствующих столбцах (напомним, что для функции у ее данные «сидят» в третьем столбце С2:С9, а для переменной х– во втором, т.е. В2:В9; при этом выделяются только те ячейки, которые содержат исключительно число- вые показатели); − отметим Уровень надежности (доверительную вероятность), рав- ный 95 %; − укажем в окне вывода Выходной интервалту ячейку, от которой будет формироваться весь блок получаемых статистических показателей, это D11; − после чего нажмем кнопку ОК. На рис.13 в собранном виде представлены все упомянутые элементы – исходная таблица (в верхнем левом углу), заполненное диалоговое окно Рег- рессияи, наконец, рассчитанные статистические показатели под заголовком «Вывод итогов». Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 52 Старательный Excel выдал, как мы видим, весьма богатый набор раз- нообразных статистических материалов. Выберем, однако, из них только те, которые нам потребуются для заключительных рассуждений. Интерес представляют показатели, которые именованы как «Коэффициенты». Один из них назван «Y-пересечение», а второй – «Переменная Х 1 ». Это и есть нужные нам коэффициенты регрессии: свободный член b 0 и коэффициент b 1 при аргументе х. Если затем провести надлежащее округление до второго знака после запятой, то получим уже знакомые нам числа 3,73 и 0,53, которые были рассчитаны ранее, что называется, «на коленке». Рис. 13. Лист Excel с результатами расчета коэффициентов регрессии Таким образом, на примере предложенной задачи мы познакомились с проведением регрессионного анализа различными приемами: весьма арха- ичным, требующим значительных и трудоемких расчетов, и компьютерным, легко и быстро позволяющим получить итоговый результат. И последнее. После вычисления коэффициентов полученное уравне- ние регрессии надлежит подвергнуть проверке на адекватность. Такая проце- связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 53 дура была выполнена нами, когда рассматривался первый вариант анализа. Однако и Excel позволяет сделать то же самое. Тот набор показателей, кото- рый мы проигнорировали, когда оценивали представленные данные под за- головком «Вывод итогов», как раз и призван сделать необходимые по этому поводу заключения. Ограничимся пока этими результатами (т.к. оценку при- годности уравнения мы дали, хотя и весьма обременительным способом), бо- лее обстоятельно с возможностями Excel познакомимся в следующей главе. Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 54 3. Множественная регрессия Сложные проблемы всегда имеют простые, легкие для понимания неправильные решения. (Закон Мэрфи) До сих пор нами рассматривалась ситуация, когда на зависимую пе- ременную (функцию) воздействовал только один фактор (аргумент). Подоб- ное прогнозирование принято называть простой регрессией. Такие зависимо- сти мы уже рассмотрели ранее. Однако в подавляющем большинстве случаев приходится иметь дело с экспериментальными данными, касающимися влияния более чем одного фактора. Прогнозирование единственной переменной у на основании не- скольких переменных х k называется |