Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием прог - Бараз В.Р.. Корреляционно-регрессионный анализ связи показателей коммерческо. В. Р. Бараз корреляционнорегрессионный анализ
Скачать 1.37 Mb.
|
Федеральное агентство по образованию ГОУ ВПО «Уральский государственный технический университет − УПИ» В.Р. БАРАЗ Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием программы Excel Рекомендовано методическим советом ГОУ ВПО УГТУ–УПИ в качестве учебного пособия для студентов, обучающихся по специальности 351300 – «Коммерция (торговое дело)». Екатеринбург 2005 УДК 004.67 : 620.22 : 519.254 ББК 65.304.12 + 32.973 – 018.2 Рецензенты: кафедра технологии металлов Уральского государственного лесотех- нического университета (зав. кафедрой проф., д-р техн. наук Б.А.Потехин); доцент кафедры ОМД УГТУ-УПИ, канд. техн. наук С.И. Паршаков Научный редактор: проф., д-р. техн. наук Б.Е. Хайкин Бараз В.Р. Корреляционно-регрессионный анализ связи показателей коммерческой дея- тельности с использованием программы Excel : учебное пособие / В.Р. БА- РАЗ. – Екатеринбург : ГОУ ВПО «УГТУ–УПИ», 2005. – 102 с. Учебное пособие предназначено для приобретения навыков примене- ния программы Excel при выполнении цикла домашних заданий по темам «Корреляция и регрессия», «Множественная регрессия», «Непараметриче- ские показатели связи», «Анализ хи-квадрат». Рекомендовано для студентов специальности 351300 – «Коммерция (торговое дело) в металлургии», а так- же для студентов других инженерных и экономических специальностей, изу- чающих соответствующие разделы курсов «Статистика» и «Организация эксперимента». Библиогр. 6. Рис. 21. Табл. 14. Подготовлено кафедрой «Металловедения» © ГОУ ВПО «Уральский государственный технический университет – УПИ», 2005 Оглавление Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1. Корреляционная связь и ее статистическое изучение в коммерческой деятельности. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1. Типы зависимостей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2. Методы определения корреляционной связи . . . . . . . . . . . . . . . . . . . . 15 1.3. Расчет коэффициента парной корреляции и его статистическая проверка . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.4. О ложной корреляции (влияние «третьего фактора») . . . . . . . . . . . . . . . . 23 1.5. Измерение степени тесноты связи между качественными признаками (ранговая корреляция) . . . . . . . . . . . . 25 2. Регрессионный метод оценки коммерческой деятельности . . . . . . . . . . . 35 2.1. Аппроксимационные модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.2. Выбор формул лучшего вида . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 37 2.3. Метод наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.4. Поиск уравнения регрессии . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 42 3. Множественная регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.1. Расчет коэффициентов регрессии и представление уравнения множественной регрессии . . . . . . . . . . . . . . . 56 3.2. Интерпретация коэффициентов регрессии . . . . . . . . . . . . . . . . . . . . . . 61 3.3. Ошибки прогнозирования (определение качества регрессионного анализа) . . . . . . . . . . . . . . . . . . 62 3.4. Проверка значимости модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.5. Сравнительная оценка степени влияния факторов . . . . . . . . . . . . . . . . . . 70 4. Анализ «хи-квадрат»: поиск закономерностей для качественных данных . . . . . . . . . . . . . . . . 72 4.1. Комбинация: нынешние и прошлые события (критерий «хи-квадрат» соответствия) . . . . . . . . . . . . . . . . . . . . . . . 73 4.2. О коэффициентах взаимной сопряженности . . . . . . . . . . . . . . . . . . . . . 84 4.3. Проверка взаимосвязи между двумя качественными переменными (критерий «хи-квадрат» независимости) . . . . . . . . . . . . . . . . . . . . . . 85 Приложения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Библиографический список . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 4 Введение Статистика необходима для того, чтобы знать, для того, чтобы предвидеть, для того, чтобы действовать и для того, чтобы проверять. (Робер Дюма) Статистика – в высшей мере логичный и точный метод, позволяющий весьма уклончиво формулировать полуправду. (Из постулатов НАСА) Статистика (немец. Statistik, от латинского status − состояние) рассматривается как наука о методах изучения массовых явлений. Некоторые процессы, наблюдаемые в массовом количестве, обнаруживают определен- ные закономерности, которые, однако, невозможно заметить в отдельном случае или же при небольшом числе наблюдений. Можно дать и другую формулировку: статистика − это наука, за- нимающаяся сбором и анализом данных о событиях, носящих массовый ха- рактер. При этом под данными принято понимать любой вид зарегистриро- ванной информации. Явления, которые в случае событий массового характера отличаются определенной закономерностью, однако не обнаруживаются на основе еди- ничного наблюдения, называются массовыми явлениями. Сама такая законо- мерность называется статистической закономерностью. Статистическая закономерность наблюдается в тех случаях, когда а) в исследуемом процессе действует один общий комплекс причин и когда б) наряду с этим в каждом отдельном случае действуют особые дополнительные причины, всякий раз иные. связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 5 При этом сами причины, которые определяют массовые процессы, принято делить на две категории: − основные причины, которые действуют во всех случаях; − побочные (вторичные) причины, которые проявляются только в от- дельных случаях. Скажем, возрастное старение человека определяется его биологиче- ской конституцией, социальными условиями. Все это, конечно, отражается на продолжительности жизни. Понятно, что названные факторы создают комплекс основных причин. Однако мы понимаем, что в жизни конкретного человека появляется множество дополнительных частных причин (неожи- данная болезнь, стрессы, несчастный случай и проч.), которые порой самым прискорбным образом могут повлиять на его фактическую продолжитель- ность жизни. Если бы имели место только основные причины, то закономерность была бы абсолютной (т.е. для каждого элемента статистического массива одинаковой) и ее можно было бы уловить в каждом отдельном случае. Так, все люди жили бы одинаковое число лет. Вместе с тем, если бы действовали только второстепенные причины, отличные для каждого случая, то никакой закономерности не было бы и воцарился бы полный хаос. Таким образом, статистическая закономерность имеет место тогда, когда существует сочетание основных и побочных причин. При этом можно добавить, что основные причины обусловливают са- мо существование такой закономерности, а побочные причины определяют ее приблизительность. Иначе говоря, закономерность проявляется только в массе случаев, а отдельный случай может отклоняться от общей картины. Можно полагать, что закономерность, вытекающая из постоянного действия основных причин, пробивается сквозь действие разнородных побочных фак- торов. Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 6 Из сказанного становится понятным, что статистика оказывается по- лезной в тех случаях, когда приходится анализировать процессы, которые при массовом наблюдении способны проявлять очевидную закономерность. Если бы действовали только главные причины, без наложения второстепен- ных, то все отдельные случаи были бы совершенно одинаковы, и не возник- ло бы нужды анализировать всю их массу. Достаточно было бы исследовать один из случаев и на его основе сделать выводы, относящиеся уже ко всей исследуемой совокупности. Так, кстати сказать, поступают во многих науках. Например, в химии полагают, что одна капля воды похожа на другую. Про- водят анализ одной пробы воды и на его основе делают обобщение относи- тельно химического состава воды. Аналогично проводятся исследования в биологии или анатомии. Например, анализируется анатомическое строение одной собаки, и делаются выводы об анатомическом строении всех собак. Там же, где закономерность пробивается через результаты воздейст- вия побочных причин, приходится изучать уже целую массу случаев, чтобы иметь возможность выявить закономерность. В такой ситуации исследование единичного примера может привести к ложным заключениям. В массовых процессах обычно различают два элемента: системати- ческий (постоянный) и случайный (побочный). Систематический элемент яв- ляется результатом действия основных причин, случайный элемент − следст- вие действия побочных причин (их сочетание и действие проявляются по- разному в каждом отдельном случае). Статистическая закономерность проявляется более отчетливо в слу- чае действия закона больших чисел. Этот закон отражает закономерно- сти, присущие случайным событиям массового характера. При большом ко- личестве наблюдений влияние случайных факторов взаимно уравновешива- ется, и вступают в действие главные причины, которые отражаются в неко- тором постоянстве средних чисел. связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 7 Например, каждый покупатель в магазине выбирает именно тот товар, который в данный момент ему нужен. Но в целом по магазину можно отно- сительно точно предвидеть общий объем спроса, его структуру за год, в от- дельные сезоны и даже дни недели. Для выявления конкретных закономер- ностей покупательского спроса и нужна статистическая информация, ото- бражающая специфику спроса по дням недели, времени года и в целом за год. Для выполнения закона больших чисел важно соблюсти определен- ные условия: 1. Исследуемый массив должен быть однородным, быть одинакового качества. Это означает, что все элементы массива попадают под действие одних и тех же основных причин. В противном случае могут возникнуть иные основные факторы, и тогда выявить общую картину окажется невоз- можным. Однородна ли данная статистическая масса − этого нельзя установить на основе статистического исследования. Для этого нужен качественный анализ, который проводится методами, применяемыми в соответствующих областях науки (физические, экономические и др.). 2. Побочные причины, воздействующие на разные элементы массива, должны быть независимыми или мало зависимыми друг от друга. Таким образом, не может быть хорошей статистики там, где нет дос- таточно а) многочисленных, б) однородных и в) независимых данных. Если это условие не соблюдено, то отсутствует и подлинная статистика. В курсе общей теории статистики принято условно различать описа- тельную и аналитическую статистику. Описательная статистика пре- имущественно связана с планированием исследования, сбором информации и представлением полученных результатов в виде статистических показателей. Удобная форма представления статистической информации − таблицы, гра- фики. Задача аналитической статистики − выявить причинные связи, Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 8 оценить влияние исследуемых факторов и сделать надлежащие выводы, на основании которых могут быть приняты ответственные решения. Часто ис- следуемый процесс представляется в аналитической форме, т.е. в виде урав- нения (эмпирической формулы). Знание статистики помогает нам принять оптимальные решения. При этом статистика отнюдь не отвергает опыт и интуицию исследователя. Ее можно рассматривать как один из компонентов процесса принятия решения, но отнюдь не как весь процесс. Поэтому есть основания считать, что стати- стика дополняет, но не заменяет деловой опыт, здравый смысл и интуицию человека. И, наконец, не следует забывать, что использование статистики ста- новится все более важным преимуществом в конкуренции. Мощным инструментальным средством при выполнении статистиче- ских исследований является компьютерная техника. В этой связи широкое распространение в деловой сфере (точней – в коммерческой деятельности) получили специальные пакеты прикладных программ. Они позволяют обес- печить весьма впечатляющую быстроту статистических расчетов, высокую надежность и достоверность результатов, возможность легко представлять данные в аналитической, графической или табличной формах. Среди подобных программ большой известностью пользуется прило- жение Microsoft Excel, которое включает в себя программную надстройку «Пакет анализа» и богатую библиотеку с большим числом статистических функций. Основное назначение данного учебного пособия – познакомить сту- дентов с поразительными возможностями этого весьма полезного приложе- ния и показать, как удобно его применять для выполнения достаточно стан- дартных статистических расчетов в деловой сфере. Таким образом, оно адре- совано прежде всего студентам, обучающимся по специальности «Коммер- ция (торговое дело)». Вместе с тем методический способ изложения материа- связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 9 ла, приводимые практические примеры носят достаточно общий характер, и поэтому данное пособие может оказаться пригодным для студентов и других специальностей, изучающих в соответствующих учебных дисциплинах мето- ды статистического анализа данных. Настоящее учебное пособие можно рассматривать как определенное продолжение ранее изданного пособия по этой же теме (В.Р. Бараз. Приме- нение программы Excel для статистических расчетов в материаловедении. – Екатеринбург : ГОУ ВПО УГТУ-УПИ, 2003. – 46 с.). Там основное внимание было уделено рассмотрению способов использования Excel для первичной статистической обработки результатов измерения, аналитического и графи- ческого описания результатов эксперимента. В данном же пособии предпола- гается ознакомить студентов главным образом с приемами оценки корреля- ционно-регрессионной зависимости, включая множественную регрессию, ранговые зависимости, поиск закономерностей для качественных данных (анализ «хи-квадрат»). Каждая глава пособия условно поделена на две части. Первая часть содержит изложение основных положений соответствующего раздела теории статистики. Вторая часть главы – это практикум, где мы, что называется, за- сучив рукава, уже на деле применяем усвоенные теоретические положения, используя незаменимые возможности компьютерной программы Excel. Предложенные для практического рассмотрения примеры по своему содержанию намеренно носят иронично-шутливый характер. Поэтому избыточно серьезный читатель, а тем более достаточно въедливый, легко найдет в этом очевидные изъяны. Однако ис- пользование такого методологического подхода преследовало вполне понятную цель – в легкой и непринужденной манере попытаться рассказать о вещах, в общем-то, довольно скучных, если не сказать просто занудных, однако не теряющих от этого своей несомнен- ной важности и очевидной полезности. Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 10 1. Корреляционная связь и ее статистическое изучение в коммерческой деятельности Качество корреляционной зависимости обратно пропорционально плотности точек. (Один из постулатов Мэрфи) Исследование отдельных статистических объектов позволяет полу- чить о них полезную информацию и описать их стандартными показателями. При этом изучаемую совокупность можно представить в виде ряда распреде- ления путем ранжирования (в порядке возрастания или убывания анализи- руемого количественного признака), дать характеристику этой совокупности, указав центральные значения ряда (среднее арифметическое, медиана, мода), размах варьирования, форму кривой распределения. Такого рода сведения могут быть вполне достаточными в случаях, когда приходится иметь дело с одномерными данными (т.е. лишь с одной характеристикой, например, зар- платой) о каждой единице совокупности (скажем, о сотруднике фирмы). Когда же мы анализируем двумерные данные (например, зарплата и образование), всегда есть возможность изучать каждое измерение по отдель- ности − как часть одномерной совокупности данных. Однако реальную отда- чу можно получить лишь при совместном изучении обоих параметров. Ос- новное назначение такого подхода − возможность выявления взаимосвязи между параметрами. Следовательно, помимо традиционных измерений и последующих вычислений при анализе статистических данных приходится решать пробле- му и более высокого уровня − выявление функциональной зависимости меж- ду воздействующим фактором и регистрируемой (изучаемой) величиной. связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 11 Указанные ситуации весьма типичны в статистической практике, и в этом смысле аналитическая работа коммерсанта весьма богата такими примерами. |