Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием прог - Бараз В.Р.. Корреляционно-регрессионный анализ связи показателей коммерческо. В. Р. Бараз корреляционнорегрессионный анализ
Скачать 1.37 Mb.
|
1.1. Типы зависимостей Зависимость одной случайной величины от значений, которые прини- мает другая случайная величина (физическая характеристика), в статистике называется регрессией. Если этой зависимости придан аналитический вид, то такую форму представления изображают уравнением регрессии. Процедура поиска предполагаемой зависимости между различными числовыми совокупностями обычно включает следующие этапы: − установление значимости связи между ними * ; − возможность представления этой зависимости в форме математиче- ского выражения (уравнения регрессии). Первый этап в указанном статистическом анализе касается выявления так называемой корреляции, или корреляционной зависимости. Корреляция рассматривается как признак, указывающий на взаимосвязь ряда числовых последовательностей. Иначе говоря, корреляция характеризует силу взаимо- связи в данных. Если это касается взаимосвязи двух числовых массивов x i и y i , то такую корреляцию называют парной. При поиске корреляционной зависимости обычно выявляется вероят- ная связь одной измеренной величины x (для какого-то ограниченного диа- пазона ее изменения, например от x 1 до x n ) с другой измеренной величиной y (также изменяющейся в каком-то интервале y 1 … y n ). В таком случае мы бу- дем иметь дело с двумя числовыми последовательностями, между которыми и надлежит установить наличие статистической (корреляционной) связи. На этом этапе пока не ставится задача определить, является ли одна из этих слу- чайных величин функцией, а другая – аргументом. Отыскание количествен- * Статистический смысл термина значимость означает, что анализируемая зависимость проявляется сильнее, чем это можно было бы ожидать от чистой случайности. Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 12 ной зависимости между ними в форме конкретного аналитического выраже- ния y = f(x) − это задача уже другого анализа, регрессионного. Таким образом, корреляционный анализ позволяет сделать вывод о си- ле взаимосвязи между парами данных х и у, а регрессионный анализ исполь- зуется для прогнозирования одной переменной (у) на основании другой (х). Иными словами, в этом случае пытаются выявить причинно-следственную связь между анализируемыми совокупностями. Схематическое изображение изложенных соображений представлено на рис.1. Рис.1. Схематическое пояснение сути корреляционного и регрессионного анализов Строго говоря, принято различать два вида связи между числовыми со- вокупностями – это может быть функциональная зависимость или же стати- стическая (случайная). При наличии функциональной связи каждому значе- нию воздействующего фактора (аргумента) соответствует строго определен- ная величина другого показателя (функции), т.е. изменение результативного признака всецело обусловлено действием факторного признака. связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 13 Графически это (при наличии линейной зависимости) может быть представлено в виде прямой линии (рис.2а). а б Рис.2. Зависимость функциональная (а) и статистическая (б) Аналитически функциональная зависимость представляется в следую- щем виде: y = f(x). В случае статистической связи значению одного фактора соответст- вует какое-то приближенное значение исследуемого параметра, его точная величина является непредсказуемой, непрогнозируемой, поэтому получае- мые показатели оказываются случайными величинами. Это значит, что изме- нение результативного признака уобусловлено влиянием факторного при- знака х лишь частично, т.к. возможно воздействие и иных факторов, вклад которых обозначен как ε : y = ϕ (x) + ε По своему характеру корреляционные связи – это соотносительные связи. Примером корреляционной связи показателей коммерческой деятель- ности является, например, зависимость сумм издержек обращения от объема товарооборота. В этой связи помимо факторного признака х(объема товаро- оборота) на результативный признак у(сумму издержек обращения) влияют и другие факторы, в том числе и неучтенные, порождающие вклад ε. y y x x Поле корреляции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 14 Такая зависимость графически изображается в виде эксперименталь- ных точек, образующих поле рассеяния, или, как принято говорить, поле кор- реляции (рис.2б). Следовательно, такие двумерные данные можно анализиро- вать с использованием диаграммы рассеяния в координатах «х – у», которая дает визуальное представление о взаимосвязи исследуемых совокупностей. Для количественной оценки существования связи между изучаемыми совокупностями случайных величин используется специальный статистиче- ский показатель – коэффициент корреляции r. Если предполагается, что эту связь можно описать линейным уравне- нием типа y = a + bx (где a и b − константы), то принято говорить о существовании ли- нейной корреляции. Коэффициент r − это безразмерная величина, она может меняться от 0 до ±1. Чем ближе значение коэффициента к единице (неважно, с каким зна- ком), тем с большей уверенностью можно утверждать, что между двумя рас- сматриваемыми совокупностями переменных существует линейная связь. Иными словами, значение какой-то одной из этих случайных величин (y) су- щественным образом зависит от того, какое значение принимает другая (x). Если окажется, что r = 1 (или −1), то имеет место классический случай чисто функциональной зависимости (т.е. реализуется идеальная взаимо- связь). При анализе двумерной диаграммы рассеяния можно обнаружить раз- личные взаимосвязи. Простейшим вариантом является линейная взаимосвязь, которая выражается в том, что точки размещаются случайным образом вдоль прямой линии. Диаграмма свидетельствует об отсутствии взаимосвязи, если точки расположены случайно, и при перемещении слева направо не- возможно обнаружить какой-либо уклон (ни вверх, ни вниз). Если точки на ней группируются вдоль кривой линии, то диаграмма рассеяния характеризуется нелинейной взаимосвязью. Такие ситуации вполне связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 15 возможны. Тем не менее, для удобства понимания сути корреляционного со- отношения мы ограничимся рассмотрением варианта линейной зависимо- сти. 1.2. Методы определения корреляционной связи Корреляцию и регрессию принято рассматривать как совокупный процесс статистического исследования, поэтому их использование в стати- стике часто именуют корреляционно-регрессионным анализом. Если между парами совокупностей просматривается вполне очевид- ная связь (ранее нами это исследовалось, есть публикации на данную тему и т.д.), то, минуя стадию корреляции, можно сразу приступать к поиску урав- нения регрессии. Если же исследования касаются какого-то нового процесса, ранее не изучавшегося, то наличие связи между совокупностями является предметом специального поиска. При этом условно можно выделить методы, которые позволяют оце- нить наличие связи качественно, и методы, дающие количественные оценки. Чтобы выявить наличие качественной корреляционной связи между двумя исследуемыми числовыми наборами экспериментальных данных, су- ществуют различные методы, которые принято называть элементарными. Ими могут быть приемы, основанные на следующих операциях: − параллельном сопоставлении рядов; − построении корреляционной и групповой таблиц; − графическом изображении с помощью поля корреляции. Другой метод, более сложный и статистически надежный, − это коли- чественная оценка связи посредством расчета коэффициента корреляции и его статистической проверки. Познакомимся со способом оценки корреляционной связи посредст- вом расчета коэффициента корреляции, рассмотрев конкретный пример. Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 16 1.3. Расчет коэффициента парнойкорреляции и его статистическая проверка Существуют различные аналитические приемы определения коэффи- циента r. Известна такая формула: где S x и S y – среднеквадратичное отклонение соответственно для каждого рассматриваемого массива чисел; x i и y i − текущие значения единиц обеих совокупностей; ⎯x и ⎯ y − их средние величины и n − число измерений (эле- ментов) в каждой совокупности. В литературе по статистике рекомендуется использовать также и дру- гое выражение: ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − − = ∑ ∑ ∑ ∑ ∑ ∑ ∑ = = = = = = = n i n i i i n i n i i i n i n i n i i i i i y y n x x n y x y x n r 1 2 1 2 1 2 1 2 1 1 1 ) ( ) ( В этом случае отпадает необходимость вычислять отклонения теку- щих (индивидуальных) значений от средней величины. Это исключает ошиб- ку в расчетах при округлении средних величин. Зная коэффициент корреляции, можно дать качественно- количественную оценку тесноты связи. Используются, например, специаль- ные табличные соотношения (так называемая шкала Чеддока). , ) )( ( 1 1 1 y x n i i i S S y y x x n r ∑ = − − − = связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 17 Ее представление может иметь следующий вид (табл. 1): Т а б л и ц а 1 Качественная оценка тесноты связи Величина коэффициента парной корреляции Характеристика силы связи До 0,3 0,3 −0,5 0,5 −0,7 0,7 −0,9 0,9 −0,99 Практически отсутствует Слабая Заметная Сильная Очень сильная Такие оценки носят общий характер и не претендуют на статистиче- скую строгость, поскольку не дают гарантий на вероятностную достовер- ность. Поэтому в статистике принято использовать более надежные критерии для оценки тесноты связи, основываясь на рассчитанных значениях коэффи- циента парной корреляции (КПК). Здесь может помочь только эталон, с которым можно было бы срав- нить вычисленную характеристику. Статистика как раз и занимается созда- нием таких эталонов, которые называются критическими или табличными значениями. Процедуру установления корреляционной зависимости принято назы- вать проверкой гипотезы. Ее принято проводить в следующей последова- тельности: − вычисление линейного коэффициента парной корреляции (КПК) между совокупностями случайных величин x i и y i ; − его статистическая оценка (проверка значимости). Статистическую оценку КПК проводят путем сравнения его абсолют- ной величины с табличным (или критическим) показателем r крит , значения которого отыскиваются из специальной таблицы. Если окажется, что ⎪r расч ≥ r крит ⎪, то с заданной степенью вероятности (обычно 95 %) можно утверждать, что между рассматриваемыми числовыми Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 18 совокупностями существует значимая линейная связь. Или по-другому − ги- потеза о значимости линейной связи не отвергается. В случае же обратного соотношения, т.е. при ⎪r расч < r крит ⎪, делается заключение об отсутствии значимой связи. Перейдем к рассмотрению конкретного примера. Рассмотрим не- сколько шутливую ситуацию с привлечением известных героев популярного мультфильма «Трое из Простоквашино». Дядя Федор с озабоченностью отметил, что в продолжение про- шедшей недели у кота Матроскина заметно снизилась эффективность лов- ли мышей. Сам Матроскин объяснил означенный настораживающий факт тем, что погода в это время портилась, и средняя температура имела тен- денцию к устойчивому понижению. Однако пес Шарик посчитал, что причи- на совершенно в ином – просто Матроскин разленился, стал много больше спать, и мышам стало вольготнее. Дядя Федор решил внимательно проанализировать возникшую про- блему и собрал необходимые для этого данные за n = 7 дней. Полученные ре- зультаты он аккуратно свел в табл.2, где указал число пойманных мышей за каждый день исследуемой недели, среднюю дневную температура за этот период и, наконец, число часов, которые кот отвел себе для сна. На основании этих данных дяде Федору важно было выяснить, есть ли корреляция между названными показателями, и какая из возможных при- чин – изменение температуры или продолжительность сна – сказались в большей степени на результативности поимки серых грызунов. связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 19 Т а б л и ц а 2 Снижение эффективности мышиной охоты кота Матроскина и ее возможные причины Дни Число пойманных мышей Средняя дневная температура, °C Продолжительность сна, часы 1 2 3 4 5 6 7 7 8 5 6 5 4 3 17 15 13 12 12 10 8 7 8 8 10 11 10 12 Работать будем с приложением Excel, поэтому запустим его: − нажмем кнопку Пускв панели задач (находится слева на самой нижней полосе Рабочего стола), а затем откроем во всплывающем меню оп- цию Программы; − выберем пункт Microsoft Excel; откроется книга Excel с указанием рабочего листа 1 (внизу экрана будет высвечен знак Лист 1). Подготовим табл.1 в виде четырех столбцов. Вначале заготовим «шапку» таблицы. Для этого в ячейках A2; B2; C2 и D2 запишем соответст- венно «Дни», «Число пойманных мышей», «Средняя дневная температура, °C» и «Продолжительность сна, часы». Затем разместим сами числовые на- боры соответственно в диапазонах ячеек А3:А9, B3:B9, C3:C9 и D3:D9 (рис.2). Укажем также таблицу, в которой поместим расчетные значения ко- эффициента. Выделим для этого диапазон ячеек С13:D16, где будут нахо- диться необходимые заголовки. Сами же значения коэффициента корреляции будем помещать в ячейки D15 и D16 (рис.3). Бараз В.Р. Корреляционно-регрессионный анализ ГОУ ВПО УГТУ −УПИ – 2005 20 Далее определим коэффициент корреляции с помощью Мастера функций. Вначале выполним расчет для соотношения «Количество пойман- ных мышей – средняя дневная температура». Рис.3. Исходные данные и расчет коэффициента корреляции. Действуем в такой последовательности: − в итоговой таблице активизируем ячейку D15, куда и будет помеще- но первое расчетное значение КПК; − запустим Мастер функций (ищем в инструментальной строке зна- чок f) и в всплывающем диалоговом окне укажем требуемую категорию – Статистические, а затем выделим нужную функцию Коррел, после чего – ОК (рис.4); − в появившейся панели Коррел нужно заполнить текстовые поля для Массив 1(т.е. указать диапазон ячеек B3:B9) и для Массив 2 (C3:C9); для этого выделим в нашей таблице последовательно 2-ю и 3-ю колонки (там, напомним, размещены числовые значения мышейи температуры), причем связи показателей коммерческой деятельности с использованием программы Excel ГОУ ВПО УГТУ −УПИ – 2005 21 каждый раз в соответствующих окнах должен находиться маркер (мерцаю- щая вертикальная черточка); выделенная колонка по периметру будет обрам- лена бегущей пунктирной линией (рис.5); − и, наконец, нажмем кнопку ОК. Аналогичным образом поступим для расчета второго коэффициента, используя вновь 2-ю колонку, а также следующую 4-ю колонку («Продолжи- тельность сна, часы»). В выделенных ячейках D15 и D16 (рис.3) появятся числа, указываю- щие соответствующие значения коэффициентов корреляции. После установ- ления нужной разрядности в окончательном виде получим следующие значе- ния: r расч1 = 0,898 и r расч2 = − 0,764. Рис.4. Диалоговое окно Мастер функций Первый коэффициент показывает, насколько заметна теснота связи параметров «Количество пойманных мышей – средняя дневная температу- |