рооо. Документ 87. Метода сравнения параллельных рядов
Скачать 26.52 Kb.
|
Суть метода сравнения параллельных рядов состоит в том, что полученные в результате группировки и счетной обработки материалы статистического наблюдения располагаются ранжированными по факторному признаку параллельными рядами. Параллельно записываются значения результативного признака. Это дает возможность, сравнивая значения факторных и результативных показателей, проследить соотношения, выявить наличие связи и ее направление. Пример параллельных рядов, позволяющих оценить характер зависимости между стоимостью основных производственных фондов предприятия и объемом его товарного выпуска, приведен в таблице
Из таблицы видно, что с увеличением стоимости основных производственных фондов выпуск продукции увеличивается. Направление и силу корреляционной связи по данным параллельных рядов рассчитывают при помощи коэффициентов Фехнера и корреляции рангов. Коэффициент Фехнера (КФ) оценивает силу связи на основе сравнения знаков отклонений значений вариант от их среднего значения по каждому признаку. Совпадение знаков по факторному и результативному признакам означает согласованную вариацию, несовпадение – нарушение согласованности. где ∑ С – сумма знаков, которые совпали в обоих рядах; ∑ Н – сумма не совпавших знаков Коэффициент Фехнера изменяется в пределах от –1 до +1. При приближении этого коэффициента к +1 наблюдается прямая и сильная согласованность, к –1 имеет место сильная, однако обратная согласованность. При нуле согласованность между исследуемыми признаками отсутствует. Более точно оценивает силу связи коэффициент корреляции рангов. Этот коэффициент учитывает согласованность рангов, соответствующих отдельным единицам совокупности по каждому из двух исследуемых признаков. [3] При вычислении корреляционной связи двух переменных, представленных большими рядами чисел, предварительно составляется корреляционная таблица. В такой таблице каждая строка и каждый столбец являются распределением численностей переменных. Каждый столбец чисел соответствует значениям X, заключенным в некоторых пределах, и называется иксовым строем игреков, а каждая строка чисел соответствует значениям У, заключенным в некоторых пределах, и называется игрековым строем иксов. [4] Познакомимся со способом оценки корреляционной связи посредством расчета коэффициента корреляции, рассмотрев конкретный пример. Расчет коэффициента парной корреляции и его статистическая проверка Существуют различные аналитические приемы определения коэффициента r. Известна такая формула: где S x и S y – среднеквадратичное отклонение соответственно для каждого рассматриваемого массива чисел; x i и y i − текущие значения единиц обеих совокупностей; ⎯x и ⎯ y − их средние величины и n − число измерений (элементов) в каждой совокупности. В литературе по статистике рекомендуется использовать также и другое выражение: В этом случае отпадает необходимость вычислять отклонения текущих (индивидуальных) значений от средней величины. Это исключает ошибку в расчетах при округлении средних величин. Зная коэффициент корреляции, можно дать качественно-количественную оценку тесноты связи. Используются, например, специальные табличные соотношения (так называемая шкала Чеддока).
Такие оценки носят общий характер и не претендуют на статистическую строгость, поскольку не дают гарантий на вероятностную достоверность. Поэтому в статистике принято использовать более надежные критерии для оценки тесноты связи, основываясь на рассчитанных значениях коэффициента парной корреляции (КПК). Здесь может помочь только эталон, с которым можно было бы сравнить вычисленную характеристику. Статистика как раз и занимается созданием таких эталонов, которые называются критическими или табличными значениями. Процедуру установления корреляционной зависимости принято называть проверкой гипотезы. Ее принято проводить в следующей последовательности: −вычисление линейного коэффициента парной корреляции (КПК) между совокупностями случайных величин xi и yi ; −его статистическая оценка (проверка значимости). Статистическую оценку КПК проводят путем сравнения его абсолютной величины с табличным (или критическим) показателем r крит, значения которого отыскиваются из специальной таблицы. Если окажется, что ⎪r расч ≥ r крит⎪, то с заданной степенью вероятности (обычно 95 %) можно утверждать, что между рассматриваемыми числовыми cовокупностями существует значимая линейная связь. Или по-другому − гипотеза о значимости линейной связи не отвергается. В случае же обратного соотношения, т.е. при ⎪r расч < r крит ⎪, делается заключение об отсутствии значимой связи. Пример: С целью анализа взаимного влияния зарплаты и текучести рабочей силы на пяти однотипных фирмах с одинаковым числом работников проведены измерения уровня месячной зарплаты Х и числа уволившихся за год рабочих
Найти линейную регрессию Y на X, выборочный коэффициент корреляции. корреляционный регрессионный анализ моделирование РЕШЕНИЕ. Сначала найдем характеристики случайных величин X и Y (выборочное среднее и выборочное среднее квадратическое отклонение).
О ложной корреляции (влияние «третьего фактора») Часто корреляцию и причинную обусловленность считают синонимами. Этот тезис имеет определенные основания, поскольку если нечто является причиной чего-либо другого, то можно говорить о связи первого и второго и, следовательно, об их коррелированности (например, действие и результат, проверка и качество, капиталовложения и прибыль, окружающая среда и прибыль). Однако корреляция может быть и без причинной обусловленности. Это можно представить так: корреляция − лишь число, которое указывает на то, что большим значениям одной переменной соответствуют большие (или же меньшие) значения другой переменной. Корреляция не может объяснить, почему эти две переменные связаны между собой. Так, корреляция не объясняет, почему капиталовложения порождают прибыль (или наоборот). Корреляция просто констатирует, что между этими величинами существует определенное соответствие. И не более того. Одним из возможных оснований для существования «корреляции без причинной обусловленности» является наличие некоторого скрытого, ненаблюдаемого, третьего фактора, который «маскируется» под другую переменную. В результате фиксируется так называемая «ложная корреляция». Допустим, нами выявлена высокая корреляция между приемом на работу новых менеджеров и созданием новых производственных мощностей. Возможно, именно менеджеры являются «причиной» капиталовложений в новые производственные мощности? Или же, наоборот, создание новых производственных мощностей послужило «причиной» приема на работу новых менеджеров? Скорее всего, однако, здесь проявляется действие третьего фактора − высокой потребности в продукции фирмы, что и послужило причиной и приема на работу новых менеджеров, и создания новых производственных мощностей. В качестве статистического показателя может быть использован также коэффициент (индекс) детерминации (причинности), который равен квадрату коэффициента корреляции (). Он показывает, в какой мере изменчивость у (результативного признака) объясняется поведением х (факторного признака), или иначе: какая часть общей изменчивости у вызвана собственно влиянием х. Этот показатель вычисляется путём простого возведения в квадрат коэффициента корреляции. Тем самым доля изменчивости у, определяемая выражением 1− , оказывается необъясненной. Допустим к примеру, что коэффициент корреляции совокупности данных, относящихся к производственным затратам, равняется 0,869193. Следовательно, значение равно = 0,869193 2 = 0,755 или 75,5 %. Это значение говорит о том, что 75,5 % вариации (изменчивости), скажем, недельных затрат объясняется количеством изделий, выпущенных за неделю. Остальная часть (24,5 %) вариации общих затрат объясняется какими-то другими причинами. Это значит, что более чем на 75 % мы знаем, что влияет на изменение изучаемого параметра, но почти на 25 % ничего путного сказать не можем о причинах наблюдаемой изменчивости. Величина этого коэффициента меняется в пределах от 0 до 1. Чем ближе он к единице, тем, следовательно, меньше в нашей модели процесса влияние неучтенных факторов и тем больше оснований считать, что указанная зависимость отражает степень эффективности воздействия изучаемого фактора. Формально могут возникать ситуации двух типов: 1. Вид функциональной зависимости неизвестен. В этом случае нужно решить предварительно задачу, направленную на отыскание подходящей функциональной зависимости. Это достаточно сложная задача, но она успешно решается современными средствами информационных технологий (программа Excel). 2.Вид функциональной зависимости известен и требуется только найти ее параметры (коэффициенты регрессии b 0 , b 1 , b 2 , …). Термином линейный регрессионный анализ обозначают такое прогнозирование, которое описывается линейной взаимосвязью между исследуемыми переменными: y = b0 + b1x. При всем разнообразии эмпирических формул все же имеется вид аналитической зависимости, получивший широкое распространение. Им является уравнение регрессии в виде многочленов (полинома), расположенных по восходящим степеням изучаемого фактора и одновременно линейных ко всем коэффициентам. Такая формула имеет вид: y = f(x) = b0 + b1x + b2x2 +…+bm , где b0 , b1 , b2 ,…, bm − коэффициенты, подлежащие определению. Этот ряд − сходящийся, т.к. стремится к некоторому пределу. Эмпирические формулы (аппроксимирующие уравнения) всегда имеют ограниченную область применения, которая не должна выходить за пределы имеющихся опытных данных. Широкое применение аппроксимирующих уравнений объясняется следующими причинами: 1. Точное аналитическое выражение зависимости между исследуемыми величинами может оставаться неизвестным и поэтому по необходимости приходится ограничиваться приближенными формулами эмпирического характера. 2. Точная функциональная зависимость выражается формулой настолько сложной, что ее непосредственное применение при вычислениях было бы очень затруднительным. Эмпирические формулы могут быть разнообразными, т.к. при выборе аналитической зависимости руководствуются не какими-то строгими теориями (физическими или экономическими), а ставят только одно условие −возможно близкое соответствие значений, вычисленных по формуле опытным данным. Таким образом, формально описание одного и того же процесса можно дать разными по виду уравнениями. Их пригодность оценивается только по одному критерию − наиболее точное предсказание экспериментального результата. В эмпирическую формулу можно вводить различное число постоянных параметров (коэффициентов), величину которых нужно определить с большой точностью. Более удачными (удобными) следует считать уравнения с небольшим числом коэффициентов (не более 2−3). В противном случае возрастают трудности с применением таких формул. Метод наименьших квадратов Для определения коэффициентов уравнения регрессии b применяют разные методы (графический, метод средних), однако наибольшее распространение получил метод наименьших квадратов (МНК). Экспериментальные данные о значениях переменных х и у приведены в таблице
В результате их выравнивания получена функция Используя метод наименьших квадратов , аппроксимировать эти данные линейной зависимостью y=ax+b (найти параметры а и b). Выяснить, какая из двух линий лучше (в смысле метода наименьших квадратов) выравнивает экспериментальные данные. Суть метода наименьших квадратов Задача заключается в нахождении коэффициентов линейной зависимости, при которых функция двух переменных а и b принимает наименьшее значение. То есть, при данных а и b сумма квадратов отклонений экспериментальных данных от найденной прямой будет наименьшей. В этом вся суть метода наименьших квадратов. Таким образом, решение примера сводится к нахождению экстремума функции двух переменных. Вывод формул для нахождения коэффициентов. Составляется и решается система из двух уравнений с двумя неизвестными. Находим частные производные функции по переменным а и b, приравниваем эти производные к нулю. При данных а и b функция Вот и весь метод наименьших квадратов. Формула для нахождения параметра a содержит суммы ; ; ; и параметр n - количество экспериментальных данных. Значения этих сумм рекомендуем вычислять отдельно. Коэффициент b находится после вычисления a. Пришло время вспомнить про исходный пример. Решение. В нашем примере n=5 . Заполняем таблицу для удобства вычисления сумм, которые входят в формулы искомых коэффициентов.
Значения в четвертой строке таблицы получены умножением значений 2-ой строки на значения 3-ей строки для каждого номера i . Значения в пятой строке таблицы получены возведением в квадрат значений 2-ой строки для каждого номера i . Значения последнего столбца таблицы – это суммы значений по строкам. Используем формулы метода наименьших квадратов для нахождения коэффициентова и b. Подставляем в них соответствующие значения из последнего столбца таблицы: Следовательно, y = 0.165x+2.184 - искомая аппроксимирующая прямая. Оценка параметров уравнения регрессии Задание: По группе предприятий, выпускающих один и тот же вид продукции, рассматриваются функции издержек: Уравнение регрессии Коэффициент детерминации R 2= 0.94 2 = 0.89, т.е. в 88.9774 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии – высокая |