Выбор формы уравнения регрессии
![]()
|
Как и в парной зависимости, возможны разные виды уравнений множественной регрессии линейные и нелинейные. ![]() Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции. В линейной множественной регрессии параметры при x называются коэффициентами чистой регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закрепленных на среднем уровне. Стандартные компьютерные программы обработки регрессионного анализа позволяют перебирать различные функции и выбрать ту из них, для которой остаточная дисперсия и ошибка аппроксимации минимальны, а коэффициент детерминации максимален. Если исследователя не устраивает предлагаемый стандартный набор функций регрессии, то можно использовать любые другие, приводимые путем соответствующих преобразований к линейному виду. Однако чем сложнее функция, тем менее интерпретируемы ее параметры. При сложных полиномиальных функциях с большим числом факторов необходимо помнить, что каждый параметр преобразованной функции является средней величиной, которая должна быть подсчитана по достаточному числу наблюдений. Если число наблюдений невелико, что, как правило, имеет место в эконометрике, то увеличение числа параметров функции приведет к их статистической незначимости и соответственно потребует упрощения вида функции. Если один и тот же фактор вводится в регрессию в разных степенях, то каждая степень рассматривается как самостоятельный фактор. В эконометрике регрессионные модели часто стоятся на основе макроуровня экономических показателей, когда ставится задача оценки влияния наиболее экономически существенных факторов на моделируемый показатель при ограниченном объеме информации. Поэтому полиномиальные модели высоких порядков используются редко. 2. Суть корреляционного и регрессионного анализа. Основные задачи решаемые методами анализа Формы проявления корреляционной связи между признаками: 1) причинная зависимость результативного признака от вариации факторного признака; 2) корреляционная связь между двумя следствиями общей причины. Здесь корреляцию нельзя интерпретировать как связь причины и следствия. Оба признака - следствие одной общей причины; 3) взаимосвязь признаков, каждый из которых и причина, и следствие. Каждый признак может выступать как в роли независимой переменной, так и в качестве зависимой переменной. Задачи корреляционно-регрессионного анализа: 1) выбор спецификации модели, т. е. формулировки вида модели, исходя из соответствующей теории связи между переменными; 2) из всех факторов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы; 3) парная регрессия достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной. Поэтому необходимо знать, какие остальные факторы предполагаются неизменными, так как в дальнейшем анализе их придется учесть в модели и от простой регрессии перейти к множественной; 4) исследовать, как изменение одного признака меняет вариацию другого. Предпосылки корреляционно-регрессионного анализа: 1) уравнение парной регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по совокупности наблюдений; 2) в уравнении регрессии корреляционная связь признаков представляется в виде функциональной связи, выраженной соответствующей математической функцией; 3) случайная величина Е включает влияние неучтенных в модели факторов, случайных ошибок и особенностей измерения; 4) определенному значению признака-аргумента отвечает некоторое распределение признака функции. Недостатки анализа: 1) невключение ряда объясняющих переменных: a. целенаправленный отказ от других факторов; b. невозможность определения, измерения определенных величин (психологические факторы); c. недостаточный профессионализм исследователя моделируемого; 2) агрегирование переменных (в результате агрегирования теряется часть информации); 3) неправильное определение структуры модели; 4) использование временной информации (изменив временной интервал, можно получить другие результаты регрессии); 5) ошибки спецификации: a. неправильный выбор той или иной математической функции; b. недоучет в уравнении регрессии какого-либо существенного фактора, т. е. использование парной регрессии, вместо множественной); 6) ошибки выборки, так как исследователь чаще имеет дело с выборочными данными при установлении закономерной связи между признаками. Ошибки выборки возникают и в силу неоднородности данных в исходной статистической совокупности, что бывает при изучении экономических процессов; 7) ошибки измерения представляют наибольшую опасность. Если ошибки спецификации можно уменьшить, изменяя форму модели (вид математической формулы), а ошибки выборки - увеличивая объем исходных данных, то ошибки измерения сводят на нет все усилия по количественной оценке связи между признаками. 3. Поле корреляции Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (xi, yi) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений xi и yi. При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д. Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения xi и yi. Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами xi и yi графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем. Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: μx, μy – средние значения (математические ожидания); σx,σy – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y. Если р = 0, то значения, xi, yi, полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y. ![]() Рисунок 5 - Графическая интерпретация взаимосвязи между показателями Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения xi, yi определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением xi значения yi также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рисунок 5, б). В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi, yi, попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p > 0 имеет место положительная корреляция (с увеличением xi значения yi имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к ![]() Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции. Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y – зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.[2] 4. Линейная регрессия и корреляция, смысл и оценка параметров. Сопряженные регрессионные прямые Сопряженные регрессионные прямые До сих пор обсуждалась регрессия у на х: ![]() (1.1) т. е у рассматривалась как зависимая переменная, а х — как объясняющая. На практике часто встречаются экономические явления, между которыми существует взаимодействие, т. е. переменная у зависит от переменной х и, наоборот, переменная х зависит от у. В таких случаях говорят о логически обратимых регрессиях. При переходе от одной постановки задачи к другой нельзя просто из уравнения (1.1) выразить х через ![]() В предположении линейной зависимости в качестве функции регрессии примем уравнение прямой ![]() По сравнению с регрессией у на х переменные в (1.2) поменяли свои места. Зависимой переменной, или переменной, подлежащей объяснению, в данном случае является ![]() ![]() ![]() Параметр ![]() ![]() ![]() ![]() Из-за разброса эмпирических точек вокруг прямой регрессии снова можно рассматривать отклонения наблюдаемых значений переменной х от расчетных значений регрессии ![]() ![]() xi— ![]() ![]() Значения ![]() х= ![]() ![]() Из сказанного выше следует, что интерпретация регрессионной прямой, параметров регрессии, расчетных значений функции регрессии х на у аналогична смысловому истолкованию тех же понятий при рассмотрении регрессии у на х. Должно быть принято во внимание только обратное направление зависимости, а также то, что отклонения ![]() ![]() После нахождения частных производных по неизвестным параметрам и приравнивая их нулю получаем так же, систему нормальных уравнений, решение которых дает нам искомые параметры: ![]() ![]() ![]() Рисунок 1.1- сопряженные регрессионные прямые. В случаи регрессии x на y принимает вид: ![]() Пример Рассмотрение изучении зависимости между объемом производства и показателем использования основных фондов на 52 промышленных предприятиях одной отрасли хозяйства. Исходные данные приведены в табл. 1. Вначале построим уравнение регрессии, отражающее зависимость объема производства (у) от основных фондов (х). Для этого определим величины b0 и ![]() ![]() ![]() Оцениваемая регрессия у на х будет иметь такой вид: ![]() Прямая регрессии пересекает ось ординат в точке b0=183,06, тангенс угла ее наклона к оси абсцисс составляет b1=2,095 (см. рис. 1). Коэффициент регрессии показывает, что объем производства в среднем увеличивается на 2095 марок, если стоимость основных фондов повышается на 100 000 марок. Итак, коэффициент регрессии отражает влияние изменения основных фондов на уровень объема производства. Для планирующих органов иногда представляет интерес вопрос, какой величины должны достигнуть основные фонды предприятия при определенном объеме производства? Ответ на этот вопрос можно получить, определив регрессию х на у в виде функции (1.2). По формулам (1.7) и (1.8) определяем значения ![]() ![]() ![]() ![]() Оцениваемое соотношение можно записать в виде ![]() Коэффициент ![]() На рис. 1 представлены обе прямые регрессии. Они образуют «ножницы». Из графика видно, что при стохастической зависимости соотношение b1=1 : ![]() ![]() Если обе прямые регрессии пересекаются под прямым углом, то эмпирические данные не позволяют подтвердить гипотезу о существовании зависимости между переменными. В этом случае отдельные точки случайно разбросаны по всей диаграмме рассеяния, и отсутствует всякая тенденция к ориентации точек в определенном направлении (рис. 1.2). ![]() Рисунок 1.2- сопряженные регрессионные прямые в случае отсутствия связи между прямыми. Если отсутствует регрессия у на х, то не существует также регрессии x на у и наоборот. При b1 = 0 обязательно ![]() ![]() ![]() Необходимой предпосылкой применения регрессионного анализа является выполнение условий: ![]() ![]() Как видно из рис. 1.1 и 1.2, обе_сопряженные прямые регрессии пересекаются в точке с координатами ( ![]() ![]() ![]() ![]() При х = ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Не всегда требуется находить обе сопряженные прямые регрессии. Чаще всего представляет практический интерес зависимость только в одном направлении. А иногда постановка задачи оказывается содержательной только при рассмотрении односторонней зависимости. По этой причине мы не продолжили пример из раздела 2.4, так как, на наш взгляд, в этом примере регрессия х относительно у экономически бессмысленна. Мы хотели бы подчеркнуть еще одну существенную особенность, вытекающую из наличия двух разных регрессионных прямых, описывающих связь между исследуемыми переменными при различном толковании их роли. Если существует взаимодействие между переменными у и л;, то переменная х также зависит от возмущающей переменной и. Но тем самым нарушается важная предпосылка применения метода наименьших квадратов. Если же, несмотря на это, мы применим метод наименьших квадратов для оценки по опытным данным неизвестных параметров уравнений регрессии у на x и х на у, то допустим ошибку. |