Выбор формы уравнения регрессии
Скачать 8.7 Mb.
|
Как и в парной зависимости, возможны разные виды уравнений множественной регрессии линейные и нелинейные. Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции. В линейной множественной регрессии параметры при x называются коэффициентами чистой регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закрепленных на среднем уровне. Стандартные компьютерные программы обработки регрессионного анализа позволяют перебирать различные функции и выбрать ту из них, для которой остаточная дисперсия и ошибка аппроксимации минимальны, а коэффициент детерминации максимален. Если исследователя не устраивает предлагаемый стандартный набор функций регрессии, то можно использовать любые другие, приводимые путем соответствующих преобразований к линейному виду. Однако чем сложнее функция, тем менее интерпретируемы ее параметры. При сложных полиномиальных функциях с большим числом факторов необходимо помнить, что каждый параметр преобразованной функции является средней величиной, которая должна быть подсчитана по достаточному числу наблюдений. Если число наблюдений невелико, что, как правило, имеет место в эконометрике, то увеличение числа параметров функции приведет к их статистической незначимости и соответственно потребует упрощения вида функции. Если один и тот же фактор вводится в регрессию в разных степенях, то каждая степень рассматривается как самостоятельный фактор. В эконометрике регрессионные модели часто стоятся на основе макроуровня экономических показателей, когда ставится задача оценки влияния наиболее экономически существенных факторов на моделируемый показатель при ограниченном объеме информации. Поэтому полиномиальные модели высоких порядков используются редко. 2. Суть корреляционного и регрессионного анализа. Основные задачи решаемые методами анализа Формы проявления корреляционной связи между признаками: 1) причинная зависимость результативного признака от вариации факторного признака; 2) корреляционная связь между двумя следствиями общей причины. Здесь корреляцию нельзя интерпретировать как связь причины и следствия. Оба признака - следствие одной общей причины; 3) взаимосвязь признаков, каждый из которых и причина, и следствие. Каждый признак может выступать как в роли независимой переменной, так и в качестве зависимой переменной. Задачи корреляционно-регрессионного анализа: 1) выбор спецификации модели, т. е. формулировки вида модели, исходя из соответствующей теории связи между переменными; 2) из всех факторов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы; 3) парная регрессия достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной. Поэтому необходимо знать, какие остальные факторы предполагаются неизменными, так как в дальнейшем анализе их придется учесть в модели и от простой регрессии перейти к множественной; 4) исследовать, как изменение одного признака меняет вариацию другого. Предпосылки корреляционно-регрессионного анализа: 1) уравнение парной регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по совокупности наблюдений; 2) в уравнении регрессии корреляционная связь признаков представляется в виде функциональной связи, выраженной соответствующей математической функцией; 3) случайная величина Е включает влияние неучтенных в модели факторов, случайных ошибок и особенностей измерения; 4) определенному значению признака-аргумента отвечает некоторое распределение признака функции. Недостатки анализа: 1) невключение ряда объясняющих переменных: a. целенаправленный отказ от других факторов; b. невозможность определения, измерения определенных величин (психологические факторы); c. недостаточный профессионализм исследователя моделируемого; 2) агрегирование переменных (в результате агрегирования теряется часть информации); 3) неправильное определение структуры модели; 4) использование временной информации (изменив временной интервал, можно получить другие результаты регрессии); 5) ошибки спецификации: a. неправильный выбор той или иной математической функции; b. недоучет в уравнении регрессии какого-либо существенного фактора, т. е. использование парной регрессии, вместо множественной); 6) ошибки выборки, так как исследователь чаще имеет дело с выборочными данными при установлении закономерной связи между признаками. Ошибки выборки возникают и в силу неоднородности данных в исходной статистической совокупности, что бывает при изучении экономических процессов; 7) ошибки измерения представляют наибольшую опасность. Если ошибки спецификации можно уменьшить, изменяя форму модели (вид математической формулы), а ошибки выборки - увеличивая объем исходных данных, то ошибки измерения сводят на нет все усилия по количественной оценке связи между признаками. 3. Поле корреляции Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (xi, yi) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений xi и yi. При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д. Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения xi и yi. Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами xi и yi графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем. Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: μx, μy – средние значения (математические ожидания); σx,σy – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y. Если р = 0, то значения, xi, yi, полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y. Рисунок 5 - Графическая интерпретация взаимосвязи между показателями Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения xi, yi определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением xi значения yi также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рисунок 5, б). В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi, yi, попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p > 0 имеет место положительная корреляция (с увеличением xi значения yi имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к , тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (риунок 5, д). Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции. Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y – зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.[2] 4. Линейная регрессия и корреляция, смысл и оценка параметров. Сопряженные регрессионные прямые Сопряженные регрессионные прямые До сих пор обсуждалась регрессия у на х: (1.1) т. е у рассматривалась как зависимая переменная, а х — как объясняющая. На практике часто встречаются экономические явления, между которыми существует взаимодействие, т. е. переменная у зависит от переменной х и, наоборот, переменная х зависит от у. В таких случаях говорят о логически обратимых регрессиях. При переходе от одной постановки задачи к другой нельзя просто из уравнения (1.1) выразить х через . Это связано с тем, что эмпирические точки лежат не на прямой, а подвержены. Фиксированному значению х может соответствовать несколько значений у, а данному значению у — несколько значений переменной х. Чем больше разброс точек на диаграмме рассеяния, тем больше будут отличаться друг от друга регрессионные прямые, соответствующие различному направлению зависимости. Уравнения регрессии не выводимы друг из друга. Так как объектом изучения являются стохастические связи между переменными, при исследовании зависимостей между двумя переменными теоретически всегда существуют две различные регрессионные прямые, которые называются сопряженными. В предположении линейной зависимости в качестве функции регрессии примем уравнение прямой По сравнению с регрессией у на х переменные в (1.2) поменяли свои места. Зависимой переменной, или переменной, подлежащей объяснению, в данном случае является , а независимой, или объясняющей, переменной — у. Коэффициенты и — параметры регрессии*. Параметр снова представляет собой аддитивную постоянную, соответствующую точке пересечения прямой регрессии (1.2) с осью абсцисс. Параметр называется коэффициентом регрессии х на у. Этот параметр показывает, на сколько единиц в среднем изменится значение переменной я, если значение переменной у изменится на одну единицу. Расчетные значения регрессии интерпретируются так же, как в случае регрессии у на х. Из-за разброса эмпирических точек вокруг прямой регрессии снова можно рассматривать отклонения наблюдаемых значений переменной х от расчетных значений регрессии , которые мы обозначим через i: xi—i = i (1.3) Значения i являются реализациями случайной возмущающей переменной v. Эти значения — результат влияний на х не учтенных в функции регрессии (1,2) переменных-факторов, включая случайные флуктуации. Возмущающая переменная v в статистическом смысле интерпретируется как ошибка спецификации регрессии (1,2) Переменную х можно тогда выразить как х=+ (1.4) Из сказанного выше следует, что интерпретация регрессионной прямой, параметров регрессии, расчетных значений функции регрессии х на у аналогична смысловому истолкованию тех же понятий при рассмотрении регрессии у на х. Должно быть принято во внимание только обратное направление зависимости, а также то, что отклонения I опытных точек от линии регрессии измеряют по горизонтальной оси (рис. 1.1). Прямая регрессии х па у строится из условия минимизации суммы квадратов отклонений, измеренных по горизонтали: После нахождения частных производных по неизвестным параметрам и приравнивая их нулю получаем так же, систему нормальных уравнений, решение которых дает нам искомые параметры: Рисунок 1.1- сопряженные регрессионные прямые. В случаи регрессии x на y принимает вид: Пример Рассмотрение изучении зависимости между объемом производства и показателем использования основных фондов на 52 промышленных предприятиях одной отрасли хозяйства. Исходные данные приведены в табл. 1. Вначале построим уравнение регрессии, отражающее зависимость объема производства (у) от основных фондов (х). Для этого определим величины b0 и : Оцениваемая регрессия у на х будет иметь такой вид: Прямая регрессии пересекает ось ординат в точке b0=183,06, тангенс угла ее наклона к оси абсцисс составляет b1=2,095 (см. рис. 1). Коэффициент регрессии показывает, что объем производства в среднем увеличивается на 2095 марок, если стоимость основных фондов повышается на 100 000 марок. Итак, коэффициент регрессии отражает влияние изменения основных фондов на уровень объема производства. Для планирующих органов иногда представляет интерес вопрос, какой величины должны достигнуть основные фонды предприятия при определенном объеме производства? Ответ на этот вопрос можно получить, определив регрессию х на у в виде функции (1.2). По формулам (1.7) и (1.8) определяем значения и : Оцениваемое соотношение можно записать в виде Коэффициент показывает, что стоимость основных фондов в среднем возрастет на 43 500 марок, если показатель объема производства увеличится на 1000 марок. Мы ограничимся построением уравнений регрессий. На рис. 1 представлены обе прямые регрессии. Они образуют «ножницы». Из графика видно, что при стохастической зависимости соотношение b1=1 : не имеет места. Лишь в случае чисто функциональной связи обе прямые регрессии сливаются в одну и тогда выполняется указанное соотношение между b1 и . По величине раствора ножниц можно судить приблизительно о степени зависимости обеих переменных. Чем более раскрыты ножницы, тем слабее связь. Если обе прямые регрессии пересекаются под прямым углом, то эмпирические данные не позволяют подтвердить гипотезу о существовании зависимости между переменными. В этом случае отдельные точки случайно разбросаны по всей диаграмме рассеяния, и отсутствует всякая тенденция к ориентации точек в определенном направлении (рис. 1.2). Рисунок 1.2- сопряженные регрессионные прямые в случае отсутствия связи между прямыми. Если отсутствует регрессия у на х, то не существует также регрессии x на у и наоборот. При b1 = 0 обязательно = 0 и обратно. Если прямая регрессии у на x проходит параллельно оси абсцисс, то это неизбежно влечет за собой вытягивание прямой регрессии х на у вдоль оси ординат. Эта взаимная обусловленность становится очевидной при рассмотрении следующих формул: и Необходимой предпосылкой применения регрессионного анализа является выполнение условий: >0 и >0. Следовательно, оба угловых коэффициента регрессии равны нулю, если ковариация Sху = Sух, которая в обоих формулах содержится в числителе, равна нулю. Как видно из рис. 1.1 и 1.2, обе_сопряженные прямые регрессии пересекаются в точке с координатами (, ). Так бывает всегда, и это можно показать с помощью формул: и При х = имеем = , а при у = получаем также = . Так как = и = — значения регрессии, принадлежащие обеим прямым, обе прямые должны пересекаться в точке (, ). Не всегда требуется находить обе сопряженные прямые регрессии. Чаще всего представляет практический интерес зависимость только в одном направлении. А иногда постановка задачи оказывается содержательной только при рассмотрении односторонней зависимости. По этой причине мы не продолжили пример из раздела 2.4, так как, на наш взгляд, в этом примере регрессия х относительно у экономически бессмысленна. Мы хотели бы подчеркнуть еще одну существенную особенность, вытекающую из наличия двух разных регрессионных прямых, описывающих связь между исследуемыми переменными при различном толковании их роли. Если существует взаимодействие между переменными у и л;, то переменная х также зависит от возмущающей переменной и. Но тем самым нарушается важная предпосылка применения метода наименьших квадратов. Если же, несмотря на это, мы применим метод наименьших квадратов для оценки по опытным данным неизвестных параметров уравнений регрессии у на x и х на у, то допустим ошибку. |