Выбор формы уравнения регрессии
Скачать 8.7 Mb.
|
44. Коэффициент детерминации при простой линейной регрессии. Рассмотрим вначале коэффициент детерминации для простой линейной регрессии, называемый также коэффициентом парной детерминации. На основе соображений, изложенных в разделе 1, теперь относительно легко найти меру точности оценки регрессии. Было показано, что общую дисперсию можно разложить на две составляющие — на «необъясненную» дисперсию и дисперсию, обусловленную регрессией. Чем больше по сравнению с , тем больше общая дисперсия формируется за счет влияния объясняющей переменной x и, следовательно, связь между двумя переменными y и xболее интенсивная. Очевидно, удобно в качестве показателя интенсивности связи, или оценки доли влияния переменной x на y, использовать отношение (7) Это отношение указывает, какая часть общего (полного) рассеяния значений у обусловлена изменчивостью переменной x. Чем большую долю в общей дисперсии составляет , тем лучше выбранная функция регрессии соответствует эмпирическим данным. Чем меньше эмпири-ческие значения зависимой переменной отклоняются от прямой регрес-сии, тем лучше определена функция регрессии. Отсюда происходит и название отношения (7) — коэффициент детерминации . Индекс при коэффициенте указывает на переменные, связь между которыми изучается. При этом вначале в индексе стоит обозначение зависимой переменной, а затем объясняющей. Из определения коэффициента детерминации как относительной доли очевидно, что он всегда заключен в пределах от 0 до 1: (8) сли , то все эмпирические значения (все точки поля корреляции) лежат на регрессионной прямой. Это означает, что для i=1, ..., n, т. е. . В этом случае говорят о строгом линейном соотношении (линейной функции) между переменными у и х. Если , дисперсия, обусловленная регрессией, равна нулю, а «необъясненная» дисперсия равна общей дисперсии. В этом случае . Линия регрессии тогда параллельна оси абсцисс. Ни о какой численной линейной зависимости переменной у от х в статистическом ее понимании не может быть и речи. Коэффициент регрессии при этом незначимо отличается от нуля. Итак, чем больше приближается к единице, тем лучше опре-делена регрессия. Коэффициент детерминации есть величина безразмерная и поэтому он не зависит от изменения единиц измерения переменных у и x (в отличие от параметров регрессии). Коэффициент не реагирует на преобразование переменных. Приведем некоторые модификации формулы (7), которые, с одной стороны, будут способствовать пониманию сущности коэффициента де-терминации, а с другой стороны, окажутся полезными для практических вычислений. Подставляя выражение для () в (7) и принимая во внимание () и (2), получим: (9) Эта формула еще раз подтверждает, что «объясненная» дисперсия, стоящая в числителе (7), пропорциональна дисперсии переменной х, так как b1 является оценкой параметра регрессии. Подставив вместо его выражение () и учитывая определения дисперсий и , а также средних и , получим формулу коэффициента детерминации, удобную для вычисления: или (10) Из (10) следует, что всегда . С помощью (10) можно относительно легко определить коэффициент детерминации. В этой формуле содержатся только те величины, которые используются для вычисления оценок параметров регрессии и, следовательно, имеются в рабочей таблице. Формула (10) обладает тем преимуществом, что вычисление коэффициента детерминации по ней производится непосредственно по эмпирическим данным. Не нужно заранее находить оценки параметров и значения регрессии. Это обстоятельство играет немаловажную роль для последующих исследований, так как перед проведением регрессионного анализа мы можем проверить, в какой степени определена исследуемая регрессия включенными в нее объясняющими переменными. Если коэффициент детерминации слишком мал, то нужно искать другие факторы-переменные, причинно обусловливающие зависимую переменную. Следует отметить, что коэффициент детерминации удовлетворительно отвечает своему назначению при достаточно большом числе наблюдений. Но в любом случае необходимо проверить значимость коэффициента детерминации. Вернемся к рассмотрению «необъясненной» дисперсии, возникающей за счет изменчивости прочих факторов-переменных, не зависящих от х, а также за счет случайностей. Чем больше ее доля в общей дисперсии, тем меньше, неопределеннее проявляется соотношение между у и х, тем больше затушевывается связь между ними. Исходя из этих соображений мы можем использовать «необъясненную» дисперсию для характеристики неопределенности или неточности регрессии. Следующее соотношение служит мерой неопределенности регрессии: (11) Легко убедиться в том, что (12) Отсюда очевидно, что не нужно отдельно вычислять меру неопределенности, а ее оценку легко получить из (12). Теперь вернемся к нашим примерам и определим коэффициенты детерминации для полученных уравнений регрессий. Пример 1 Вычислим коэффициент детерминации по данным примера (зависимость производительности труда от уровня механизации работ). Используем для этого формулу (10), а промежуточные результаты вычислений заимствуем из таблицы, которая находится в приложении А: Отсюда заключаем, что в случае простой регрессии 93,8% общей дисперсии производительности труда на рассматриваемых предприятиях обусловлено вариацией показателя механизации работ. Таким образом, изменчивость переменной х почти полностью объясняет вариацию переменной у. Для этого примера коэффициент неопределенности , т. е. только 6,2% общей дисперсии нельзя объяснить зависимостью производительности труда от уровня механизации работ. Пример 2 Вычислим коэффициент детерминации по данным примера (зависимость объема производства от основных фондов). Таким образом, 91,1% общей дисперсии объема производства исследуемых предприятий обусловлено изменчивостью значений основных фондов на этих предприятиях. Данная регрессия почти полностью исчерпывается включенной в нее объясняющей переменной. Коэффициент неопределенности составляет 0,089, или 8,9%. Следует отметить, что приведенные формулы предназначены для вычисления по результатам выборки большого объема коэффициента детерминации в случае простой регрессии. Но чаще всего приходится довольствоваться выборкой небольшого объема (n < 20). В этом случае вычисляют исправленный коэффициент детерминации , учитывая соответствующее число степеней свободы. Формула исправленного коэффициента детерминации для общего случая n объясняющих переменных будет приведена в разделе 3. Из нее легко получить формулу исправленного коэффициента детерминации в случае простой регрессии (m=1). 45. Коэффициент множественной детерминации Если изучаемое явление зависит не от одного, а от нескольких явлений, то зависимость между ними описывается с помощью множественной регрессии, а для установления доли дисперсии, обусловленной воздействием изменений объясняющих переменных, вычисляется коэффициент множественной детерминации. Выражение коэффициента множественной детерминации можно получить путем обобщения формулы (7) с учетом соображений, из-ложенных в разделах 1 и 2: (13) Индекс при В указывает на то, что у является зависимой переменной и вариабельность всех объясняющих переменных х1, ..., хm рассматривается одновременно в изучаемой регрессии. Интерпретация аналогична интерпретации коэффициента детерминации для простой линейной регрессии. Коэффициент указывает, как велика доля объясненной дисперсии в общей дисперсии, какая часть общей дисперсии может быть объяснена зависимостью переменной у от переменных х1, ..., хm. Величина коэффициента множественной детерминации заключена в интервале . Коэффициент детерминации равен 1, если этом случае говорят о линейной функциональной зависимости. Коэффициент детерминации равен 0, если . В этом случае говорят об отсутствии линейной зависимости в смысле представлений регрессионного анализа. Приведем теперь формулу коэффициента детерминации к виду, удобному для вычислений. При этом ограничимся вначале регрессией с двумя объясняющими переменными. Уравнение множественной линейной регрессии можно представить в таком виде: или (14) Возведя в квадрат обе части равенства (14) и просуммировав все отклонения, раскроем скобки. С учетом формул (=) и (=) получим следующее выражение: (15) Подставим этот результат в (13): (16) или (17) С помощью формулы (17) сравнительно легко можно найти коэффициент множественной детерминации для двух объясняющих переменных. Пример Определим долю дисперсии производительности труда, обусловленную линейной зависимостью от уровня механизации работ и среднего возраста работников, по данным из приложения Б. По формуле (17) получим Найденная величина коэффициента множественной регрессии означает, что на основе полученной оценки функции регрессии 94,47% общей дисперсии объясняется зависимостью производительности труда от уровня механизации работ и среднего возраста работников. Это свидетельствует о том, что данная регрессия хорошо соответствует эмпирическим данным. Лишь 5,53% общей дисперсии приходится на влияние прочих, не учтенных в регрессии факторов-переменных. Формулу (16) обобщим для регрессии с m объясняющими переменными: (18) Разделив числитель и знаменатель формулы (18) на , получим: (19) Введем вектор (20) элементами которого являются , k = 1, ..., m. Вектор — это вектор ковариаций m объясняющих переменных с зависимой переменной у. Далее, пусть (21) — вектор коэффициентов регрессии. Он получается путем вычеркивания первой компоненты (постоянной регрессии) из вектора параметров регрессии b. С учетом этого условия формула (19) принимает вид (22) —транспонированный вектор b1. Пример Определим с помощью формулы (22) по данным из приложения Б долю дисперсии производительности труда, обусловленную зависимостью от уровня механизации работ, среднего возраста работников и среднего процента выполнения нормы. Вектор b1 получается из вектора b параметров регрессии путем вычеркивания постоянной регрессии b0. Вектор ковариаций объясняющих переменных с зависимой переменной строим в виде (20). Таким образом, можем записать ; ; В результате получаем значение коэффициента детерминации: Итак, 94,51% общей дисперсии обусловливается зависимостью производительности труда от перечисленных выше объясняющих переменных. И только 5,49% общей дисперсии не может быть объяснено этой зависимостью на основе полученной оценки функции регрессии. Таким образом, предполагая, что уравнение регрессии статистически значимо, его подбор выполнен очень хорошо. Так же, как коэффициент парной детерминации, коэффициент множественной детерминации не изменится, если изменится размерность переменных или они подвергнутся линейным преобразованиям. Отсюда следует важный вывод: при применении стандартизованных переменных () остается таким же процентное отношение к общей вариации той ее части, которая определена влиянием объясняющих переменных на зависимую, выраженных в натуральном масштабе. Если для стандартизованных переменных , то (частный случай) (23) т. е. коэффициент детерминации равен «объясненной» дисперсии, а коэффициент неопределенности равен «необъясненной» дисперсии. Часто, особенно при небольшом объеме выборки n, пользуются исправленным коэффициентом детерминации , так как число объясняющих переменных существенно уменьшает число степеней свободы. Итак, введение поправки на число степеней свободы дает нам исправленный, несмещенный коэффициент детерминации. Число степеней свободы общей дисперсии разлагается также на две составляющие: (24) Соотношение между двумя коэффициентами — с поправкой и без нее — может быть после соответствующих выкладок представлено в виде (25) При этом определяется по формуле (35) (см. раздел 6). Коэффициент детерминации без поправки на число степеней свободы никогда не уменьшается с добавлением к регрессии новой объясняющей переменной (возможно даже некоторое незначительное его увеличение), в то время как для исправленного коэффициента это оказывается возможным. Следует учитывать, что всегда (26) Пример Вычислим по данным из приложения Б исправленные коэффициенты множественной детерминации для регрессии с двумя и тремя объясняющими переменными: Значения коэффициентов детерминации подтверждают приведенные выше утверждения. Введение новой переменной х3 не привело к существенному дополнению в объяснении переменной у, а точнее, в объяснении ее вариации. Поэтому при двух одинаково приемлемых с профессионально-теоретической точки зрения функциях регрессии рекомендуется отдавать предпочтение той, для которой исправленный коэффициент детерминации оказался больше. |