Выбор формы уравнения регрессии
![]()
|
14. Спецификация модели. Коэффициент множественной детерминации. Коэффициент частной детерминации. Коэффициент частной детерминации между объясняющими переменными Коэффициент множественной детерминации Если изучаемое явление зависит не от одного, а от нескольких явлений, то зависимость между ними описывается с помощью множественной регрессии, а для установления доли дисперсии, обусловленной воздействием изменений объясняющих переменных, вычисляется коэффициент множественной детерминации. Выражение коэффициента множественной детерминации можно получить путем обобщения формулы (7) с учетом соображений, из-ложенных в разделах 1 и 2: ![]() Индекс при В указывает на то, что у является зависимой переменной и вариабельность всех объясняющих переменных х1, ..., хm рассматривается одновременно в изучаемой регрессии. Интерпретация ![]() ![]() ![]() Коэффициент детерминации равен 1, если ![]() ![]() Приведем теперь формулу коэффициента детерминации к виду, удобному для вычислений. При этом ограничимся вначале регрессией с двумя объясняющими переменными. Уравнение множественной линейной регрессии можно представить в таком виде: ![]() или ![]() Возведя в квадрат обе части равенства (14) и просуммировав все отклонения, раскроем скобки. С учетом формул ( ![]() ![]() ![]() ![]() ![]() Подставим этот результат в (13): ![]() или ![]() С помощью формулы (17) сравнительно легко можно найти коэффициент множественной детерминации для двух объясняющих переменных. Пример Определим долю дисперсии производительности труда, обусловленную линейной зависимостью от уровня механизации работ и среднего возраста работников, по данным из приложения Б. По формуле (17) получим ![]() Найденная величина коэффициента множественной регрессии означает, что на основе полученной оценки функции регрессии 94,47% общей дисперсии объясняется зависимостью производительности труда от уровня механизации работ и среднего возраста работников. Это свидетельствует о том, что данная регрессия хорошо соответствует эмпирическим данным. Лишь 5,53% общей дисперсии приходится на влияние прочих, не учтенных в регрессии факторов-переменных. Формулу (16) обобщим для регрессии с m объясняющими переменными: ![]() Разделив числитель и знаменатель формулы (18) на ![]() ![]() Введем вектор ![]() элементами которого являются ![]() Вектор ![]() ![]() — вектор коэффициентов регрессии. Он получается путем вычеркивания первой компоненты (постоянной регрессии) из вектора параметров регрессии b. С учетом этого условия формула (19) принимает вид ![]() ![]() Пример Определим с помощью формулы (22) по данным из приложения Б долю дисперсии производительности труда, обусловленную зависимостью от уровня механизации работ, среднего возраста работников и среднего процента выполнения нормы. Вектор b1 получается из вектора b параметров регрессии путем вычеркивания постоянной регрессии b0. Вектор ![]() ![]() ![]() ![]() В результате получаем значение коэффициента детерминации: ![]() Итак, 94,51% общей дисперсии обусловливается зависимостью производительности труда от перечисленных выше объясняющих переменных. И только 5,49% общей дисперсии не может быть объяснено этой зависимостью на основе полученной оценки функции регрессии. Таким образом, предполагая, что уравнение регрессии статистически значимо, его подбор выполнен очень хорошо. Так же, как коэффициент парной детерминации, коэффициент множественной детерминации не изменится, если изменится размерность переменных или они подвергнутся линейным преобразованиям. Отсюда следует важный вывод: при применении стандартизованных переменных ( ![]() ![]() ![]() ![]() т. е. коэффициент детерминации равен «объясненной» дисперсии, а коэффициент неопределенности равен «необъясненной» дисперсии. Часто, особенно при небольшом объеме выборки n, пользуются исправленным коэффициентом детерминации ![]() ![]() Соотношение между двумя коэффициентами — с поправкой и без нее — может быть после соответствующих выкладок представлено в виде ![]() При этом ![]() ![]() Пример Вычислим по данным из приложения Б исправленные коэффициенты множественной детерминации для регрессии с двумя и тремя объясняющими переменными: ![]() ![]() Значения коэффициентов детерминации подтверждают приведенные выше утверждения. Введение новой переменной х3 не привело к существенному дополнению в объяснении переменной у, а точнее, в объяснении ее вариации. Поэтому при двух одинаково приемлемых с профессионально-теоретической точки зрения функциях регрессии рекомендуется отдавать предпочтение той, для которой исправленный коэффициент детерминации оказался больше. Коэффициент частной детерминации В множественном регрессионном анализе часто полезно определять долю тех изменений, которые в данном явлении зависят от одного фактора-переменного при исключении влияния остальных рассматриваемых в регрессии переменных. Для этого используется коэффициент частной детерминации. Ограничимся обсуждением коэффициента частной детерминации для случая двух объясняющих переменных. Для оценки доли вариации у, объясняемой линейной зависимостью у от х1 при исключении влияния х2, вычисляется коэффициент частной детерминации ![]() ![]() и ![]() причем ![]() и ![]() Воспользуемся методикой определения коэффициента детерминации для простой линейной регрессии применительно к значениям (28) и (27). Используя формулу (10) из раздела 2, после некоторых преобразований с учетом того, что ![]() ![]() После дополнительных преобразований ![]() Таким образом, коэффициент частной детерминации определяется по коэффициентам парной детерминации. С помощью формулы (29) или (30) устанавливается доля вариации, обусловленная зависимостью переменной у от х1 при исключении влияния х2. Отсюда становится очевидным отличие коэффициента частной детерминации от коэффициента множественной детерминации. Они имеют различное содержание и не заменяют друг друга. Формулу (29) путем соответствующих преобразований можно привести к такому виду, который позволяет находить коэффициент частной детерминации непосредственно по эмпирическим данным. Вообще целесообразнее вычислять коэффициент частной детерминации по соответствующим коэффициентам частной корреляции. Коэффициент детерминации между объясняющими переменными Для решения системы нормальных уравнений очень важно знать соотношения между объясняющими переменными xk. Используя понятие коэффициента детерминации, введем меру зависимости этих переменных между собой. Обозначим через ![]() Укажем формулу для вычисления коэффициента детерминации между объясняющими переменными. Для ее вывода исходят из матрицы дисперсий и ковариаций объясняющих переменных ![]() ![]() где ![]() ![]() ![]() ![]() ![]() где ![]() ![]() ![]() ![]() ![]() Коэффициент детерминации между объясняющими переменными вычисляется по формуле ![]() где ![]() ![]() ![]() ![]() Пример. Вернемся к примеру с тремя объясняющими переменными из приложения Б. Построим следующие матрицы: ![]() ![]() ![]() (Элементы матрицы ![]() ![]() ![]() ![]() В силу того что величина коэффициента детерминации между переменными также заключена в пределах от 0 до 1, результаты вычислений отражают небольшую зависимость между объясняющими переменными. Различные коэффициенты детерминации не могут быть единственным критерием оценки регрессии. Неосторожное их использование может привести к ошибочным заключениям. Например, если эмпирические данные представляют собой временной ряд или между переменными существуют не только непосредственные, но и многообразные косвенные связи, то применение коэффициента детерминации становится весьма проблематично. Поэтому далее мы еще будем обсуждать способы оценки точности подбора функции регрессии. |