Выбор формы уравнения регрессии
![]()
|
33. МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ Ме́тод максима́льного правдоподо́бия или метод наибольшего правдоподобия (ММП, ML, MLE — Maximum Likelihood Estimation) в математической статистике — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия[1]. Основан на предположении о том, что вся информация о статистической выборке содержится в функции правдоподобия. Пусть есть выборка из распределения , где — неизвестные параметры. Пусть ![]() ![]() называется оце́нкой максима́льного правдоподо́бия параметра . Таким образом оценка максимального правдоподобия — это такая оценка, которая максимизирует функцию правдоподобия при фиксированной реализации выборки. Часто вместо функции правдоподобия используют логарифмическую функцию правдоподобия . Так как функция ![]() ![]() Если функция правдоподобия дифференцируема, то необходимое условие экстремума — равенство нулю ее градиента: ![]() Достаточное условие экстремума может быть сформулировано как отрицательная определенность гессиана — матрицы вторых производных: ![]() Важное значение для оценки свойств оценок метода максимального правдоподобия играет так называемая информационная матрица, равная по определению: ![]() В оптимальной точке информационная матрица совпадает с математическим ожиданием гессиана, взятым со знаком минус: ![]() Свойства: Оценки максимального правдоподобия, вообще говоря, могут быть смещёнными, но являются состоятельными, асимптотически эффективными и асимптотически нормальными оценками. Асимптотическая нормальность означает, что ![]() где ![]() Асимптотическая эффективность означает, что асимптотическая ковариационная матрица является нижней границей для всех состоятельных асимптотически нормальных оценок. Если — оценка метода максимального правдоподобия, параметров , то является оценкой максимального правдоподобия для , где g-непрерывная функция (функциональная инвариантность). Таким образом, законы распределения данных можно параметризовать различным образом. Условный метод максимального правдоподобия (Conditional ML) используется в регрессионных моделях. Суть метода заключается в том, что используется не полное совместное распределение всех переменных (зависимой и регрессоров), а только условное распределение зависимой переменной по факторам, то есть фактически распределение случайных ошибок регрессионной модели. Полная функция правдоподобия есть произведение «условной функции правдоподобия» и плотности распределения факторов. Условный ММП эквивалентен полному варианту ММП в том случае, когда распределение факторов никак не зависит от оцениваемых параметров. Это условие часто нарушается в моделях временных рядов, например в авторегрессионной модели. В данном случае, регрессорами являются прошлые значения зависимой переменной, а значит их значения также подчиняются той же AR-модели, то есть распределение регрессоров зависит от оцениваемых параметров. В таких случаях результаты применения условного и полного метода максимального правдоподобия будут различаться. 34. МЕТОД ЛИНЕАРИЗАЦИИ Имеется последовательность k-мерных случайных векторов Xn= (X1n, X2n, … , Xkn), n = 1, 2, … , такая, что Xn →a = (a1, a2, … , ak) при n → ∞, и последовательность функций fn: Rk → R1. Требуется найти распределение случайной величины fn(Xn). Основная идея – рассмотреть главный линейный член функции fn в окрестности точки а. Из математического анализа известно, что ![]() где остаточный член является бесконечно малой величиной более высокого порядка малости, чем линейный член. Таким образом, произвольная функция может быть заменена на линейную функцию от координат случайного вектора. Эта замена проводится с точностью до бесконечно малых более высокого порядка. Конечно, должны быть выполнены некоторые математические условия регулярности. Например, функции fn должны быть дважды непрерывно дифференцируемы в окрестности точки а. Если вектор Xn является асимптотически нормальным с математическим ожиданием а и ковариационной матрицей ∑/n, где ∑ = ||σij||, причем σij = nM(Xi–ai)(Xj–aj), то линейная функция от его координат также асимптотически нормальна. Следовательно, при очевидных условиях регулярности fn(Xn) – асимптотически нормальная случайная величина с математическим ожиданиемfn(а) и дисперсией ![]() Для практического использования асимптотической нормальности fn(Xn) остается заменить неизвестные моменты а и ∑ на их оценки. Например, если Xn – это среднее арифметическое независимых одинаково распределенных случайных векторов, тоа можно заменить на Xn, а ∑ - на выборочную ковариационную матрицу. Пример. Пусть Y1, Y2, … , Yn – независимые одинаково распределенные случайные величины с математическим ожиданием а и дисперсией σ2. В качестве Xn (k = 1) рассмотрим выборочное среднее арифметическое . Как известно, в силу закона больших чисел → а = М(У). Следовательно, для получения распределений функций от выборочного среднего арифметического можно использовать метод линеаризации. В качестве примера рассмотрим fn(y) = f(y) = y2. Тогда ![]() Из этого соотношения следует, что с точностью до бесконечно малых более высокого порядка . Поскольку в соответствии с Центральной Предельной Теоремой выборочное среднее арифметическое является асимптотически нормальной случайной величиной с математическим ожиданием а и дисперсией σ2/n, то квадрат этой статистики является асимптотически нормальной случайной величиной с математическим ожиданием а2 и дисперсией 4а2σ2/n. Для практического использования может оказаться полезной замена параметров (асимптотического нормального распределения) на их оценки, а именно, математического ожидания – на , а дисперсии – на , где s2 – выборочная дисперсия. 35. Коэффициент детерминации. Коэффициент конкордации Коэффициент детерминации Подбор функции линейной регрессии осуществляется на основе соображений профессионально-теоретического характера, а вычисленные оценки параметров, входящие в уравнения регрессии, наиболее хорошо согласовывались с опытными данными. Критерий соответствия регрессии опытным данным заложен в требовании наименьших квадратов: ![]() Результаты различных выборок имеют различное рассеяние. Поэтому может случиться, что построение регрессионной зависимости одного и того же экономического смысла по данным двух выборок из одной и той же генеральной совокупности приведет к различным уравнениям. Степень соответствия этих уравнений опытным данным, несмотря на одинаковый тип зависимости, может быть различна. Однако критерий (1) имеет недостаток: хотя его нижняя граница равна нулю, верхняя граница не может быть указана. Поэтому для оценки степени соответствия регрессии имеющимся эмпирическим данным он не используется. Желательно иметь в распоряжении показатель, отражающий, в какой мере функция регрессии определяется объясняющими переменными, содержащимися в ней. В качестве такого показателя можно выбрать коэффициент детерминации. Рассмотрим вначале коэффициент детерминации для простой линейной регрессии, называемый также коэффициентом парной детерминации. На основе соображений, изложенных в разделе 1, теперь относительно легко найти меру точности оценки регрессии. Было показано, что общую дисперсию ![]() ![]() ![]() ![]() ![]() ![]() Это отношение указывает, какая часть общего (полного) рассеяния значений у обусловлена изменчивостью переменной x. Чем большую долю в общей дисперсии составляет ![]() ![]() Из определения коэффициента детерминации как относительной доли очевидно, что он всегда заключен в пределах от 0 до 1: ![]() Если ![]() ![]() ![]() ![]() ![]() ![]() Итак, чем больше ![]() Коэффициент детерминации есть величина безразмерная и поэтому он не зависит от изменения единиц измерения переменных у и x (в отличие от параметров регрессии). Коэффициент ![]() Приведем некоторые модификации формулы (7), которые, с одной стороны, будут способствовать пониманию сущности коэффициента де-терминации, а с другой стороны, окажутся полезными для практических вычислений. Подставляя выражение для ![]() ![]() ![]() ![]() Эта формула еще раз подтверждает, что «объясненная» дисперсия, стоящая в числителе (7), пропорциональна дисперсии переменной х, так как b1 является оценкой параметра регрессии. Подставив вместо ![]() ![]() ![]() ![]() ![]() ![]() ![]() или ![]() Из (10) следует, что всегда ![]() Для решения системы нормальных уравнений очень важно знать соотношения между объясняющими переменными xk. Используя понятие коэффициента детерминации, введем меру зависимости этих переменных между собой. Обозначим через ![]() Укажем формулу для вычисления коэффициента детерминации между объясняющими переменными. Для ее вывода исходят из матрицы дисперсий и ковариаций объясняющих переменных ![]() ![]() где ![]() ![]() ![]() ![]() ![]() где ![]() ![]() ![]() ![]() ![]() Коэффициент детерминации между объясняющими переменными вычисляется по формуле ![]() где ![]() ![]() ![]() ![]() КОЭФФИЦИЕНТ КОНКОРДАЦИИ В экономике существует большое число причинно обусловленных явлений, признаки которых не поддаются точной количественной оценке. Это так называемые атрибутивные признаки. Например, профессия, форма собственности, качество изделия, технологические операции и т. д. Специалист или эксперт ранжирует элементы изучаемой совокупности, приписывая каждому из них порядковый номер, соответствующий итогам сравнения по данному признаку с остальными элементами. Если количество признаков-переменных больше двух, то в результате ранжировок n элементов (предприятий или учреждений) имеют дело с m последовательностями рангов. Для проверки, хорошо ли согласуются эти m ранжировок друг с другом, используется коэффициент согласованности W, называемый также коэффициентом конкордации Кендэла: ![]() При наличии связанных рангoв коэффициент кенкордации W вычисляется по формуле ![]() где ![]() ![]() ![]() ![]() |