Методические указания к выполнению контрольной работы для студентов заочной формы обучения
Скачать 210.26 Kb.
|
Для оценки качества полученного уравнения регрессии рассчитывают теоретический коэффициент детерминации – R2yx: , где 2 – объясненная уравнением регрессии дисперсия y; 2- остаточная (необъясненная уравнением регрессии) дисперсия y; 2y - общая (полная) дисперсия y. Коэффициент детерминации характеризует долю вариации (дисперсии) результативного признака y, объясняемую регрессией (а, следовательно, и фактором х), в общей вариации (дисперсии) y. Коэффициент детерминации R2yx принимает значения от 0 до 1. Соответственно величина 1-R2yx характеризует долю дисперсии y, вызванную влиянием прочих неучтенных в модели факторов и ошибками спецификации. При парной линейной регрессии R2yx=r2yx. Оценка статистической значимости параметров уравнения регрессии. С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y). Если оценку параметров произвести по данным другого статистического наблюдения (другому набору значений x и y), то получим другие численные значения , . Мы предполагаем, что все эти наборы значений x и y извлечены из одной и той же генеральной совокупности. Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез. В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности. В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента. Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике). Табличное значение определяется в зависимости от уровня значимости () и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений. Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля. Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля, например, при уровне значимости =0,05. Для параметра b критерий проверки имеет вид: , где - оценка коэффициента регрессии, полученная по наблюдаемым данным; – стандартная ошибка коэффициента регрессии. Для линейного парного уравнения регрессии стандартная ошибка коэффициента вычисляется по формуле: . Числитель в этой формуле может быть рассчитан через коэффициент детерминации и общую дисперсию признака-результата: . Для параметра a критерий проверки гипотезы о незначимом отличии его от нуля имеет вид: , где - оценка параметра регрессии, полученная по наблюдаемым данным; – стандартная ошибка параметра a. Для линейного парного уравнения регрессии: . Для проверки гипотезы о незначимом отличии от нуля коэффициента линейной парной корреляции в генеральной совокупности используют следующий критерий: , где ryx - оценка коэффициента корреляции, полученная по наблюдаемым данным; r – стандартная ошибка коэффициента корреляции ryx. Для линейного парного уравнения регрессии: . В парной линейной регрессии между наблюдаемыми значениями критериев существует взаимосвязь: t(b=0)=t(r=0). Прогноз ожидаемого значения результативного признака y по линейному парному уравнению регрессии. Пусть требуется оценить значение признака-результата для заданного значения признака-фактора (хр). Прогнозируемое значение признака-результата c доверительной вероятностью равной (1-) принадлежит интервалу прогноза: ( -t·p; +t·p), где - точечный прогноз; t – коэффициент доверия, определяемый по таблицам распределения Стьюдента в зависимости от уровня значимости и числа степеней свободы (n-2); p- средняя ошибка прогноза. Точечный прогноз рассчитывается по линейному уравнению регрессии, как: . Средняя ошибка прогноза определяется по формуле: . Задание № 1 На основе данных, приведенных в Приложении 1 и соответствующих Вашему варианту (таблица 2), требуется: Рассчитать коэффициент линейной парной корреляции и построить уравнение линейной парной регрессии одного признака от другого. Один из признаков, соответствующих Вашему варианту, будет играть роль факторного (х), другой – результативного (y). Причинно-следственные связи между признаками установить самим на основе экономического анализа. Пояснить смысл параметров уравнения. Определить теоретический коэффициент детерминации и остаточную (необъясненную уравнением регрессии) дисперсию. Сделать вывод. Оценить статистическую значимость уравнения регрессии в целом на пятипроцентном уровне с помощью F-критерия Фишера. Сделать вывод. Выполнить прогноз ожидаемого значения признака-результатаy при прогнозном значении признака-фактора х, составляющим 105% от среднего уровня х. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал с вероятностью 0,95. Таблица 2
Продолжение табл. 2
Окончание табл. 2
МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели, который в свою очередь включает 2 круга вопросов: отбор факторов и выбор уравнения регрессии. Отбор факторов обычно осуществляется в два этапа: 1) теоретический анализ взаимосвязи результата и круга факторов, которые оказывают на него существенное влияние; 2) количественная оценка взаимосвязи факторов с результатом. При линейной форме связи между признаками данный этап сводится к анализу корреляционной матрицы (матрицы парных линейных коэффициентов корреляции): ry,yry,x1ryx2 .... ry,xm rx1,yrx1,x2rx2x2 .... rx2,xm ...... rxm,yrxm,x1rxm,x2 .... rxm,xm где ry,xj– линейный парный коэффициент корреляции, измеряющий тесноту связи между признаками yи хj j=1;m, m -число факторов. rxj,xk– линейный парный коэффициент корреляции, измеряющий тесноту связи между признаками хjи хk j,k=1;m. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям: 1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов). 2. Каждый фактор должен быть достаточно тесно связан с результатом (т.е. коэффициент парной линейной корреляции между фактором и результатом должен быть существенным). 3. Факторы не должны быть сильно коррелированы друг с другом, тем более находиться в строгой функциональной связи (т.е. они не должны быть интеркоррелированы). Разновидностью интеркоррелированности факторов является мультиколлинеарность - тесная линейная связь между факторами. Мультиколлинеарность может привести к нежелательным последствиям: 1) оценки параметров становятся ненадежными. Они обнаруживают большие стандартные ошибки. С изменением объема наблюдений оценки меняются (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования. 2) затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл; 3) становится невозможным определить изолированное влияние факторов на результативный показатель. |