Методические указания по решению типовых задач Учебнометодическое пособие для направления подготовки
Скачать 2.09 Mb.
|
Сделаем вывод. В результате использования инструмента «Регрессия» получено уравнение взаимосвязи ỹ=112,14 – 1,3х. Коэффициент корреляции, равный 0,76, говорит о тесной связи между переменными. Коэффициент детерминации позволяет сделать вывод, что 58% общей вариации цены за квадратный метр жилья связано с влиянием расстояния до метро, а оставшиеся 42% вариации отражают влияние всех прочих факторов. Уравнение регрессии в целом значимо. Фактическое значение критерия Фишера составило F=90,02. Значимость критерия (Значимость F на листе итогов) равна 5,957E-14=5,957·10-14, что гораздо меньше обычно принимаемой 5% области (если значимость критерия находится в пределах выбранной исследователем критической области, в нашем случае 5%, то принимается альтернативная гипотеза, если больше – нулевая). Следовательно, уравнение будет статистически достоверно для исходной генеральной совокупности. Параметр а является статистически достоверным: P-Значение для критерия t-Стьюдента (t-Статистика) составило 2,7∙10-60<5%, следовательно, принимается альтернативная гипотеза о том, что в генеральной совокупности этот параметр не равен нулю. Коэффициент полной регрессии в=-1,3оказался также значимым (5,96·10-14<5%), следовательно, возможна его смысловая интерпретация. Коэффициент регрессии отрицательный, что указывает на обратную связь между переменными . Величина коэффициента регрессии говорит о том. что при увеличении расстояния до метро на 1 минуту ходьбы, цена квадратного метра общей площади снижается в среднем по всем наблюдениям на 1,3 тысячи рублей. Свободный член уравнения регрессии 112,14 показывает, какой бы была цена при нулевом расстоянии до метро, но, поскольку в нашей выборке таких наблюдений нет, то в данном примере эта величина не имеет смысловой интерпретации. Поскольку параметры выборочного уравнения регрессии оказались статистически достоверны, то можно дать интервальную оценку параметров генерального уравнения . Нижние и верхние границы параметров на листе вывода итогов обозначены как «Нижние 95%» и «Верхние95%». Параметр λ в генеральной совокупности находится в пределах от 108,54 до 115,74: 108,54≤λ ≤115,74; параметр β: -1,57≤β≤-1,02 при доверительном уровне вероятности суждения 95%. Иными словами, с вероятностью 95% мы можем утверждать, что в наблюдаемых районах Санкт-Петербурга увеличение расстояния до метро на каждую минуту ходьбы будет приводить к снижению квадратного метра жилья от 1,57 до 1,02 тыс. руб. Поскольку уравнение регрессии, полученное по выборочным данным, оказалось достоверным по критерию Фишера, со значимыми параметрами, то можно сделать вывод о достаточно высоком качестве модели и возможности построения прогнозов на ее основе. Однако следует помнить, что сравнительно невысокий коэффициент детерминации не сможет обеспечить высокую точность прогнозирования. Стандартная ошибка уравнения говорит о том, что в среднем для всех наблюдений в своих прогнозах цены квадратного метра мы будем ошибаться на ±8,13 тысяч рублей. Задача 3.2. Прогнозирование на основе парного линейного уравнения регрессии. Условие: решено парное линейное уравнение связи между ценой квадратного метра жилья в новостройках Санкт-Петербурга и расстоянием до метро, доказана достоверность взаимосвязи (задача 3.1.) Требуется: выполнить точечный и интервальный прогноз цены квадратного метра при заданном значении фактора. Решение. При выборе прогнозных значений независимой переменной следует помнить, что чем больше отличается предполагаемое значение фактора от его среднего уровня, тем больше ошибка прогноза. В базе данных значение независимой переменной (минут ходьбы до метро) варьируют от 3 до 25 минут. Предположим, что интересующая нас квартира находится в 12 минутах пешей доступности, то есть хпрогн.=12. Среднее значение и дисперсию факторного признака найдем с помощью программного продукта Excel – «Пакет анализа»: выбираем «Описательная статистика»→ставим галочку напротив «Итоговая статистика»→указываем выходной интервал. В появившейся таблице мы увидим необходимые нам величины: Табл. 3.3 Описательная статистика переменной «расстояние до метро в минутах ходьбы»
Подставим хпрогн. в уравнение регрессии: тыс. руб. за квадратный метр. Проведем точечную и интервальную оценку прогноза, для этого определим среднюю ошибку прогноза: тыс. руб. - остаточную дисперсию возьмем из таблицы дисперсионного анализа в предыдущей задаче. Точечная оценка: прогнозное значение цены за квадратный метр при пешей доступности метро в 12 минут равно 96,54 тыс.руб. со средней ошибкой 8,18 тыс. руб. Проведем интервальную оценку прогноза в генеральной совокупности: . Поскольку численность выборки превышает 30 наблюдений, то есть выборка является большой, то для определения критического значения , используется функция «Интеграл вероятностей при разных значениях t» (см. приложение 2). В нашем случае расчет критического уровня был произведен на уровне значимости 5 % : t0.05=1.96. Найдем предельную ошибку прогноза ε0,05=1,96∙8,18=16,03 тыс. руб. Сделаем вывод: с уровнем доверия 95% можно утверждать, что прогнозное значение цены квадратного метра при удаленности от метро в 12 минут ходьбы в генеральной совокупности будет заключено в пределах: от 80,51 до 112,57 тыс. руб. ( ), точность прогноза нельзя признать удовлетворительной. Вопросы для проверки знаний по модулю III 1. Какие виды взаимосвязи переменных вы знаете? 2. Раскройте понятие «уравнение регрессии». 3. Как интерпретируются параметры парного линейного уравнения регрессии? 4. Какие показатели тесноты связи переменных вы знаете? 5. Как определяется и интерпретируется коэффициент детерминации? 6. Раскройте понятие «достоверность» применительно к параметрам взаимосвязи переменных. 7. Всегда ли необходима процедура оценки достоверности результатов регрессионного анализа? 8. С какой целью проводится F-тест уравнения регрессии? 9. На какие части раскладывается общий объем вариации результативного признака в ходе дисперсионного анализа регрессионной модели? 10. Как рассчитать остаточный объем вариации результативного признака? 11. Назовите причины существования остаточной вариации. 12. Что показывает табличное (критическое) значение критерия Фишера? 13.Чем определяется табличное значение критерия Фишера? 14. В каком случае уравнение регрессии признается достоверным в целом? 15.Как формулируется нулевая гипотеза при проверке достоверности коэффициента корреляции (регрессии)? 16. С какой целью в регрессионном анализе используется критерий t-Стьюдента? 17. Что показывает средняя ошибка коэффициента регрессии? 18. Что показывает предельная ошибка коэффициента регрессии? 19. Как определить доверительный интервал коэффициента регрессии? 20. Чем отличается процедура проверки достоверности параметров связи для больших и малых выборок? 21. В каком случае принимается гипотеза о достоверности коэффициента регрессии? 22. Назовите источники возникновения ошибки прогноза результативного признака. 23.Что такое «точечный прогноз», «интервальный прогноз»? 24. Каковы возможности встроенных инструментов EXCEL для проведения регрессионного анализа? 25. Какой показатель парного корреляционно-регрессионного анализа в EXCEL назван «R-квадрат»? 26. Какие показатели обозначены «SS», «MS» ? 27. Как принять или отклонить нулевую гипотезу о незначимости уравнения регрессии, используя результаты реализации инструмента «Регрессия»? 28. Как оценить значимость параметров уравнения регрессии, используя результаты реализации инструмента «Регрессия»? 29. Как провести точечную и интервальную оценку параметров уравнения регрессии, используя результаты реализации инструмента «Регрессия»? 30. Что понимается под «Предсказанным Y» ? 31. Каково понятие остатка? 32. Как и с какой целью рассчитывается средняя ошибка аппроксимации? Модуль IV. Множественная регрессия. Цель и задачи изучения модуля IV:в результате изучения данного раздела студенты должны уметь обосновывать состав включаемых переменных, выявлять и преодолевать мультиколлинеарность факторов; определять и интерпретировать параметры множественной регрессии; выбирать приоритетные факторы. Методические указания. Множественный регрессионный анализ является развитием парного регрессионного анализа применительно к случаям, когда зависимая переменная гипотетически связана с более чем одной независимой переменной. Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также их совокупное влияние на результативный признак. Построение уравнения множественной регрессии, как и в случае парной зависимости признаков, начинается с проблемы отбора факторов и выбора вида уравнения регрессии. При оценке влияния данной независимой переменной на зависимую переменную нам придется решать проблему разграничения ее воздействия и воздействий других независимых переменных. Кроме того, мы должны решить, какие из факторов следует включить в уравнение регрессии, а какие - исключить из него. Отбор факторов при построении модели множественной регрессии имеет свои правила и ограничения. Правила и ограничения по отбору факторов в уравнение множественной регрессии. 1. Отбор факторов производится на основе качественного теоретического анализа, то есть включение в уравнение тех или иных факторов должно опираться на понимание природы взаимосвязи изучаемых переменных. 2. Факторы должны быть количественно измеримы. Если исследователь хотел бы включить в модель качественный фактор (например, район города как фактор цены на квартиру), то нужно придать этому фактору количественную определенность. В зависимости от целей модели район города можно ранжировать по экологической ситуации, или по удаленности от центра и в модель включить уже порядковый номер района в ранжированном ряду. 3. Каждый из факторов не может быть частью другого. 4. Число включаемых факторов должно быть как минимум в 6-7 раз меньше объема совокупности, по которой изучается регрессия. 5. Каждый дополнительно включенный в уравнение регрессии фактор должен увеличивать множественный коэффициент детерминации, то есть доля объясненной вариации результативного признака за счет включенного фактора должна увеличиваться, а, соответственно, доля остаточной вариации должна уменьшаться. Если до включения фактора в модель и после его включения коэффициенты множественной детерминации мало отличаются друг от друга, то данный фактор является лишним в модели. Насыщение модели лишними факторами приводит к статистической недостоверности параметров регрессии по критерию Стьюдента. 6. Факторы, включенные в модель, должны быть независимы друг от друга, то есть они не должны быть интеркоррелированы друг с другом и, тем более, находиться в жесткой функциональной связи. Если между самими факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результат и параметры уравнения тогда невозможно интерпретировать. Проблема коррелированности факторов (коллинеарности) является наиболее серьезной проблемой множественной регрессии, поэтому рассмотрим ее подробнее. Предположим, что имеется двухфакторное уравнение регрессии у = +1х1 +2х2и допустим, что коэффициенты регрессии 1и 2 положительны и, в то же время, сами факторы х1и х2 положительно коррелированы. Что произойдет, если бы мы хотели оценить парную регрессию между у и х1? По мере увеличения х1: а) у имеет тенденцию к росту, поскольку коэффициент 1 положителен; б) х2 имеет тенденцию к росту, так как х1и х2 положительно коррелированы ; в) у получит ускорение из-за увеличения х2 и благодаря тому, что коэффициент 2 положителен. Другими словами, изменения у будут преувеличивать влияние текущих значений х1 , так как отчасти они будут связаны с изменениями х2 . В результате оценка значения 1 будет смещена, и ее интерпретация будет бессмысленна. Считается, что факторы явно коллинеарны (то есть находятся между собой в линейной зависимости), если коэффициент парной линейной корреляции между ними rx1x2 0,7. Коллинеарность факторов нарушает условие независимости объясняющих переменных и приводит к тому, что факторы дублируют друг друга. Коэффициенты интеркорреляции (то есть коэффициенты парной корреляции между самими факторами) позволяют исключать из модели какой-то из дублирующих факторов. Оставлять в модели следует не тот фактор, который теснее связан с результатом, а тот, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. Рассмотрим пример. Таблица 4.1. Коэффициенты парной корреляции между переменными
Очевидно, что факторы х1и х2 дублируют друг друга, так как коэффициент парной корреляции между ними составил 0,73. В модель целесообразно включить фактор х2 , а не х1,, так как у него значительно слабее связь с третьим фактором (rx2x3=0.12). Наибольшие трудности в аппарате множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более двух факторов связаны между собой тесной линейной зависимостью, то есть имеет место совокупное воздействие факторов друг на друга. Включение мультиколлинеарных факторов в модель приводит к следующим негативным последствиям: такие факторы всегда будут действовать в унисон, поэтому затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом виде», параметры линейной множественной регрессии теряют экономический смысл; оценки параметров связи становятся ненадежными, обнаруживают большие стандартные ошибки, что делает модель непригодной для анализа и прогнозирования. Существует ряд методов, которые позволяют преодолеть сильную межфакторную связь. Один из них основан на последовательном анализе коэффициентов множественной детерминации, где в качестве зависимой переменной рассматривается каждый из факторов (R2x1/x2x3…,R2x2 /x1x3 и т.п.). Чем ближе значение коэффициента множественной межфакторной детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов, можно выделить переменные, ответственные за мультиколлинеарность и исключить их из модели. В уравнении останутся факторы с минимальной величиной межфакторной связи. Установив перечень признаков-факторов, и предварительно оценив форму связи, можно записать соответствующее математическое уравнение теоретической линии множественной регрессии. Как и в парной зависимости, возможны разные виды уравнений множественной регрессии: линейные и нелинейные. Ввиду четкой интерпретации параметров уравнения наиболее широко используются линейные и степенные функции. Так, например, в случае двухфакторной линейной регрессии нахождение неизвестных параметров по методу наименьших квадратов предполагает решение системы нормальных уравнений: Стандартные компьютерные программы регрессионного анализа используют метод наименьших квадратов для нахождения параметров регрессии, и позволяют очень быстро решить уравнение с любым количеством переменных. Однако следует помнить, что далеко не каждое решенное уравнение регрессии подлежит смысловой интерпретации. Нельзя комментировать уравнения регрессии с коллинеарными факторами, и, как уже было сказано ранее, статистически недостоверные уравнения. Комментируя решенное корректное и достоверное уравнение, следует помнить о том, что существует различие в интерпретации коэффициента регрессии в парных и множественных моделях. В уравнениях парной регрессии коэффициент в называют коэффициентом полной регрессии. Он показывает, как в среднем изменится у при изменении х на единицу, при условии, что влияние других факторов не учтено. В уравнениях множественной регрессии коэффициент вi называют коэффициентом чистой регрессии. Он измеряет среднее изменение у при изменении фактора хi на единицу, но при условии, что действие других факторов, включенных в уравнение регрессии, учтено и зафиксировано на среднем уровне. Коэффициенты регрессии в уравнении связи несопоставимы друг с другом в силу разных единиц измерения. Для целей сравнения и определения приоритетности факторов определяют стандартизованные коэффициенты регрессии: коэффициенты эластичности и бета-коэффициенты. Коэффициенты эластичности для линейной связи определяются по формулам: и т.д. Они показывают, на сколько процентов изменится признак-результат, если признак-фактор изменится на один процент. Формулы для расчета бета-коэффициентов имеют вид: Величина бета-коэффициента показывает, на сколько средних квадратических отклонений изменится у, если хi изменится на одно среднее квадратическое отклонение. Во множественной регрессии для оценки сравнительной силы влияния отдельных факторов на результат рассчитывают частные коэффициенты детерминации или так называемые коэффициенты отдельного определения (d2), они показывают долю общего объема вариации результативного признака, обусловленную влиянием конкретного изучаемого фактора: , где в1 – коэффициент чистой регрессии, - дисперсия зависимой переменной. Сумма коэффициентов частной детерминации равна множественному коэффициенту детерминации : R2 = ∑di2- Стандартизованные коэффициенты регрессии позволяют ранжировать факторы по их роли в формировании величины результативного признака, выделять приоритетные факторы, в изменении которых заложены наибольшие возможности в управлении результатом. |