Поручиков М.А. Анализ данных. А. поручиков
Скачать 2.76 Mb.
|
Выбор функции гипотезы 1,5062 0,0905 70 4,83 млн. руб. Одной из важных задач регрессионного анализа является задача выбора функции гипотезы. В случае парной регрессии выбор функции гипотезы можно осуществлять визуально по соответствующему графику. В случае множественной регрессии этот подход неприменим. Предположим, что имеются данные о стоимости квартир (табл. 10). Таблица 10. Стоимость квартир
Рассмотрим два варианта решения задачи регрессии с применением линейной функции гипотезы и функции гипотезы, представляющей собой полином четвёртой степени. Опуская подробности решения этой задачи, приведем результаты (табл. 11, рис. 15). Таблица 11. Параметры решений для различных функций гипотезы
Рис. 15. Регрессия при разных функциях гипотезы С точки зрения минимизации функции штрафа из представленных функций следует выбрать полином четвертой степени. С другой стороны, очевидно, что такая функция уже не вполне адекватно отражает тенденцию роста стоимости квартир с возрастанием их площади. В терминологии Machine Learning ситуация, иллюстрируемая сплошной линией (рис. 15), соответствующей линейной функции гипотезы, обозначается термином underfitting (недообученность). В этом случае общая тенденция уже проявляется, но функция прогноза недостаточно хорошо аппроксимирует имеющийся набор данных. Ситуация, иллюстрируемая пунктирной линией (рис. 15), соответствующей полиномиальной функции регрессии, обозначается термином «переобученность» (overfitting). Эта ситуация может быть описана следующим образом: аппроксимация очень хорошо либо идеально описывает выборку данных, но способность к обобщению потеряна. Существуют разные способы выбора функции регрессии. Один из способов предполагает выполнение следующих шагов:
Рассмотрим пример выбора функции гипотезы на примере данных о площади и стоимости квартир (табл. 12, рис. 16). Таблица 12. Стоимость квартир
Рис. 16. Исходная выборка данных по стоимости квартир Разделим исходную выборку данных на обучающую, содержащую 20 (80%) записей из исходной выборки (табл. 13), и проверочную, содержащую 5 (20%) записей из сходной выборки (табл. 14). Таблица 13. Обучающая выборка
Таблица 14. Проверочная выборка
Графическая интерпретация разделения исходной выборки на две приведена ниже (рис. 17). Рис. 17. Обучающая и проверочная выборки Решение задачи регрессии приводит к следующим показателям (рис. 18). Таким образом, исходя из критерия минимума функции штрафа по проверочной выборке, можно сделать вывод о том, что наиболее подходящей в данном случае является квадратичная функция гипотезы. Рис. 18. Зависимость ошибки от степени функции регрессии |