Главная страница

Поручиков М.А. Анализ данных. А. поручиков


Скачать 2.76 Mb.
НазваниеА. поручиков
Дата25.10.2022
Размер2.76 Mb.
Формат файлаdocx
Имя файлаПоручиков М.А. Анализ данных.docx
ТипАнализ
#753011
страница9 из 20
1   ...   5   6   7   8   9   10   11   12   ...   20

Выбор функции гипотезы


1,5062 0,0905 70 4,83

млн. руб.

Одной из важных задач регрессионного анализа является задача выбора функции гипотезы. В случае парной регрессии выбор функции гипотезы можно осуществлять визуально по соответствующему графику. В случае множественной регрессии этот подход неприменим.

Предположим, что имеются данные о стоимости квартир (табл. 10).
Таблица 10. Стоимость квартир


Площадь, кв. м

Цена, млн. руб.

18

2,0

30

2,0

42

3,0

50

5,0

80

9,0


Рассмотрим два варианта решения задачи регрессии с применением линейной функции гипотезы и функции гипотезы, представляющей собой полином четвёртой степени. Опуская подробности решения этой задачи, приведем результаты (табл. 11, рис. 15).
Таблица 11. Параметры решений для различных функций гипотезы



Функция гипотезы

R2


Функция штрафа

Линейная

0,935

2,271

Полином 4-й степени

1,000

0




Рис. 15. Регрессия при разных функциях гипотезы
С точки зрения минимизации функции штрафа из представленных функций следует выбрать полином четвертой степени. С другой стороны, очевидно, что такая функция уже не вполне адекватно отражает тенденцию роста стоимости квартир с возрастанием их площади.

В терминологии Machine Learning ситуация, иллюстрируемая сплошной линией (рис. 15), соответствующей линейной функции гипотезы, обозначается термином underfitting (недообученность). В этом случае общая тенденция уже проявляется, но функция прогноза недостаточно хорошо аппроксимирует имеющийся набор данных.

Ситуация, иллюстрируемая пунктирной линией (рис. 15), соответствующей полиномиальной функции регрессии, обозначается термином «переобученность» (overfitting). Эта ситуация может быть описана следующим образом: аппроксимация очень хорошо либо идеально описывает выборку данных, но способность к обобщению потеряна.

Существуют разные способы выбора функции регрессии. Один из способов предполагает выполнение следующих шагов:

  1. Разделение случайным образом исходной выборки данных на две части: обучающую, содержащую от 70 до 80% исходных данных, и проверочную, содержащую от 20 до 30% исходных данных.

  2. Задание нескольких функций гипотезы.

  3. Выполнение для каждой из функций гипотезы подбора параметров функции по обучающей выборке (минимизация функции штрафа по обучающей выборке) и вычисления функции штрафа по тестовой выборке.

  4. Выбор функции гипотезы по критерию минимальной функции штрафа по тестовой выборке.

Рассмотрим пример выбора функции гипотезы на примере данных о площади и стоимости квартир (табл. 12, рис. 16).
Таблица 12. Стоимость квартир


Площадь ,кв. м

Стоимость, млн. руб.

30

2,8

100

7,0

46

4,9

69

6,5

84

6,7

77

7,2

54

5,9

84

7,4

66

6,0

93

6,7

33

1,9

65

6,9

44

3,5

54

5,3

61

6,0

67

6,1

89

7,8

62

5,6

41

3,6

92

8,4

70

7,4

45

5,1

35

3,7

68

6,7

65

5,5




Рис. 16. Исходная выборка данных по стоимости квартир
Разделим исходную выборку данных на обучающую, содержащую

20 (80%) записей из исходной выборки (табл. 13), и проверочную, содержащую 5 (20%) записей из сходной выборки (табл. 14).
Таблица 13. Обучающая выборка


Площадь ,кв. м.

Стоимость, млн. руб.

30

2,8

100

7,0

46

4,9

69

6,5

84

6,7

77

7,2

54

5,9

84

7,4

66

6,0

93

6,7

33

1,9

65

6,9

44

3,5

54

5,3

61

6,0

67

6,1

89

7,8

62

5,6

41

3,6

Таблица 14. Проверочная выборка

Площадь, кв. м.

Стоимость, млн. руб.

70

7,4

45

5,1

35

3,7

68

6,7

65

5,5


Графическая интерпретация разделения исходной выборки на две приведена ниже (рис. 17).



Рис. 17. Обучающая и проверочная выборки
Решение задачи регрессии приводит к следующим показателям (рис. 18).

Таким образом, исходя из критерия минимума функции штрафа по проверочной выборке, можно сделать вывод о том, что наиболее подходящей в данном случае является квадратичная функция гипотезы.


Рис. 18. Зависимость ошибки от степени функции регрессии

1   ...   5   6   7   8   9   10   11   12   ...   20


написать администратору сайта