Вариант 1 Задача 1 В базе данных магазина, торгующего подержанными автомобилями, содержится информация об их потребительский свойствах и ценах.
Для анализа зависимости цены автомобиля Y от его возраста Х1 и мощности двигателя Х2 из базы данных выбраны сведения о 16 автомобилях. Эти сведения приведены в таблице1.
номер
| цена
| возраст
| мощность
| 1
| 8,3
| 6
| 88
| 2
| 17,9
| 3
| 160
| 3
| 11,2
| 5
| 105
| 4
| 17,2
| 4
| 165
| 5
| 9,4
| 5,5
| 88
| 6
| 15,9
| 4
| 145
| 7
| 6,8
| 7
| 95
| 8
| 10,8
| 6
| 124
| 9
| 15,6
| 5
| 165
| 10
| 13,8
| 3,5
| 112
| 11
| 15,3
| 3
| 120
| 12
| 14,4
| 4,5
| 145
| 13
| 15,6
| 3,5
| 140
| 14
| 10,6
| 7
| 145
| 15
| 11,2
| 5,5
| 120
| 16
| 13,4
| 4,5
| 132
|
Парные зависимости
Построить поля рассеяния для цены Y и возраста автомобиля Х1, а также для цены Y и мощности двигателя Х2. На основе их визуального анализа выдвинуть гипотезы о виде статистической зависимости Y от Х1 и Y от Х2 и записать их математически.
Построим поля рассеяния:
Рис. 1. Поле рассеяния для цены Y и возраста автомобиля Х1
Рис. 2 Поле рассеяния для цены Y и мощности двигателя Х2 На основе визуального анализа построенных полей рассеяния можно выдвинуть гипотезу о линейной зависимости цены от возраста Х1 и мощности двигателя Х2.
Математически данные зависимости запишутся в виде:
y = α0+ α1x1 +
и y = β0+ β1x1 + , где и - случайные переменные. 1.2. Методом наименьших квадратов найти оценки линейных уравнений регрессии:
y = α0+ α1x1, y = β0+ β1x1.
Составим вспомогательную таблицу для = α0+ α1x1: (таблица 2)
i
| yi
| xi1
| xi12
| yi xi1
| yi2
| 1
| 8,3
| 6
| 36
| 49,8
| 68,89
| 2
| 17,9
| 3
| 9
| 53,7
| 320,41
| 3
| 11,2
| 5
| 25
| 56
| 125,44
| 4
| 17,2
| 4
| 16
| 68,8
| 295,84
| 5
| 9,4
| 5,5
| 30,25
| 51,7
| 88,36
| 6
| 15,9
| 4
| 16
| 63,6
| 252,81
| 7
| 6,8
| 7
| 49
| 47,6
| 46,24
| 8
| 10,8
| 6
| 36
| 64,8
| 116,64
| 9
| 15,6
| 5
| 25
| 78
| 243,36
| 10
| 13,8
| 3,5
| 12,25
| 48,3
| 190,44
| 11
| 15,3
| 3
| 9
| 45,9
| 234,09
| 12
| 14,4
| 4,5
| 20,25
| 64,8
| 207,36
| 13
| 15,6
| 3,5
| 12,25
| 54,6
| 243,36
| 14
| 10,6
| 7
| 49
| 74,2
| 112,36
| 15
| 11,2
| 5,5
| 30,25
| 61,6
| 125,44
| 16
| 13,4
| 4,5
| 20,25
| 60,3
| 179,56
| Σ
| 207,4
| 77
| 395,5
| 943,7
| 2850,6
|
т.к. n=16, то = =12,9625
= = 4,8125
тогда
таким образом, получаем уравнение регрессии:
Составим таблицу для = β0+ β1x1: (таблица 3)
i
| yi
| xi2
| xi22
| yi xi2
| yi2
| 1
| 8,3
| 88
| 7744
| 730,4
| 68,89
| 2
| 17,9
| 160
| 25600
| 2864
| 320,41
| 3
| 11,2
| 105
| 11025
| 1176
| 125,44
| 4
| 17,2
| 165
| 27225
| 2838
| 295,84
| 5
| 9,4
| 88
| 7744
| 827,2
| 88,36
| 6
| 15,9
| 145
| 21025
| 2305,5
| 252,81
| 7
| 6,8
| 95
| 9025
| 646
| 46,24
| 8
| 10,8
| 124
| 15376
| 1339,2
| 116,64
| 9
| 15,6
| 165
| 27225
| 2574
| 243,36
| 10
| 13,8
| 112
| 12544
| 1545,6
| 190,44
| 11
| 15,3
| 120
| 14400
| 1836
| 234,09
| 12
| 14,4
| 145
| 21025
| 2088
| 207,36
| 13
| 15,6
| 140
| 19600
| 2184
| 243,36
| 14
| 10,6
| 145
| 21025
| 1537
| 112,36
| 15
| 11,2
| 120
| 14400
| 1344
| 125,44
| 16
| 13,4
| 132
| 17424
| 1768,8
| 179,56
| сумма
| 207,4
| 2049
| 272407
| 27603,7
| 2850,6
|
т.к. n=16, то = =12,9625
= = 128,0625
тогда
таким образом, получаем уравнение регрессии:
1.3. С помощью коэффициентов парной корреляции проанализировать тесноту линейной связи между ценой и возрастом автомобиля, а также между ценой и мощностью двигателя. Проверить их значимость с надежностью 0,9.
Найдем коэффициент парной корреляции для = α0+ α1x1:
проверим, существенно ли отличается найденный коэффициент корреляции от нуля. Найдем:
Сравним с квантилем распределения Стьюдента
Т.к. 6,18489 >1,761, то коэффициент корреляции существенно отличается от нуля и существует сильная линейная зависимость между y и Найдем коэффициент парной корреляции для = β0+ β1x2:
проверим, существенно ли отличается найденный коэффициент корреляции от нуля. Найдем:
Сравним с квантилем распределения Стьюдента
Т.к. 5б34355 >1,761, то коэффициент корреляции существенно отличается от нуля и существует сильная линейная зависимость между y и 1.4. Проверить статистическую значимость параметров и уравнений регрессии с надежностью 0,9.
Для
Коэффициент детерминации: , т.е. вариация цены на 73% объясняется вариацией возраста автомобиля.
Фактическое значение F-статистики Фишера
При уровне значимости 0,1 табличное значение .
Т.к. , то признается статистическая значимость уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии найдем , признается статистическая значимость коэффициентов регрессии.
Аналогично для :
Коэффициент детерминации: , т.е. вариация цены на 67% объясняется вариацией возраста автомобиля.
Фактическое значение F-статистики Фишера
При уровне значимости 0,1 табличное значение .
Т.к. , то признается статистическая значимость уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии найдем , признается статистическая значимость коэффициентов регрессии. 1.5. Построить доверительные полосы надежности для среднего значения цены автомобиля в зависимости от его возраста, а также от мощности двигателя. Изобразить графически линии регрессии и доверительные полосы вместе с полями рассеяний.
Найдем доверительную полосу для уравнения регрессии , построим вспомогательную таблицу: (таблица 4)
ỹi
| ỹi -yi
| (ỹi -yi )2
| (xi1-x1)2
| Sy
| 1,761Sy
| ỹн
| ỹв
| 10,37
| 2,07
| 4,29
| 1,41
| 0,61
| 1,07
| 9,30
| 11,44
| 16,92
| -0,98
| 0,97
| 3,29
| 0,78
| 1,37
| 15,55
| 18,28
| 12,55
| 1,35
| 1,83
| 0,04
| 0,45
| 0,78
| 11,77
| 13,34
| 14,74
| -2,46
| 6,07
| 0,66
| 0,53
| 0,93
| 13,81
| 15,66
| 11,46
| 2,06
| 4,25
| 0,47
| 0,50
| 0,89
| 10,58
| 12,35
| 14,74
| -1,16
| 1,36
| 0,66
| 0,53
| 0,93
| 13,81
| 15,66
| 8,19
| 1,39
| 1,93
| 4,79
| 0,89
| 1,56
| 6,62
| 9,75
| 10,37
| -0,43
| 0,18
| 1,41
| 0,61
| 1,07
| 9,30
| 11,44
| 12,55
| -3,05
| 9,28
| 0,04
| 0,45
| 0,78
| 11,77
| 13,34
| 15,83
| 2,03
| 4,11
| 1,72
| 0,64
| 1,13
| 14,70
| 16,95
| 16,92
| 1,62
| 2,62
| 3,29
| 0,78
| 1,37
| 15,55
| 18,28
| 13,64
| -0,76
| 0,57
| 0,10
| 0,45
| 0,80
| 12,84
| 14,44
| 15,83
| 0,23
| 0,05
| 1,72
| 0,64
| 1,13
| 14,70
| 16,95
| 8,19
| -2,41
| 5,81
| 4,79
| 0,89
| 1,56
| 6,62
| 9,75
| 11,46
| 0,26
| 0,07
| 0,47
| 0,50
| 0,89
| 10,58
| 12,35
| 13,64
| 0,24
| 0,06
| 0,10
| 0,45
| 0,80
| 12,84
| 14,44
| Σ
|
| 43,4519
| 24,94
|
|
|
|
|
, для каждого xi1 рассчитаем
,
, где . Результаты расчетов для каждого приведены в таблице 4.
Значения определяют доверительный интервал для каждого . Линию регрессии и доверительную полосу изобразим на рисунке 1. Найдем доверительную полосу для уравнения регрессии , построим вспомогательную таблицу: (таблица 5)
ỹi
| ỹi -yi
| (ỹi -yi )2
| (xi2-x2)2
| Sy
| 1,761Sy
| ỹн
| ỹв
| 8,78
| 0,48
| 0,23
| 1605,00
| 0,92
| 1,62
| 7,16
| 10,41
| 16,29
| -1,61
| 2,58
| 1020,00
| 0,79
| 1,39
| 14,9
| 17,69
| 10,56
| -0,64
| 0,41
| 531,88
| 0,66
| 1,17
| 9,39
| 11,73
| 16,81
| -0,39
| 0,15
| 1364,38
| 0,87
| 1,53
| 15,28
| 18,35
| 8,78
| -0,62
| 0,38
| 1605,00
| 0,92
| 1,62
| 7,16
| 10,41
| 14,73
| -1,17
| 1,37
| 286,88
| 0,59
| 1,04
| 13,69
| 15,77
| 9,51
| 2,71
| 7,37
| 1093,13
| 0,81
| 1,42
| 8,09
| 10,94
| 12,54
| 1,74
| 3,02
| 16,50
| 0,49
| 0,87
| 11,67
| 13,41
| 16,81
| 1,21
| 1,47
| 1364,38
| 0,87
| 1,53
| 15,28
| 18,35
| 11,29
| -2,51
| 6,31
| 258,00
| 0,58
| 1,02
| 10,27
| 12,31
| 12,12
| -3,18
| 10,10
| 65,00
| 0,51
| 0,90
| 11,22
| 13,02
| 14,73
| 0,33
| 0,11
| 286,88
| 0,59
| 1,04
| 13,69
| 15,77
| 14,21
| -1,39
| 1,94
| 142,50
| 0,54
| 0,95
| 13,26
| 15,16
| 14,73
| 4,13
| 17,05
| 286,88
| 0,59
| 1,04
| 13,69
| 15,77
| 12,12
| 0,92
| 0,85
| 65,00
| 0,51
| 0,90
| 11,22
| 13,02
| 13,37
| -0,03
| 0,00
| 15,50
| 0,49
| 0,87
| 12,5
| 14,24
| Σ
|
| 53,3559436
| 10006,94
|
|
|
|
|
, для каждого xi1 рассчитаем
,
, где . Результаты расчетов для каждого приведены в таблице 5.
Значения определяют доверительный интервал для каждого . Линию регрессии и доверительную полосу изобразим на рисунке 2.
1.6. На продажу поступила очередная партия однотипных автомобилей, их возраст 3 года, мощность 165 л.с. Рассчитать точечный и интервальный прогноз среднего значения цены поступивших автомобилей в зависимости от возраста и мощности двигателя с доверительной вероятностью 0,9. В зависимости от возраста:
Точечный прогноз:
Интервальный: , для x01 рассчитаем
,
, где .
т.е. получили доверительный интервал (15,55 ; 18,29).
В зависимости от мощности:
Точечный прогноз:
Интервальный: S = 1,952;
, где
, т.е., получили доверительный интервал (15,23 ; 18,29). |