45
j
j
j
y
f
f
y
y
S
2 0
2
;
(3.21)
n
y
y
S
i
y
2 0
2
,
(3.22) где
j
y
– среднее значение результативного признака в соответствую- щих группах, выделенных по величине признака-фактора;
0
y
– общая средняя для всей совокупности;
j
f
– число единиц в соответствую- щих группах.
Вычисление корреляционного отношения требует достаточно большого объема информации, которая должна быть представлена в форме групповой таблицы или в форме корреляционной таблицы, т.е. обязательным условием является группировка данных по признаку- фактору.
3.6.5. Построение модели связи
Тип модели выбирается на основе сочетания теоретического анализа и исследования эмпирических данных посредством построе- ния эмпирической линии регрессии. Чаще всего используются сле- дующие типы функций: линейная
bx
a
y
x
; гиперболическая
x
b
a
y
x
1
; параболическая
2
cx
bx
a
y
x
; показательная
x
x
ab
y
Для проверки возможности использования линейной функции определяется модуль разности
2 2
r
; если она менее 0,1, то счита- ется возможным применение линейной функции.
Система уравнений для определения параметров a и b уравнения прямолинейной корреляционной связи (для несгруппированных дан- ных) имеет вид
;
2
x
b
x
a
yx
x
b
an
y
(3.23)
Параметры a и b можно найти по формулам
Си бА
ДИ
46
x
b
y
a
;
2 2
x
x
n
y
x
xy
n
b
(3.24)
В качестве меры достоверности уравнения корреляционной за- висимости используется процентное отношение средней квадратиче- ской ошибки уравнения S
e
к среднему уровню результативного при- знака y :
%
100
y
S
e
;
g
n
y
y
S
e
2
,
(3.25) где y – фактические значения результативного признака; y
– значе- ния результативного признака, рассчитанные по уравнению регрес- сии; g – число параметров уравнения регрессии.
Если это отношение не превышает 10 – 15 %, то следует счи- тать, что уравнение регрессии достаточно хорошо отображает изу- чаемую взаимосвязь.
Для результативного признака определяются доверительные границы, в пределах которых с заданной доверительной вероятностью будет находиться теоретическое значение y. Доверительные границы результативного признака y при значении факторного признака
0
x
вычисляются следующим образом:
2 2
0 2
2 0
1
1
0 0
x
e
x
x
e
x
S
x
x
n
S
t
y
y
S
x
x
n
S
t
y
,
(3.26) где
t
определяется в соответствии с уровнем значимости по распре- делению Стьюдента для числа степеней свободы
1
n
f
d
3.7. Пример применения корреляционно-регрессионного анализа
В табл. 3.3 приведены данные исследования зависимости объема выпускаемой продукции от уровня автоматизации поточных линий.
Провести на основе приведенных данных исследование взаимосвязи объема выпускаемой продукции от уровня автоматизации поточных линий. Результативный признак – объем продукции y. Факторный признак – уровень автоматизации поточной линии x.
Первичная информация проверяется на однородность по при- знаку-фактору с помощью коэффициента вариации.
5
,
73
n
x
x
%;
1
,
4 2
n
x
x
S
x
%;
4
,
5 100 5
,
73 1
,
4
V
%.
Си бА
ДИ
47
%
33
V
, следовательно, совокупность можно считать однород- ной.
Таблица 3.3
Данные для анализа
Номер линии
Уровень автоматизации,
%
Объем продукции, млн руб.
Номер линии
Уровень автоматизации,
%
Объем продукции, млн руб.
1 77,8 18,5 11 69,6 17,5 2
69,0 18,2 12 79,2 21,8 3
76,5 20,4 13 70,8 16,5 4
80,7 21,8 14 72,3 16,8 5
72,0 16,8 15 79,2 21,0 6
77,1 20,8 16 73,5 16,8 7
64,0 14,2 17 71,1 16,5 8
72,0 17,0 18 69,9 17,0 9
75,9 18,4 19 70,5 17,5 10 73,2 19,5 20 75,0 20,9
Проверка первичной информации на нормальность распределе- ния проводится с помощью правила «трех сигм» (табл. 3.4). Можно считать, что значения фактора подчиняются закону нормального рас- пределения.
Таблица 3.4
Проверка признака-фактора на нормальность
Интервалы значений фактора
Число единиц, входящих в интервал
Удельный вес единиц, входящих в интервал, в общем их числе,
%
Удельный вес единиц, входящих в интервал, при нормальном распределении, %
69,4 – 77,6 14 70,0 68,3 65,3 – 81,7 19 95,0 95,4 61,2 – 85,8 20 100 99,7
Все значения факторного признака попадают в интервал «трех сигм»
8
,
85 2
,
61
i
x
, следовательно, грубых ошибок (промахов) в первичной информации нет.
Для установления наличия связи
x
y
производится аналитиче- ская группировка по факторному признаку. Группировка выполняется при равных интервалах и числе групп m=5. Величина интервала
Си бА
ДИ
48
4
,
3 5
0
,
64 7
,
80
min max
m
x
x
i
%.
Расчеты приведены в табл. 3.5, 3.6. Как видно из данных груп- повой таблицы, с увеличением уровня автоматизации поточных ли- ний объем выпускаемой на них продукции растет. На рис. 3.3 пред- ставлен график связи. Эмпирическая линия связи приближается к прямой линии. Следовательно, можно предполагать наличие прямо- линейной корреляции.
Таблица 3.5
Вспомогательная таблица для заполнения групповой таблицы
x, %
64,0 – 67,4 67,4 – 70,8 70,8 – 74,2 74,2 – 77,6 77,6 – 81,0
Номер линии
7 2; 11; 18;
19 5; 8; 10;
13; 14; 16;
17 3; 6; 9; 20 1; 4; 12; 15
y, млн руб.
14,2 18,2; 17,5;
17,0; 17,5 16,8;17,0;
19,5; 16,5;
16,8; 16,8;
16,5 20,4; 20,8;
18,4; 20,9 18,5; 21,8;
21,8; 21,0
Таблица 3.6
Групповая таблица
x, %
x
, %
f
j
i
ij
y
j
y
, млн руб.
64,0 – 67,4 65,7 1
14,2 14,2 67,4 – 70,8 69,1 4
70,2 17,6 70,8 – 74,2 72,5 7
119,9 17,1 74,2 – 77,6 75,9 4
80,5 20,1 77,6 – 81,0 79,3 4
83,1 20,8
Для измерения степени тесноты связи вычисляем линейный ко- эффициент корреляции (3.16).
Для расчета r использована вспомогательная табл. 3.7.
86
,
0 2
,
168 3
,
145 20 9
,
367 8
,
6852 20 3
,
1469 1
,
108274 20 9
,
367 3
,
1469 1
,
27173 2
2
r
Значение линейного коэффициента корреляции свидетельствует о наличии прямой и достаточно тесной связи.
Си бА
ДИ
49
10 15 20 25 65,7 69,1 72,5 75,9 79,3
x, %
y,
млн руб.
Рис.3.3. Зависимость объема выпускаемой продукции от уровня автоматизации поточных линий
Таблица 3.7
Данные для расчета коэффициента корреляции и уравнения связи
Номер линии
x,
%
y, млн руб.
x
2
y
2
xy
y
y
y
2
y
y
1 77,8 18,5 6052,8 342,3 1439,3 20,3
-1,8 3,21 2
69,0 18,2 4761,0 331,2 1255,8 16,4 1,8 3,17 3
76,5 20,4 5852,3 416,2 1560,6 19,7 0,7 0,46 4
80,7 21,8 6512,5 475,2 1759,3 21,6 0,2 0,05 5
72,0 16,8 5184,0 282,2 1209,6 17,7
-0,9 0,88 6
77,1 20,8 5944,4 432,6 1603,7 20,0 0,8 0,67 7
64,0 14,2 4096,0 201,6 908,8 14,2 0,0 0,00 8
72,0 17,0 5184,0 289,0 1224,0 17,7
-0,7 0,55 9
75,9 18,4 5760,8 338,6 1396,6 19,5
-1,1 1,12 10 73,2 19,5 5358,2 380,3 1427,4 18,3 1,2 1,52 11 69,6 17,5 4844,2 306,3 1218,0 16,7 0,8 0,67 12 79,2 21,8 6272,6 475,2 1726,6 20,9 0,9 0,80 13 70,8 16,5 5012,6 272,3 1168,2 17,2
-0,7 0,51 14 72,3 16,8 5227,3 282,2 1214,6 17,9
-1,1 1,15 15 79,2 21,0 6272,6 441,0 1663,2 20,9 0,1 0,01 16 73,5 16,8 5402,3 282,2 1234,8 18,4
-1,6 2,56 17 71,1 16,5 5055,2 272,3 1173,2 17,3
-0,8 0,71 18 69,9 17,0 4886,0 289,0 1188,3 16,8 0,2 0,03 19 70,5 17,5 4970,3 306,3 1233,8 17,1 0,4 0,18 20 75,0 20,9 5625,0 436,8 1567,5 19,1 1,8 3,39
1469,3 367,9 108274
,1 6852,8 27173,1
–
–
21,62
Си бА
ДИ
50
Средняя квадратическая ошибка коэффициента корреляции
12
,
0 2
20 86
,
0 1
2 1
2 2
n
r
S
r
;
167
,
7 12
,
0 86
,
0
r
S
r
t
Критическое значение t определяем по таблице распределения
Стьюдента для
05
,
0
и
18
f
d
734
,
1
T
t
. Так как
T
t
t
, можно утверждать существенность коэффициента корреляции.
Определение модели линейной связи. Проверяем возможность использования линейной функции.
4
,
18 20 9
,
367 0
y
млн руб.;
32
,
3 2
y
S
млн руб.
2
;
26
,
4 2
y
S
млн руб.
2
;
88
,
0 26
,
4 32
,
3
;
04
,
0 86
,
0 88
,
0 2
2 2
2
r
Так как
1
,
0 2
2
r
, применение линейной функции считается возможным. Модель линейной связи
bx
a
y
. Коэффициенты урав- нения регрессии определяем, используя данные табл. 3.7.
44
,
0 2
2
x
x
n
y
x
xy
n
b
;
94
,
13 5
,
73 44
,
0 4
,
18
x
b
y
a
Получили следующую модель связи (уравнение регрессии):
x
y
44
,
0 94
,
13
Средняя квадратическая ошибка уравнения
10
,
1 2
20 62
,
21
2
g
n
y
y
S
e
млн руб.
Значения y
, рассчитанные по уравнению регрессии, представ- лены в табл. 3.7.
%
6
%
100 4
,
18 10
,
1
%
100
y
S
e
Полученное отношение меньше 10 %, поэтому полученная мо- дель достаточно хорошо отображает взаимосвязь двух признаков и может быть использована в практической работе.
3.8. Линейная множественная регрессия
При изучении множественной регрессии не существует графи- ческой интерпретации многофакторного пространства. При проведе- нии экспериментов в такой ситуации исследователь записывает пока- зания приборов о состоянии функции отклика у и всех факторов x
i
, от
Си бА
ДИ
51
которых она зависит. Результат исследований – это матрица наблю- дений.
nk
nj
n
n
n
ik
ij
i
i
i
k
j
k
j
x
x
x
x
y
x
x
x
x
y
x
x
x
x
y
x
x
x
x
y
2 1
2 1
2 2
22 21 2
1 1
12 11 1
,
(3.27) где n – число опытов; k – число факторов; x
ij
– значение j-го фактора в
i-м опыте; y
i
– значение выходного параметра для i-го опыта.
Задача линейной множественной регрессии состоит в построе- нии гиперплоскости в (k+1)-мерном пространстве, отклонения ре- зультатов наблюдений y
i
от которой были бы минимальными при ис- пользовании метода наименьших квадратов. Т.е. следует определить значения коэффициентов b
j
(j=0,1,2,3…) в линейном полиноме
k
j
j
j
x
b
b
y
1 0
(3.28)
Процедура определения коэффициентов не отличается от одно- мерного случая. Для оценки тесноты связи между функцией отклика
y
и несколькими факторами
k
j
x
x
x
x
,
,
,
,
,
2 1
используют коэффи- циент множественной корреляции R, который всегда положителен и изменяется в пределах от 0 до 1. Чем больше R, тем качественнее предсказания данной моделью опытных данных с точки зрения бли- зости ее к функциональной.
Расчёты обычно начинают с вычисления парных коэффициентов корреляции:
1)
j
yx
r
– коэффициенты, определяющие тесноту связи между функцией отклика y
и одним из факторов
j
x
;
2)
u
j
x
x
r
– коэффициенты, показывающие тесноту связи между одним и з факторов x
j
и фактором x
u
Если один из коэффициентов
u
j
x
x
r
окажется равным 1, то это означает, что факторы
j
x
и
u
x
функционально связаны между собой.
Тогда целесообразно один из них исключить из рассмотрения, причём оставляют тот фактор, у которого коэффициент
j
yx
r
больше.
Си бА
ДИ
52
После вычисления всех парных коэффициентов корреляции можно построить матрицу коэффициентов следующего вида:
1 1
1 1
1 2
1 2
1 2
2 1
2 2
1 1
2 1
1 2
1
j
k
k
k
k
k
j
j
j
j
k
j
k
j
k
j
x
x
x
x
x
x
y
x
x
x
x
x
x
x
y
x
x
x
x
x
x
x
y
x
x
x
x
x
x
x
y
x
yx
yx
yx
yx
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
(3.29)
Однако парные коэффициенты корреляции не характеризуют тесноту связи, так как они вычисляются при случайно изменяющихся значениях других факторов. Действительно, рассмотрение трёх и бо- лее случайных величин может не дать правильного представления о степени связи между всеми случайными величинами. Это объясняется тем, что на закон распределения вероятностей исследуемой пары слу- чайных величин могут оказывать влияние и другие рассматриваемые случайные величины.
Используя матрицу коэффициентов, можно вычислить частные коэффициенты корреляции, которые показывают степень влияния од- ного из факторов
j
x
на функцию отклика y
при условии, что осталь- ные факторы остаются на постоянном уровне.
Формула для вычисления частных коэффициентов корреляции имеет вид
jj
j
xk
xj
x
yx
D
D
D
r
11 1
,
,
,
,
2
,
1
,
(3.30) где
j
D
1
– определитель матрицы, образованной из матрицы (3.29) вы- чёркиванием 1-й строки и j-го столбца. Определители
11
D
и
jj
D
вы- числяют аналогично. Как и парные коэффициенты, частные коэффи- циенты корреляции изменяются от -1 до +1.
Значимость и доверительный интервал для коэффициентов час- той корреляции определяются так же, как для коэффициентов парной корреляции, только число степеней свободы вычисляют по формуле
2
)
1
(
k
n
f
d
,
(3.31) где (k-1) – порядок частного коэффициента парной корреляции.
Для вычисления коэффициента множественной корреляции ис- пользуют матрицу (3.29)
Си бА
ДИ