28
где
j
x
– середина интервала;
*
j
f
– частота попадания результатов на- блюдения
i
x
в заданный интервал; j – номер интервала.
Оценка СКО
m
j
j
m
j
j
j
f
f
x
x
S
1
*
1
*
2
(2.18)
Выбирается приемлемый уровень значимости, обычно
05
,
0
Проверка гипотезы состоит в том, чтобы на основании сравнения эм- пирических (фактических) частот с предполагаемыми (теоретиче- скими) сделать вывод о соответствии эмпирического распределения гипотетическому. Для проверки близости теоретического и эмпири- ческого распределений используются специальные показатели, назы- ваемые критериями согласия. Наиболее распространенным является критерий Пирсона
2
, вычисляемый по формуле
j
j
j
j
f
f
f
2
*
2
,
(2.19) где
*
j
f – эмпирические частоты в интервале;
j
f
– теоретические час- тоты в интервале.
Если все эмпирические частоты равны соответствующим теоре- тическим частотам, то
2
равно нулю. Очевидно, что чем больше от- личаются эмпирические и теоретические частоты, тем
2
больше; ес- ли расхождение несущественно, то
2
должно быть малым.
Теоретическая частота в данной группе вычисляется как произ- ведение объема совокупности (числа наблюдений) на вероятность по- падания в данный интервал. Теоретические частоты нормального рас- пределения определяются по формуле
2
exp
2 2
j
j
t
S
i
n
f
,
(2.20) где t
j
– нормированное отклонение
S
x
x
t
j
j
(2.21)
Величина
2
/
exp
2 2
1
t
t
p
– табличное значение
(прил. 1), поэтому формулу (2.20) можно переписать в виде
Си бА
ДИ
29
j
j
t
p
S
i
n
f
(2.22)
При расчете критерия Пирсона необходимо соблюдать условия:
число наблюдений должно быть достаточно велико
50
n
;
теоретические частоты в интервале должны быть больше 5.
Если теоретические частоты в некоторых интервалах меньше 5, то со- седние интервалы объединяют.
Критическое значение
2
Т
определяется по таблице распределе- ния Пирсона (прил. 2) в соответствии с числом степеней свободы
f
d.
и уровнем значимости . Число степеней свободы рассчитывается так: если эмпирический ряд распределения имеет k категорий (число интервалов с учетом объединения), то k эмпирических частот
*
*
2
*
1
,
,
,
k
f
f
f
должны быть связаны следующим соотношением:
k
j
j
n
f
1
*
. Если параметры теоретического распределения известны, то только (
1
k
) частот могут принимать произвольные значения, а по- следняя частота может быть найдена из указанного соотношения. По- этому говорят, что система из k частот благодаря наличию одной свя- зи теряет одну степень свободы и имеет только (
1
k
) степеней сво- боды. Кроме того, если при нахождении теоретических частот p па- раметров теоретического распределения неизвестны, то они должны быть найдены по данным эмпирического ряда. Это накладывает на эмпирические частоты еще p связей, благодаря чему система теряет еще p степеней свободы. Таким образом, число свободно варьируе- мых частот (а значит, и число степеней свободы) становится равным
1
p
k
f
d
(2.23)
Если
2 2
T
, то гипотеза
0
H
о нормальном законе распределе- ния эмпирических данных принимается.
2.7.2. Пример проверки гипотезы о нормальном законе
распределения экспериментальных данных
В табл. 2.3 приведены данные о затратах времени на производ- ство единицы продукции. Установить, можно ли с вероятностью
95
,
0
P
считать закон распределения экспериментальных данных нормальным.
Си бА
ДИ
30
Таблица 2.3
Затраты времени на производство единицы продукции
Номер изделия
Операционное время, мин
1-10 9
9 11 9
9 11 9
7 9
6 11-20 9
6 9
11 9
7 9
7 10 7
21-30 9
10 6
10 8
6 9
8 8
8 31-40 8
7 8
7 9
8 9
11 9
9 41-50 8
10 9
8 10 8
8 9
11 9
Основная гипотеза
0
H
: результаты наблюдений подчиняются нормальному закону распределения.
Определим числовые оценки параметров нормального распре- деления
x , S . Обобщим данные в виде вариационного ряда (табл.
2.4).
Размах
5 6
11
min max
x
x
R
(мин).
Число интервалов
6 50
lg
32
,
3 1
lg
32
,
3 1
n
m
Величина интервала
8
,
0 6
5
m
R
i
мин. Примем
1
i
мин.
Среднее значение определяем по формуле (2.17):
6
,
8
x
мин.
Оценку СКО вычисляем по формуле (2.18):
3
,
1
S
мин.
Таблица 2.4
Ряд эмпирического распределения
Интервал группировки
5,5 –
6,5 6,5 –
7,5 7,5 –
8,5 8,5 –
9,5 9,5 –
10,5 10,5 –
11,5
Середина интервала
j
x
6 7
8 9
10 11
Частота
*
j
f
4 6
11 19 5
5
Определяем теоретические частоты распределения (табл. 2.5) по формуле (2.22):
5
,
38 3
,
1 1
50
S
i
n
;
3
,
1 6
,
8
j
j
x
t
;
j
j
t
p
f
5
,
38
; величи- ну
j
t
p
определяем по прил. 1.
Так как для использования критерия Пирсона теоретическая частота должна быть больше 5, объединяем первый и второй, пятый и шестой интервалы (табл. 2.6).
Си бА
ДИ
31
Таблица 2.5
Вспомогательная таблица для расчета теоретических частот нормального
распределения
Интервал группировки
5,5 –
6,5 6,5 –
7,5 7,5 –
8,5 8,5 –
9,5 9,5 –
10,5 10,5 –
11,5
Середина интервала
j
x
6 7
8 9
10 11
Нормированное отклонение
j
t
-2,00
-1,23
-0,46 0,31 1,08 1,85
j
t
p
0,0540 0,1874 0,3588 0,3802 0,2227 0,0721
Частота теоре- тическая
j
f
2,08 7,21 13,81 14,64 8,57 2,78
Частота эмпи- рическая
*
j
f
4 6
11 19 5
5
Таблица 2.6
Вариационный ряд с учетом объединения интервалов
Интервал группировки
5,5 – 7,5 7,5 – 8,5 8,5 – 9,5 9,5 – 11,5
Частота теоретическая
j
f
9,29 13,81 14,64 11,35
Частота эмпирическая
*
j
f
10 11 19 10
Рассчитываем
2
-критерий (2.19):
08
,
2 2
Определяем число степеней свободы по формуле (2.23):
4
k
– число интервалов, оставшихся после объединения;
2
p
, т.к. среднее значение и СКО найдены по данным эмпирического ряда;
d.
f = 4–(1+2)=1
Табличное значение критерия для
1
.
f
d
и уровня значимости
05
,
0
;
841
,
3 2
Т
2 2
T
. Следовательно, гипотеза о нормальном законе распределения эмпирических данных принимается.
Вопросы и задания для самоподготовки
1.
Что называют функцией и плотностью распределения слу- чайной величины?
2.
Дайте определение математического ожидания и дисперсии случайной величины.
Си бА
ДИ
32 3.
Основные законы распределения случайной величины, при- меняемые при планировании эксперимента. Числовые характеристи- ки этих законов.
4.
Дайте определения генеральной совокупности, выборки.
5.
Характеристики точечной оценки и критерии ее качества.
6.
Интервальная оценка и доверительный интервал.
7.
Что называют статистической гипотезой? Параметрические и непараметрические гипотезы.
8.
Почему основную гипотезу называют нулевой?
9.
Что называют уровнем значимости и областью принятия ги- потезы?
10. Дайте определение статистического критерия. Что называют мощностью критерия?
11. Перечислите этапы проверки гипотезы.
12. Что относят к ошибкам первого и второго рода и какова ве- роятность их совершить?
13. Задача, решаемая при проверке гипотезы о законе распреде- ления.
14. Роль критерия Пирсона при проверке гипотезы о законе рас- пределения.
15. Какие статистические критерии применяются при проверке параметрических гипотез?
16.
Основные гипотезы о выборочных средних, порядок их про- верки.
17. Выявление грубых погрешностей с использованием парамет- рических гипотез.
Си бА
ДИ
33 3. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА3.1. Элементы дисперсионного анализа 3.1.1. Общие сведения Дисперсионный анализ является одним из методов изучения влияния одного или нескольких факторов на результат наблюдений
(отклик). Если результаты наблюдения зависят от некоторых незави- симых факторов, то возможно разделить вклады этих факторов, ана- лизируя соотношения между их дисперсиями.
Таким образом, общая дисперсия отклика раскладывается на независимые случайные сла- гаемые, обусловленные действием независимых факторов, и остаточ- ную дисперсию, связанную с ошибками эксперимента. Решение о су- щественности влияния некоторого фактора на исход эксперимента за- висит от того, насколько значимой является составляющая дисперсии, обусловленная этим фактором, по сравнению с дисперсией, обуслов- ленной ошибкой эксперимента. В зависимости от количества факто- ров выделяют однофакторныйи многофакторный дисперсионный анализ.
Наиболее простым является случай, когда проверяется действие только одного фактора. Для
подтверждения наличия связи между признаком, положенным в основу группировки, и результативным признаком необходимо проверить гипотезу о существенности расхо- ждения нескольких средних величин.
Пусть все
n наблюдений разбиты на
k групп. Вариацию, обу- словленную влиянием фактора, положенного в основу группировки, характеризует
межгрупповая дисперсия 2
. Она является мерой ва- риации частных средних по группам
jx вокруг общего среднего
0
xОценка межгрупповой дисперсии определяется по формуле
1 1
2 0
2
kfxxSkjjj,
(3.1) где
jf – число единиц в
j-й группе;
jx – частное среднее по
j-й груп- пе;
0
x – общее среднее по совокупности единиц.
Вариацию, обусловленную влиянием прочих факторов, характе- ризует в каждой группе
внутригрупповая дисперсия 2
j
, ее оценка
Си бА
ДИ
34
1 1
2 2
j
f
i
j
ij
j
f
x
x
S
j
(3.2)
Оценка средней из внутригрупповых дисперсий
2
– среднее
СКО.
k
n
x
x
S
k
j
f
i
j
ij
j
1 1 2
2
(3.3)
Между общей дисперсией
2 0
, средней из внутригрупповых дисперсий
2
и межгрупповой дисперсией
2
существует соотноше- ние
2 2
2 0
j
(3.4)
Если фактор, положенный в основу группировки, не оказывает влияния на вариацию изучаемого признака, то дисперсия групповых средних будет отражать влияние прочих факторов, которые опреде- ляют вариацию внутри групп, а поэтому отношение дисперсий будет близко к единице или отличаться от нее в силу присутствия случай- ных колебаний.
Дисперсионное отношение имеет вид
2 2
F
(3.5) или
2 2
S
S
F
(3.6)
Если верна нулевая гипотеза (равенство средних в двух выбор- ках), то можно ожидать сравнительно небольшое различие выбороч- ных средних из-за чисто случайной изменчивости. Поэтому при нуле- вой гипотезе внутригрупповая дисперсия будет практически совпа- дать с общей дисперсией, подсчитанной без учета групповой принад- лежности.
Для проверки значимости результата (т.е. случайности или не- случайности отклонения двух дисперсий) учитывается число степе- ней свободы. Для расчета межгрупповой дисперсии число степеней свободы равно
1 1
k
f
d
, а для расчета внутригрупповой дисперсии
k
n
f
d
2
. Предельный размер отклонений внутригрупповой дис- персии от общей устанавливают по таблицам F-распределения Фише-
Си бА
ДИ
35 ра (прил. 5). Числа в таблице Фишера больше 1, поэтому критическая область всегда правосторонняя, и при вычислении экспериментально- го значения
F большую дисперсию делят на меньшую, чтобы полу- чить значение больше 1.
Если
TFF
, то с
заданной вероятностью можно утверждать, что между факторным и результативным признаком существует взаимо- связь.
3.1.2. Пример применения однофакторного дисперсионного анализа Известны результаты выборочного обследования пробега авто- мобильных шин нового типа в различных условиях эксплуатации
(табл. 3.1). Установить, существует ли зависимость между условиями эксплуатации и величиной пробега шин, гарантируя результат с веро- ятностью 0,95.
Таблица 3.1
Пробег шин в различных условиях эксплуатации Условия эксплуатации
Пробег шин, тыс. км
jfГородские
70,5; 71,8; 69,8; 58,9; 68,7; 72,1; 70,3; 69,1; 72,0;
58,7; 66,2 11
Смешанные
58.9; 59,1; 60,1; 62,2; 60,5; 58,4; 59,0; 61,8 8
Загородные
54,2; 58,8; 56,6; 55,0; 56,4 5
Факторный признак – условия эксплуатации.
Результативный признак – величина пробега шин.
Для каждой группы определяем средний пробег шин: городские условия
0
,
68 11 11 1
1 1
iixx тыс. км; смешанные условия
0
,
60 8
8 1
2 2
iixx тыс. км; загородные условия
2
,
56 5
5 1
3 3
iixx тыс. км.
Общее среднее
9
,
62 24 24 1
0
iixx тыс. км.
Си бА
ДИ
36 Полученные средние величины пробега шин для разных усло- вий эксплуатации отличаются друг от друга. Для того чтобы устано- вить, является ли это различие существенным и вызвано различными условиями эксплуатации, определяется дисперсионное отношение
(3.6).
;
км тыс
92
,
288 1
3 5
9
,
62 2
,
56 8
9
,
62 0
,
60 11 9
,
62 0
,
68 2
2 2
2 2
S
5
,
12 3
24 5
1 2
3 3
8 1
2 2
2 11 1
2 1
1 2
iiiiiixxxxxxS тыс км
2
;
11 23 5
12 92 288
,,,F
При вероятности 0,95 и числе степеней свободы
2 1
fd;
21 2
fd по таблице
F-распределения (прил. 5)
467
,
3
TFTFF
, следовательно, условия эксплуатации оказывают существенное влия- ние на величину пробега шин.
3.2. Характеристика видов связей между рядами наблюдений Целью проведения эксперимента является установление вида функциональной связи
3 2
1
,
,
xxxfy
. Связи в общем случае явля- ются достаточно многообразными и сложными. Обычно выделяют следующие виды связей: функциональную и статистическую.
Если с изменением значения одной из переменных вторая изме- няется строго определенным образом, т.е. значению одной перемен- ной обязательно соответствует одно или несколько точно заданных значений другой переменной, связь между ними является
функцио-нальной.
Если с изменением значения одной из переменных вторая может в определенных пределах принимать любые значения с некоторыми вероятностями, но ее среднее значение или иные статистические ха- рактеристики изменяются по определенному закону, связь является