МЕТОДЫ ПЛАНИРОВАНИЯ. Металлургия Екатеринбург 2015
Скачать 7.01 Mb.
|
F.ОБР.ПХ(0,05;7;7) = 3,787051). Поскольку Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 3,96 > 3,79, то с вероятностью большей, чем 0,95 можно говорить, что 1 2 < 0 2 4. статистика в этом случае должна иметь вид (см. (3.51)) 00 , 3 8 0120 , 0 8 003029 , 0 10 , 2 23 , 2 t 5. Как обычно, выберем уровень значимости = 0,05. 6. Для построения критической области рассчитаем число степей свободы 20 , 0 8 0120 , 0 8 03029 , 0 8 03029 , 0 c ; 0,096883 1 8 20 , 0 1 1 8 20 , 0 1 2 2 m ; m = 10,3. Табличное значение t 2*0,05;10 = 1,81 (СТЬЮДЕНТ.ОБР.2Х(0,1;10) = 1,812462). 7. Поскольку рассчитанное ранее значение статистики попадает в критическую область 3,00 > 1,81, то нулевая гипотеза Н M 1 = должна быть отвергнута, те. новая технология по варианту 1 действительно позволяет повысить прочность окатышей. Вероятность ошибки подобного утверждения (ошибки первого рода, заключающейся в том, что отвергают нулевую гипотезу Н M 1 = M 0 , в то время как в действительности эта гипотеза верна, те. уровень значимости α при этом можно оценить как СТЬЮ- ДРАСП(3,00;10;1) = 0,006672. При расчете значения функции распределения Стьюдента в данном случае используется найденная в пункте 4 статистика t = 3,00; определенное в пункте 6 число степеней свободы m 10 и такой параметр, как число возвращаемых хвостов распределения. Хвосты = 1, и функция СТЬЮДРАСП возвращает одностороннее распределение, поскольку была принята односторонняя альтернативная гипотеза Н M 1 > Для определения найденного выше значения уровня значимости α = 0,0067 в электронных таблицах в Microsoft Excel может быть Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 104 использована такая статистическая функция, как СТЬЮ- ДЕНТ.ТЕСТ. Она используется для того, чтобы определить, насколько вероятно, что две выборки взяты из генеральных совокуп- ностей, которые имеют одно и тоже математическое ожидание СТЬЮДЕНТ.ТЕСТ({2,21;2,26;2,19;2,21;2,27;2,24;2,14;2,32};{2,11; 2,12;1,97;2,10;2,17;2,12;1,93;2,28};1;3)=0,006459. В качестве аргументов функции СТЬЮДЕНТ.ТЕСТ, кроме самих выборочных значений (которые стоят в фигурных скобках, используется еще такие два параметра, как Хвосты = 1 (для односторонней альтернативной гипотезы) и Тип — это вид исполняемого теста. В данном случае«Тип» = 3, поскольку необходимо провести двухвыборочный тест с неравными дисперсиями. Полученное в данном случае значение теста говорит о том, что вероятность равенства математического ожидания прочности окатышей по новой вариант) и старой технологии их обжига очень мала (составляет только 0,6%), следовательно, новая технология по варианту 1 действительно является более предпочтительной, чем старая. В продолжение примера 3.7 ответим на вопрос есть или нет ка- кое-либо значимое различие между двумя новыми технологиями обжига (по варианту 1 и 2) сточки зрения повышения механической прочности окатышей 1. В соответствии с общим алгоритмом проверки статистических гипотез сформулируем Н M 1 = M 2 . 2. Поскольку предполагается, что обе новые технологии равнозначны между собой, то альтернативная гипотеза выбирается в виде Н M 1 M 2 3. Для того чтобы определить тип t – теста, сравним между собой дисперсии Н 1 2 = 2 2 = 2 в предположении, что обе новые технологии дают одинаковый разброс в значениях прочности, альтернативная гипотеза выбирается в виде Н 1 2 2 Статистика критерия Фишера при этом равна F = = 0,0068/0,003029 = 2,25 (в числителе критерия Фишера всегда должна стоять большая дисперсия, а поскольку при α = 0,05 F (0,05/2);8-1;8-1 = 4,99 (см. табл. Пи, то действительно можно считать, что 1 2 = 2 2 = 2 S — обобщенное среднее квадратичное отклонение тогда будет равно (см) Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 07 , 0 2 8 8 0068 , 0 ) 1 8 ( 003029 , 0 ) 1 8 ( S 4. Поскольку дисперсии не имеют значимого отличия, статистика критерия принимает вид (см. (3.50)) 14 , 1 8 1 8 1 07 , 0 19 , 2 23 , 2 t 5. Выбираем уровень значимости = 0,05 и определяем число степеней свободы m = 8 + 8 – 2 = 14. 6. Для построения критической области находим табличное значение (СТЬЮДЕНТ.ОБР.2Х(0,05;14) = 2,144789). 7. Поскольку рассчитанное ранее значение статистики не попадает в критическую область 1,14 < 2,15, то нулевая гипотеза Н M 1 = принимается в качестве рабочей, те. новые технологии как по варианту 1, таки по варианту 2 равнозначны между собой сточки зрения повышения механической прочности окатышей. Вероятность ошибки (первого рода) при этом можно оценить величиной СТЬЮДРАСП(1,14;14;2) = 0,272934, те. если бы мы в подобных ситуациях отвергали нулевую гипотезу, то примерно в 27 случаях из 100 мы поступали неверно. В данном случае Хвосты = 2, и функция СТЬЮДРАСП возвращает двустороннее распределение, поскольку альтернативная гипотеза была принята в виде На не в виде Н M 1 > Для определения найденного нами значения уровня значимости α = 0,27 в электронных таблицах Microsoft Excel также могла быть использована функция СТЬЮДЕНТ.ТЕСТ ({2,21;2,26;2,19;2,21;2,27;2,24;2,14;2,32};{2,21; 2,22;2,08;2,19;2,24;2,21;2,06;2,31};2;2)= 0,272934. В данном случае Хвосты = 2 (для двусторонней альтернативной гипотезы) и Тип = 2, поскольку используется двухвыборочный тест с равными дисперсиями. И наконец, в задаче сравнения двух неизвестных математических ожиданий M 1 и M 2 рассмотрим ситуацию, когда исследуемые выборки зависимы между собой. Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 106 t-критерий для зависимых выборок очень полезен в тех довольно часто возникающих на практике ситуациях, когда важный источник внутригрупповой вариации (разброса или ошибки) может быть легко определен и исключен из анализа. Это относится к экспериментам, в которых две сравниваемые группы получены на одной и той же совокупности наблюдений (субъектов, которые тестировались дважды (например, дои после термообработки проката, дои после вакуумирования стали, измерения, производимые на одних и тех же партиях продукции различными методами или различными приборами и т.д.). В подобных экспериментах значительная часть внутригрупповой изменчивости (вариации) в обеих группах может быть объяснена индивидуальными различиями субъектов (различиями в свойствах отдельных прокатанных полос, каждой конкретной плавки или партии продукции. Если та же самая выборка тестируется дважды, то можно легко исключить эту часть вариации. Вместо исследования каждой группы отдельно можно рассматривать просто разности между двумя измерениями для каждого субъекта (например, анализировать одни и те же плавки до вакуумирования и после вакуумирования. Вычитая первые значения из вторых для каждого субъекта прокатанной полосы, плавки или партии продукции) и анализируя затем только эти чистые (парные) разности, появляется возможность исключить ту часть вариации, которая является результатом различия в исходных уровнях индивидуумов. Именно таки проводятся вычисления в критерии для зависимых выборок. В сравнении с критерием для независимых выборок такой подход дает всегда лучший результат (критерий становится более чувствительным. Реализация критерия для зависимых выборок начинается сто- го, что строится новая выборка из n = n 1 = n 2 элементов (парные наблюдения, определяемая как разность значений первой и второй выборок x Δi = x 1i – x 2i и по ней рассчитываются оценки математического ожидания x и среднеквадратичного отклонения S Δ : 1 1 S ; 1 1 2 1 n i i n i i x x n x n x Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 1. Выдвигается нулевая гипотеза о том, что математическое ожидание разности равно нулю Н M Δ = 0. 2. Как и для случая независимых выборок, можно сформулировать три альтернативных гипотезы Н M Δ > 0; Н M Δ < 0; Н M Δ 0; 3. Используется критерий для зависимых выборок (парный. 4. Статистика критерия Стьюдента, учитывая, что M Δ = 0, примет вид (см. (3.49)) 0 n S x n S x n S M x t (3.52) 5. В зависимости от условия решаемой задачи выбирается необходимый уровень значимости . Число степеней свободы для зависимых выборок равно m= n – 1. 6. Границы критической области устанавливаются в зависимости от вида альтернативной гипотезы по значениям квантилей распределения Стьюдента t α; m или t 2α; m 7. Нулевую гипотезу принимают, те. полагают, что M Δ = 0 при выполнении неравенств для альтернативных гипотез Н M Δ > 0; Н M Δ < 0 m t t , 2 ; для альтернативной гипотезы Н M Δ 0 Еще раз обратимся к числовому материалу примера 3.7 и переформулируем условия задачи таким образом, чтобы как по варианту 1, таки по варианту 2 были приведены данные для одной и той же новой технологии, полученные дважды на одних и тех же партиях окатышей, но измерения прочности выполнены по двум различным методикам. Можно ли сказать, что результаты измерения прочности, полученные для новой технологии по различным методикам на одних и тех же партиях окатышей, не имеют значимого различия Поскольку при таких условиях задачи выборки по варианту 1 и 2 становятся зависимыми друг от друга (значения прочности окатышей по каждой из восьми партий произведены дважды, но про разным Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 108 методикам), то для решения необходимо воспользоваться описанным выше парным критерием. Рассчитанные значения x Δi , x и S 2 Δ приведены в табл. 3.4 (см. последний столбец. 037 , 0 001371 , 0 S 1. Выдвигаем нулевую гипотезу Н M Δ = 0. 2. Поскольку между двумя методиками не предполагается никакого различия, то альтернативную гипотезу выбираем в виде Н M Δ 0 3. Используется критерий для зависимых выборок (парный. 4. Статистика критерия Стьюдента в этом случае представляет собой 055 , 3 8 037 , 0 04 , 0 n S x t 5. Выбираем уровень значимости = 0,05 и определяем число степеней свободы m = 8 – 1 = 7. 6. Для построения критической области находим табличное значение (СТЬЮДЕНТ.ОБР.2Х(0,05;7) = 2,364623). 7. Поскольку рассчитанное ранее значение статистики попадает в критическую область 3,06 > 2,37, то нулевая гипотеза Н M 1 = 0 отвергается, ив качестве рабочей необходимо принять альтернативную Н M Δ 0, те. методики определения прочности повари- анту 1 и по варианту 2 дают значимо различные результаты на одних и тех же партиях и для одной и той же новой технологии отжига окатышей. Вероятность ошибки первого рода при этом составляет Хвосты, поскольку Н M 1 0) СТЬЮДРАСП(3,055;7;2) = 0,018453, те, отвергая в аналогичных условиях нулевую гипотезу, мы примерно только водном или двух случаях из 100 будем допускать ошибку. Найденная оценка α = 0,018 в электронных таблицах Microsoft Excel может быть рассчитана с использованием функции СТЬЮДЕНТ.ТЕСТ. СТЬЮДЕНТ.ТЕСТ({2,21;2,26;2,19;2,21;2,27; 2,24;2,14;2,32};{2,21;2,22;2,08;2,19;2,24;2,21;2,06;2,31};2;1) = = 0,018452. Последний параметр в этой функции Тип = 1 (парный тест. Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 109 Если сравнить результаты, полученные в примере 3.7 по тесту на двух совершенно одинаковых выборках (вариант 1 и 2) при условии, что эти выборки независимы (двухвыборочный тест с равными дисперсиями) и зависимы (парный тест, то можно увидеть, что они дают совершенно противоположные результаты. Когда на выборки по варианту 1 и 2 мы смотрели как на независимые, мы не видели различия в их математических ожиданиях, но при условии зависимости в математических ожиданиях удалось установить значимые расхождения. Этот числовой материал подтверждает ранее уже высказанное положение о том, что критерий для зависимых выборок является более чувствительным. Поскольку методика парного теста полностью повторяет алгоритм сравнения неизвестного математического ожидания M 1 с конкретным числовым значением M, то статистическая функция СТЬ- ЮДЕНТ.ТЕСТ в электронных таблицах Microsoft Excel применима и для решения задач о соответствии полученного в эксперименте выборочного среднего 1 x известному математическому ожиданию. Так, для примера 3.6 (о наличии погрешности в показаниях Рh-метра) СТЬЮДЕНТ.ТЕСТ({8,7;9,2;9,1;9;9,4;9,6;9,7;8,9;8,8;8,7; 9,8;9,3;9,8;8,8};{9;9;9;9;9;9;9;9;9;9;9;9;9;9};2;1) = 0,088025, что при найденном в этом примере значении статистики t = 1,84, числе степеней свободы m = 14 – 1 = 13 и альтернативной гипотезе Н M 1 9 Хвосты = 2) соответствует СТЬЮДРАСП(1,84;13;2) = 0,088706. Полученное значение функции СТЬЮДЕНТ.ТЕСТ говорит о том, что вероятность наличия систематической погрешности у Рh-метра может быть оценена величиной 1 – 0,089 = 0,91 (меньшей, чем 0,95, значения которого мы закладывали, выбирая уровень значимости α = 0,05). В заключение этого раздела еще раз подчеркнем, что все перечисленные выше критерии могут быть использованы только для случайных величин, не противоречащих нормальному закону распределения (закону распределения Гаусса. Так, например, применительно к критерию для зависимых выборок это означает, что попарные разности должны быть нормально распределены. Если это предположение не выполняется (о том, как его можно проверить, смотри следующий раздел, то необходимо воспользоваться одним из альтернативных непараметрических критериев (см. например, [10]). Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ. Критерии согласия. Проверка гипотез о виде функции распределения Рассмотренные ранее методы оценивания параметров распределения случайной величины и критерии для проверки статистических гипотез предполагали, что известна функция распределения (нормальный закон — распределение Гаусса. Однако в большинстве случаев вид закона распределения является гипотетическими сам по себе требует статистического подтверждения. Наиболее простым, но весьма приближенным методом проверки согласия результатов эксперимента стем или иным законом распределения является графический метод. Он заключается в оценке эмпирической функции распределения и сопоставлении ее с функцией предполагаемого теоретического закона. Если построенные экспериментальные точки лежат вблизи теоретического графика, то можно считать, что полученные в опытах данные не противоречат выбранному теоретическому закону распределения. Графический метод является в значительной мере субъективными используется на практике в качестве первого приближения при решении подобных задач. Более объективные методы установления вида распределения случайной величины строятся на аппарате проверки статистических гипотез — критериях согласия. Нулевая гипотеза в данном случае заключается в том, что Н исследуемая генеральная совокупность не противоречит предполагаемому теоретическому закону распределения. При этом альтернативная гипотеза обычно формулируется как Н случайная величина имеет любое другое распределение, отличное от предполагаемого. Разработано достаточно много критериев согласия, отличающихся как своей мощностью, таки объемом опытных данных, необходимых для их использования. Рассмотрим некоторые из них, ив первую очередь остановимся на критериях согласия, которые могут быть использованы при относительно больших объемах выборки. Когда экспериментатор располагает достаточно представительным количеством экспериментальных данных (n > 100), то их предварительная обработка начинается с группировки, которая проводится в следующей последовательности 1. Находят наибольшее (x max ) и наименьшее (x min ) выборочные зна- Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 111 чения случайной величины и вычисляют ее размах R= x max –x min 2. Размах случайной величины разбивают на k равных интервалов. Количество интервалов k выбирают в зависимости от объема выборки. Например, при n 100 его значение рекомендуется принимать равным k = при n 100 k = 7). Число интервалов k можно определить и по формуле Штюргеса k = 1 + 3,32lg(n) с округлением полученного значения до ближайшей целой величины. 3. Определяют ширину интервала h = R/k, для упрощения расчетов полученные значения округляют в любую сторону, несколько увеличивая или уменьшая при этом размах варьирования R. 4. Устанавливают границы интервалов и подсчитывают число попаданий случайной величины в каждый из выбранных интервалов. Определяют частоту попаданий для каждого интервала как P i = i m /n. Результаты подобных вычислений могут быть сведены в таблицу (подобную, например, табл. 3.5). Таблица Построение распределения экспериментальных данных Интервал Число замеров в каждом интервале Частота попадания в интервал P i = m i /n x 1 x 2 m 1 m 1 /n x 2 x 3 m 2 m 2 /n x i x i+1 m i m i /n x k x k+1 m k m k /n Проверка n m k i i 1 Графической формой представления непрерывной случайной величины является гистограмма (рис. 3.13). Последовательность построения гистограмм следующая 1. Определяется величина ординаты h i P i f , где P i — вероятность появления случайной величины в м интервале. 2. В системе координат f i = f(x) на ширине интервала h откладывают величины f i как высоты и строятся прямоугольники. Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 112 Очевидно, что площадь элементарного прямоугольника n m P h P h f h S i i i i i (3.53) равна отношению числа опытов m i , при которых случайная величина оказалась внутри этого интервала, к общему числу опытов n. Площадь всей гистограммы 1 k 1 i i P k 1 i i S S . Следовательно, площадь, ограниченная гистограммой, равна единице. 3. Построение гистограммы интегральной функции распределения осуществляется суммированием вероятностей k 1 i В дальнейшем осуществляется сравнение экспериментально полученного распределения случайной величины с некоторым видом теоретического распределения. Для этой цели используются различные критерии согласия 2 (хи-квадрат) Пирсона, Колмогорова- Смирнова и др. f(x) h x F(x) x 1,0 Рис. 3.13. К построению гистограммы случайной величины Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 113 Критерий Пирсона Рассмотрим методику проверки гипотезы нормального распределения по критерию 2 Пирсона. Этот критерий кроме определения доверительного интервала для дисперсии нередко используется для проверки согласованности распределений, полученных поданным выборки с некоторой теоретической плотностью распределения. В данном случае применение критерия 2 предполагает использование свойств нормированного (стандартного) нормального распределения. Напомним, что уравнение кривой плотности стандартного нормального распределения имеет вид M - x = z ; 4 , 0 2 1 ) ( x x 2 / 2 / 2 Тогда теоретическая вероятность попадания случайной величины в интервал z = z i+1 – z i в случае нормального распределения можно определить по формуле 2 1 ) ( ) ( * 1 2 2 / 1 du e z F z F P i i z z u i i i (3.54) Отличие оценки закона распределения P от теоретического закона распределения P* можно охарактеризовать величиной , * P P C i i k i i 2 1 2 (3.55) где P i и P i * — оценка и теоретическая вероятность случайной величины для го интервала C i — весовые коэффициенты, которые с большим весом учитывают отклонения для меньших P i Пирсон выбрал весовые коэффициенты следующим образом * P n C i i (3.56) Пирсон показал, что при таком выборе C i закон распределения Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ слабо зависит от n и P(x), а определяется в основном числом разрядов. Следовательно, * * * * * * 1 2 1 2 1 2 2 k i i i i k i i i i k i i i i P n P n m P P n m n P P P n (3.57) Очевидно, что при идеальном соответствии экспериментальных данных нормальному закону распределения экспериментальное значение критерия Пирсона будет равно нулю, т.к. P i = P i *. В выражении (3.55) стоит сумма квадратов k случайных величин, однако они не являются независимыми, так как на них накладывается некоторое число связей. Одной из таких связей является требование, чтобы площадь под кривой оценки закона распределения равнялась единице 1 k 1 i i P Иногда требуют, чтобы среднее значение совпадало с математическим ожиданием M x , а выборочная дисперсия с дисперсией x 2 . Поэтому число степеней свободы чаще всего определяется как m = k – 2. (3.58) Теоретическое значение критерия Пирсона 2 ;m определяется по справочным данным (см. табл.П.3) или с использованием пакетов прикладных программ при заданном уровне значимости и числе степеней свободы m (см. функцию ХИ2.ОБР.ПХ( ;m) из электронных таблиц Microsoft Excel). Алгоритм использования критерия Пирсона заключается в следующем. Выдвигаются нуль-гипотеза Н Отличие экспериментальных данных от нормального закона распределения несущественно и альтернативная ей гипотеза Н Отличие экспериментальных данных от нормального закона распределения существенно, те. экспериментальные данные не подчиняются закону нормального распределения. Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 2. По результатам экспериментальных измерений и предположению нормального закона их распределения определяется расчетное значение критерия Пирсона 2 3. Определяют число степеней свободы m, задаются уровнем значимости и определяют теоретическое значение критерия Пир- сона 2 m 4. Если 2 < 2 m, то нуль-гипотеза Но нормальном законе распределения экспериментальных данных принимается с доверительной вероятностью P = 1 – . В противном случае нуль-гипотеза отвергается и принимается альтернативная гипотеза Н 1 Отметим важные рекомендации по использованию критерия Если при некотором числе измерений критерий 2 2 ;m , но сомнения в нормальности распределения отсутствуют, то следует, если имеется возможность, увеличить число измерений в несколько рази повторить анализ поэтому же критерию. Число степеней свободы m = k – 2 относится к такому случаю, когда оба параметра нормального закона распределения определяются по результатам измерений, те. когда вместо точных измерений значений M x и x применяют их эмпирические значения (оценки) x и S x . Если же значение M x точно известно (например, при измерении эталона, то число степеней свободы равно k = n – 1; если известны оба параметра M x и x , то число степеней свободы равно k = n. На практике такая ситуация встречается относительно редко, и поэтому для получения числа степеней свободы не менее пяти желательно брать число интервалов не менее семи (иногда девяти. Критерий Колмогорова-Смирнова Рассмотрим использование критерия Колмогорова-Смирнова для проверки гипотезы нормальности распределения случайных величин. Данная процедура также предполагает построение таблицы распределения экспериментально полученных значений с группировкой данных в определенное число разрядов k. Дополнительно в таблицу необходимо включить следующие колонки колонку с накопительной суммой i 1 p p m для каждого го интервала сгруппированных данных, как показано в табл. 3.6. Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 116 Т а блица Процедура вычисления критерия Колмогорова-Смирнова Интервал Число замеров в каждом интервале m i i 1 p Теоретическая вероятность i+1 m i i 1 p p m P i * , i 1 p * p P n i 1 p * p P n i 1 p p m … … … … x k x k+1 m k k 1 p p m P k * , k 1 p * p P n k 1 p * p P n k 1 p колонку с накопительной суммой , i 1 p * p P n где Р — теоретическая вероятность попадания случайной величины в й интервал, значения которой, как уже отмечалось ранее, табулированы и приводятся в статистических справочниках. На основании данных табл. 3.6 вычисляют экспериментальное значение критерия согласия Колмогорова-Смирнова: а) Далее экспериментальное значение критерия Колмогорова- Смирнова сравнивают с теоретическим D n; , которое определяют из статистических таблиц в соответствии с объемом выборки n и требуемым уровнем значимости (см. табл. П. Если D < D n; , то гипотеза о нормальном распределении результатов замеров принимается с вероятностью P = 1 – Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 117 Критерий согласия Колмогорова-Смирнова для проверки нормальности распределения результатов наблюдений входит в пакет статистической обработки данных STATISTICA, с которым мы познакомимся в главе 7. Рассмотрим использование рассмотренных критериев 2 Пирсона и Колмогорова-Смирнова для оценки нормальности распределения данных наследующем примере. Пример. В табл. 3.7 приведено содержание кремния в чугуне при выплавке передельного чугуна в доменной печи, которое изменяется в пределах от 0,32 до 0,95%. Всего было отобрано 50 проб чугуна. Таблица Содержание кремния в чугуне по результатам отбора 50 проб Номер пробы 1 2 3 4 5 6 7 8 9 10 [Si],% 0,32 0,35 0,45 0,43 0,41 0,51 0,52 0,53 0,57 0,58 Номер пробы 11 12 13 14 15 16 17 18 19 20 [Si],% 0,59 0,56 0,56 0,58 0,54 0,57 0,61 0,62 0,63 0,64 Номер пробы 21 22 23 24 25 26 27 28 29 30 [Si],% 0,65 0,66 0,67 0,68 0,69 0,61 0,65 0,62 0,63 0,67 Номер пробы 31 32 33 34 35 36 37 38 39 40 [Si],% 0,65 0,62 0,68 0,71 0,72 0,78 0,75 0,72 0,79 0,72 Номер пробы 41 42 43 44 45 46 47 48 49 50 [Si],% 0,73 0,72 0,79 0,73 0,84 0,82 0,87 0,90 0,95 0,93 Требуется оценить, подчиняется ли содержание кремния в пробах нормальному закону распределения Если да, определить медиану, моду, среднее, выборочную дисперсию, доверительный интервал для математического ожидания, среднеквадратичное отклонение. Для вычислений воспользуемся статистическими функциями из электронной таблицы Microsoft Excel. Предварительно вычислим с использованием статистических функций СРЗНАЧ, ДИСП и СТАНДОТКЛОН.В среднее значение Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ, выборочную дисперсию S x 2 и стандартное отклонение S x , которые оказались равны соответственно x =0,65, S x 2 =0,01853 и S x =0,1361. Примем число интервалов равным 7. Тогда величина интервала составит h=(0,95-0,32)/7=0,09=0,1. Результаты группировки исходных данных и вычислений приведены в табл. 3.8. Таблица Процедура вычисления критерия 2 Пирсона поданным примера 3.8 Интервал x i-1 x i i m F( i x ) P i * =F(x i )-F(x i-1 ) n P i * i m - nP i * i nP 2 * i nP i m 2 i 0,3 0,4 2 0,033 0,033 1,7 0,3 0,07 0,4 0,5 3 0,135 0,102 5,1 -2,1 0,86 0,5 0,6 11 0,356 0,221 11,1 -0,1 0,00 0,6 0,7 17 0,642 0,286 14,3 2,7 0,51 0,7 0,8 11 0,864 0,222 11,1 -0,1 0,00 0,8 0,9 4 0,967 0,103 5,2 -1,2 0,26 0,9 1,0 2 0,995 0,028 1,4 0,6 0,26 Вычисление F(x i ) проводили с использованием статистической функции НОРМ.РАСП. В частности, для интервала 0,3 0,4 находим НОРМ.РАСП(0,4; СРЗНАЧ(B4:B53); СТАНДОТКЛОН.В(B4:B53); ИСТИНА. Отметим, что поскольку среди аргументов функции НОРМ.РАСП есть среднее арифметическое и стандартное отклонение, то для определения соответствующих параметров также воспользуемся встроенными функциями электронных таблиц Microsoft Excel СРЗНАЧ и СТАНДОТКЛОН.В. В показанном примере полагаем, что данные 50 опытов по содержанию кремния в чугуне расположены на листе электронной таблицы в ячейках от B4 до B53. Аналогично определяли функции распределения для каждого интервала, результаты отражены в табл. 3.8. Таким образом, экспериментальное значение критерия Пирсона 96 , 1 1 2 2 k i i , а теоретическое при уровне значимости = 0,05 и числе степеней свободы m 1 = 7 – 2 = 5 составляет Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 0,05;5 = 11,07 (ХИ2.ОБР.ПХ(0,05;5) = 11,07048), что значительно больше экспериментального значения. Следовательно, весьма уверенно можно утверждать, что содержание кремния в пробах чугуна подчиняется нормальному закону распределения. Предлагаем читателям самостоятельно оценить доверительный интервал математического ожидания. Здесь можно отметить, что, как показывают расчеты, доверительный интервал с вероятностью 95% равен 0,030. Учитывая близость распределения к нормальному и достаточно большое число экспериментальных точек, можно воспользоваться электронными таблицами Microsoft Excel (функция ДОВЕРИТ, те. действительное среднее содержание кремния в чугуне (математическое ожидание) лежит в интервале от 0,62% до 0,68%. Процедура проверки гипотезы нормального распределения данных из примера с использованием критерия Колмогорова-Смирнова (D) представлена в табл. 3.9. Таблица Процедура вычисления критерия Колмогорова-Смирнова поданным примера 3.8 Интервал x i-1 x i i m i 1 p p m F(x i ) P i * =F(x i ) - -F(x i-1 ) n P i * i 1 p * p P n i 1 p * p P n i 1 p p m 0,3 0,4 2 2 0,033 0,033 1,7 1,7 0,4 0,4 0,5 3 5 0,135 0,102 5,1 6,8 1,8 0,5 0,6 11 16 0,356 0,221 11,1 17,8 1,8 0,6 0,7 17 33 0,642 0,286 14,3 32,1 0,9 0,7 0,8 11 44 0,864 0,222 11,1 43,2 0,8 0,8 0,9 4 48 0,967 0,103 5,2 48,4 0,3 0,9 1,0 2 50 0,995 0,028 1,4 49,8 0,3 На основании результатов этой таблицы определяем максимальное значение из последней колонки и по нему рассчитываем экспериментальное значение критерия D: 036 , 0 50 8 , 1 max 1 * 1 n P n m D i p p i p p Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 120 Экспериментальное значение критерия сравниваем с теоретическим, взятым из табл. Пс учетом объема выборки n = 50 и уровнем значимости =0,05. Величина D 50;0,05 >D, поэтому можно сделать тот же вывод, что и ранее гипотеза нормального распределения результатов измерения содержания кремния в чугуне принимается с вероятностью 95%. Расчет экспериментального значения критерия Пирсона и Кол- могорова-Смирнова в пакете Statistica представлен на рис. 3.14 В результате расчетов поданным примера 3.14, проведенных в пакете Statistica получены следующие значения D = 0,03559; 2 = 1,74212 Рис. 3.14. Результат расчета критериев Пирсона и Колмогорова-Смирнова в пакете Statistica Небольшое отличие в расчетах критерия Пирсона (1,96 и 1,74) можно связать с повышенной точностью расчетов в пакете Statistica — расчеты выполняются до пятого знака. Пример. В табл. 3.10 приведено содержание оксида железа в шлаке перед раскислением металла при выплавке стали марки 0,8 КП в тонной мартеновской печи, работающей с применением кислорода для интенсификации горения топлива и прямого окисления примесей ванны. Всего отобрано 56 проб шлака. Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 1 17 1 i m 17 1 2 x i x i m 2 x S ; 375 , 17 17 1 i m 17 1 * i m i Таблица Исходные данные к примеру 3.9 х i , %: i m l 1 i i m 10 1 1 12 5 6 13 3 9 14 6 15 15 6 21 16 2 23 17 8 31 18 6 37 19 6 43 20 4 47 22 1 48 23 4 52 24 1 53 25 1 54 26 1 55 30 1 56 31 0 56 Из табл. 3.10 видно, что содержание оксида железа в шлаке колеблется от 10 до 31%. Примем число интервалов равным k = 7. Тогда величина интервала составит h = (31–10)/7 = 3. Результаты группировки исходных данных и вычислений приведены в табл. 3.11. Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 122 Т а блица Процедура вычисления критерия 2 поданным примера 3.9 Интервал x i-1 x i i m F(x i ) P i =F(x i ) - F(x i-1 ) nP i m i -nP i m nP i i 2 i i i i m nP nP 2 2 10 13 6 0,0326 0,137 0,104 5,824 0,176 0,031 0,005 13 16 15 0,366 0,229 12,824 2,176 4,735 0,369 16 19 16 0,658 0,292 16,352 0,352 0,124 0,008 19 22 10 0,876 0,218 12,208 2,208 4,875 0,399 22 25 6 0,972 0,096 5,376 0,624 0,389 0,072 25 28 2 0,996 0,024 1,344 0,656 0,430 0,320 28 31 1 1,000 0,004 0,224 0,776 0,602 2,688 Сумма 56 - - - - - =3,861 Расчетное значение критерия Пирсона составило 2 = 3,861. Его следует сравнить с табличным значением 2 ;m для 5%-ного уровня значимости, которое при числе степеней свободы, равном m = 5, составляет 2 0,05;5 = 11,07. Таким образом, опытные данные не противоречат гипотезе о том, что содержание FeO в конечном шлаке подчиняется закону нормального распределения. Оцените самостоятельно моду, медиану, доверительный интервал для математического ожидания при вероятностях и 99,7%. 3.7. Преобразование распределений к нормальному Если исследователь, использовав методы, изложенные в предыдущем параграфе, убедился, что гипотеза нормальности распределения не может быть принята, то вполне может быть, что с помощью существующих методов удастся так преобразовать исходные данные, что их распределение будет подчиняться нормальному закону распределения. Для пояснения идеи преобразований рассмотрим качественный пример. Пусть кривая распределения f(x) имеет вид, представленный на риса, те. имеются очень крутая левая ветвь и пологая правая. Такое распределение отличается от нормального. Для выполнения операций преобразования каждое наблюдение Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 123 трансформируется с помощью логарифмического преобразования ). x lg( x При этом левая ветвь кривой распределения сильно растягивается, и распределение принимает приближенно нормальный вид рис. 3.15 б. Рис. 3.15. Преобразование функции f(x) к нормальному распределению Если при преобразовании получаются значения, расположенные между 0 и 1, то все наблюдаемые значения для удобства расчетов и во избежание получения отрицательных параметров необходимо умножить на 10 в соответствующей степени, чтобы все вновь полученные, преобразованные значения были больше единицы, те. необходимо выполнить преобразования ). a 10 x Асимметричное распределение с одной вершиной приводится к нормальному преобразованием ). a x lg( x В отдельных случаях можно применять и другие преобразования а) обратная величина б) обратное значение квадратных корней Преобразование обратная величина является наиболее сильным. Среднее положение между логарифмическим преобразованием и обратной величиной занимает преобразование обратное значение квадратных корней. Для нормализации смещенного вправо распределения служат, например, степенные преобразования a x x При этом для a прини- Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 124 мают значения а = 1,5 при умеренном и а = 2 при сильно выраженном правом смещении. Рекомендуем читателю придумать такие преобразования, которые удовлетворяли бы исследователя в томили ином случае. 3.8. Контрольные вопросы 1. Какие задачи решают входе предварительной статистической обработки экспериментальных данных 2. Что такое генеральная совокупность и выборка 3. Что такое точечное оценивание? Перечислите точечные оценки основных параметров нормального распределения для непрерывной случайной величины. 4. В чем заключается основная идея оценивания с помощью доверительного интервала С помощью каких распределений происходит построение доверительных интервалов для математического ожидания и дисперсии 5. В чем заключается сущность статистических гипотез Что такое нулевая и альтернативная статистические гипотезы 6. С помощью каких критериев производится отсев грубых погрешностей. Какие задачи возникают при сравнении двух рядов наблюдений экспериментальных данных С помощью каких критериев они решаются 8. Что такое критерий согласия Какова основная идея его использования при проверке гипотез о виде функции распределения 9. В чем заключается алгоритм использования критерия Пирсона для проверки гипотезы нормального распределения экспериментальных данных 10. Какова процедура использования критерия Колмогорова- Смирнова для проверки гипотезы нормального распределения |