МЕТОДЫ ПЛАНИРОВАНИЯ. Металлургия Екатеринбург 2015
Скачать 7.01 Mb.
|
НОРМ.СТ.РАСП: 07 , 0 341 341 HB P F Другими словами, точечная оценка вероятности того, что при испытании твердости в средней части рельса ее значение окажется меньше 341, равна 0,07. Или, если проведено два испытания на обоих концах рельса и получены значения 351 и 370, то после определения твердости в средней части, возможно, только семь рельсов из ста придется перевести во второй класс или подвергнуть повторной однократной термической обработке. Для оценки вероятности того, что после определения твердости в средней части рельс по-прежнему будет удовлетворять требованиям первого класса, воспользуемся соотношением (3.15) и получим 45 , 1 05 , 2 ) 435 , 13 5 , 360 341 ( ) 435 , 13 5 , 360 388 ( 388 Значение Ф) ≈ 0,07 нами было уже найдено, а Ф) ≈ ≈ 0,98 (по таблицам [11], в табл. Пили в Microsoft Excel НОРМ.СТ.РАСП(2,05;ИСТИНА) =0,979818). Следовательно, , 91 , 0 07 , 0 98 , 0 388 341 HB P те. 91% всех рельсов, после измерения твердости в средней части, будут по- прежнему отвечать требованиям пункта 1.4 ГОСТ 18267-82 (НВ = 341…388), если на их концах уже были получены значения 351 и 370. Добавим, что значения 341 и 388 являются оценками квантилей порядка соответственно 0,07 и 0,98, те. , 341 аи если, допустим, необходимо оценить квантиль порядка 0,99, то по формуле (3.16) можно получить следующее значение , 80 , 391 435 , 13 326 , 2 5 , 360 453 , 13 5 , 360 99 0 99 где z 0,99 — квантиль нормированного нормального распределения порядка 0,99 — можно найти по таблицам [11], в табл. Пили в Microsoft Excel с использованием функции НОРМ.СТ.ОБР(0,99) = 2,326342, а также НОРМ.ОБР(0,99;0;1) = = 2,326342. Следовательно, если на обоих концах рельса получены значения 351 и 370, то скорее всего только водном случае из ста твердость 53 на поверхности катания головки в средней части может оказаться больше 391,8. Однако все последние приведенные в примере 3.1 выводы и заключения относительно оценок различных вероятностей не следует понимать в буквальном смысле слова. Так, если бы удалось собрать данные по твердости в средней части наста рельсах, у которых значения этого показателя качества по концам составляли бы ровно 351 и 370, то, конечно же, совершенно необязательно, что именно только на одном рельсе из ста твердость оказалась бы больше, чем 391,8. Такое событие вполне могло бы быть отмечено и на двух, и на трех и т.д. рельсах либо вообще ни разу не встретиться. Дело здесь заключается в том, что, во-первых, даже если бы нам удалось найти саму теоретическую вероятность какого-либо события изучить всю генеральную совокупность, а не ее оценку (полученную по выборке ограниченного объема, то ив этом случае фактическая частота реализации этого события вполне могла бы отличаться (хотя и не очень сильно) от соответствующей ей теоретической вероятности. Так, например, если сто раз подбросить идеальную монету, то совершенно необязательно, что ровно в 50 случаях выпадет орел, а в остальных 50 — решка. Хотя то, что во всех 100 случаях выпадет орел и ни разу — решка, мы вряд ли увидим (если тот, кто подбрасывает монету, не факир или фокусник, то вероятность подобного события равна (0,5) 100 = 8 10 -31 ). И, во-вторых, если в нашем распоряжении имеются только лишь какая-либо точечная оценка, то вообще совершенно невозможно сказать, насколько близко она располагается относительно оцениваемого ею параметра. Так, например, если вероятность того, что при получении твердости на концах рельса 351 ион и после измерения этой величины в средней части будет отвечать пункту 1.4 ГОСТ 18267-82 оценивается значением 0,91, тона самом деле (для всей генеральной совокупности, те. для всех рельсов Р, выпускаемых по ГОСТ 18267-82) эта вероятность может быть равна и 0,85, и 0,95 и т.д. По значению точечной оценки не представляется возможным определить хотя бы, в каком диапазоне находится оцениваемый ею параметр. Этот существенный недостаток точечного оценивания 54 может быть компенсирован оцениванием с помощью так называемого доверительного интервала. 3.2. Оценивание с помощью доверительного интервала В отличие от точечной оценки, интервальная оценка позволяет получить вероятностную характеристику точности оценивания неизвестного параметра. Идея оценивания с помощью доверительного интервала заключается в том, чтобы в окрестности точечной оценки попытаться построить такой интервал (доверительный интервал, который с некоторой, отличной от нуля, вероятностью (доверительной вероятностью) накрыл бы оцениваемый параметр распределения. Доверительный интервал — интервал, который с заданной вероятностью накроет неизвестное значение оцениваемого параметра распределения. Доверительная вероятность — вероятность того, что доверительный интервал накроет действительное значение параметра, оцениваемого по выборочным данным. Оценивание с помощью доверительного интервала — способ оценки, при котором с заданной доверительной вероятностью устанавливают границы доверительного интервала. Предположим, что для оценки параметра удалось найти две функции 1 *(x 1 , x 2 , ..., x n ) и 2 *(x 1 , x 2 , ..., x n ), такие, что при всех (x 1 , x 2 , ..., x n ) и при любых значениях выполняется условие 1 n x ,..., 2 x , 1 x * 2 n x ,..., 2 x , 1 x * 1 P ; * 2 * 1 (3.17) Это означает, что действительное значение параметра находится в интервале значений ( 1 *; 2 *) с вероятностью P. Интервал ( 1 *; 2 *) как рази называют доверительным интервалом для неизвестного параметра , а соответствующую ему вероятность доверительной вероятностью (или надеж- 55 ностью) P = 1- , где — уровень значимости. Если, к примеру, = 0,05, то строится доверительный интервал с доверительной вероятностью (или процентный доверительный интервал. Часто доверительный интервал находится как интервал, симметричный относительно точечной оценки параметра. Для симметричного доверительного интервала его ширина 2 определяется условием , * P 1 (3.18) где * — точечная оценка параметра При фиксированном значении (вероятности того, что доверительный интервал не накроет действительного значения параметра) чем меньше , тем точнее оценивается Вероятностное утверждение P{ 1 * 2 *} не следует понимать таким образом, что параметр есть случайная величина, которая с вероятностью P попадет в интервал между 1 * и 2 *. Любой параметр распределения (в отличие от его оценок) — это детерминированная величина, неизвестная нам, но имеющая строго определенное, фиксированное значение (которое, по крайней мере, теоретически, может быть найдено при исследовании всей генеральной совокупности. Границы 1 * и 2 * (как некоторые функции от результатов наблюдений) есть случайные величины. Поэтому утверждение означает, что для данного доверительного интервала ( 1 *; 2 *) вероятность содержать значение равна P. Рассмотрение способов получения интервальных оценок для основных параметров распределения начнем с построения доверительного интервала для математического ожидания, так как именно такие задачи наиболее часто встречаются в инженерной практике. 3.2.1. Построение доверительного интервала для математического ожидания Как уже было отмечено, наилучшей (состоятельной, несмещенной и эффективной) точечной оценкой математического ожидания случайной величины Х с нормальным законом распределения 56 является ее выборочное среднее арифметическое x . Поэтому за основу построения доверительного интервала для математического ожидания обычно выбирается именно эта точечная оценка данного параметра. Задача получения интервальной оценки в этом случае заключается в поиске границ ) ; ( x x такого интервала, который с заданной доверительной вероятностью P Mx накроет действительное значение математического ожидания M x (рис. 3.1). При построении любой интервальной оценки, в том числе и для математического ожидания, необходимо знать распределение той точечной оценки (случайной величины, которая берется за основу для построения доверительного интервала. В математической статистике доказано, что выборочное среднее арифметическое x из n независимых результатов наблюдений случайной величины, распределенной нормально с параметрами M x и σ x 2 , также подчиняется нормальному закону распределения с параметрами) Подтвердить справедливость равенства (3.19) можно хотя бы тем, что выборочное среднее арифметическое — это несмещенная оценка математического ожидания, следовательно, по определению см. (3.2)), математическое ожидание этой оценки (выборочного M x x x Рис. 3.1. Построение доверительного интервала для математического ожидания 57 среднего арифметического) равно значению оцениваемого параметра математическому ожиданию. Соотношение (3.20) не должно, интуитивно, вызывать никаких серьезных возражений ведь если подсчитать выборочное среднее арифметическое по нескольким выборкам одного итого же объема, а затем найти дисперсию полученных значений, то вероятнее всего предположить, что разброс (дисперсия) выборочных средних арифметических будет меньше, чем разброс (дисперсия) самих опытных данных. Прокомментируем это положение следующим иллюстративным числовым материалом (в продолжение примера 3.1). На каждом двадцатом походу технологического процесса рельсе Р (по ГОСТ 18267-82) получены следующие значения твердости на поверхности катания головки первый рельс — 351, 370, 365 ( 362 HB x , 97 2 HB S ); двадцать первый рельс — 375, 369, 345 ( 363 HB x , 252 2 HB S ); сорок первый рельс — 348, 363, 369 ( 360 HB x , 117 2 HB S ). Если теперь по (3.8) оценить дисперсию такой случайной величины, как HB , то получим 33 , 2 360 363 362 3 1 360 363 362 1 3 1 2 2 2 Как видно из этого числового примера, выборочная дисперсия средних арифметических — 2,33 потрем выборкам (объемом 3) почти на порядок меньше тех выборочных дисперсий (97, 252 и 117), которые имеют сами опытные данные. Для более строгого обоснования соотношения (3.20) напомним, что если случайная величина Y = X 1 X 2 — является суммой или разностью двух независимых случайных величин X 1 и X 2 , то справедливо равенство 2 2 2 2 1 x x y (3.21) Кроме того, дисперсия произведения случайной переменной X 58 и постоянной величины (константы) C равна 2 2 2 x C x C (3.22) Закон сложения дисперсий справедлив при любом числе слагаемых. Учитывая, что n i i x n x 1 и 2 x — дисперсия случайной величины, а также соотношения (3.21) и (3.22), получаем , ) ( 1 ) 1 ( ) ( 2 2 2 1 2 2 1 что и требовалось доказать, причем Если заранее известна дисперсия x 2 , то доверительный интервал для математического ожидания M x рассчитывается достаточно просто. Его границы можно найти, например, следующим образом. Поскольку случайная величина X подчиняется нормальному закону распределения с параметрами M( x ) = M x и σ 2 ( x ) = σ x 2 /n , то соответствующая ей приведенная случайная величина n M X x x M X Z x x / ) ( ) ( _ _ _ , (3.23) имеет нормированный стандартный нормальный закон распределения см. Квантиль p x порядка P такой случайной величины, как X , определяется аналогично (аи с учетом соотношений (3.19) и (3.20) равна Далее, в соответствии с (2.20) 2 _ 1 Если в последнем соотношении неравенство, стоящее под знаком вероятности, разрешить относительно M x , то получим 1 2 1 _ 2 _ P P n z x M n z x P x P x x P (3.24) Если то и, следовательно, n z x M x P x 2 _ , и, аналогично, если то и, следовательно, Таким образом, вероятность того, что выполняется неравенство n z x M n z x x P x x P 1 _ 2 _ , (3.25) будет P = P 2 – P 1 = 1- α. 60 Если для примера принять P 1 = 0,025 и P 2 = 0,975 (P = 0,975 – – 0,025 = 0,95; α = 0,05), то, поскольку (см. (2.32)) z 0,025 = z 1-0,975 = = - z 0,975 , а z 0,975 = 1,96 (по таблицам [11], табл. Пили используя НОРМ.СТ.ОБР(0,975) = 1,959961), получим , 95 , 0 ) 96 , 1 96 , 1 ( _ _ n x M n x P x x x (3.26) те. при многократном извлечении выборок (объемом n каждая) из нормально распределенной генеральной совокупности с параметрами M x и x 2 ) можно построить последовательность соответствующих данным выборкам интервалов (3.26), причем примерно 95% этих интервалов будут включать в себя (накрывать) истинное значение математического ожидания Расчет теоретического значения стандартного нормального распределения в вероятностном калькуляторе пакета Statistica дает аналогичный результат (см. рис. 3.2). Рис. 3.2. Калькулятор вероятностных распределений, расчет квантиля нормального распределения 61 На рис. 3.2 показан инструмент пакета Statistica — калькулятор вероятностых распределений. В данном примере выполнен расчет квантиля порядка 0,975 для стандартного нормального распределения («z (Normal)», M x = 0 и σ 2 (x) = 1): z 0,975 = 1,96. Флаг «Two-tailed» отвечает за число хвостов распределния». Если выставить данную опцию, то будет расчитываться двухстороннее распределение. Флаг «(1-Cumulative p)» позволяет рассчитать квантиль для разности 1 – вероятность. При построении доверительного интервала для математического ожидания обычно принимают P 1 = α/2 и P 2 = 1 – α/2, те. рассматривают симметричные границы относительно выборочного среднего арифметического. В инженерных приложениях для значений α обычно выбирают α = 0,1 или α = 0,05, режете. строят такие доверительные интервалы, которые вили (реже 99%) случаев накрывают математическое ожидание. С учетом соотношения (2.32) z α/2 = – z 1- α/2 , по (3.25) получаем, что вероятность выполнения неравенства n z x M n z x x x x 2 / 1 _ 2 / 1 _ (3.27) равна P = 1 – α/2 - α/2 = 1- α. Следовательно, интервал (3.27) является доверительным интервалом для математического ожидания M x случайной величины с нормальным законом распределения, построенным с доверительной вероятностью P = 1– α. Границы этого интервала равны и n z x x 2 / 1 _ , а половина его ширины (см. рис. 3.1) Пример. Проведено исследование содержания кремния при выплавке передельного чугуна в доменной печи. Всего было отобрано 50 проб чугуна и получены следующие данные M [Si] = 0,65, [Si] = 0,13. Необходимо определить доверительный интервал для вероятности Р = 0,95; объем выборки n, который необходимо выполнить, чтобы точность статистических выводов 0,02. 62 Воспользовавшись соотношением (3.26), рассчитаем доверительный интервал , 50 13 , 0 96 , 1 65 , 0 50 13 , 0 96 , 1 65 , 0 ] [ Si M 0,61 M [Si] 0,69. Необходимый объем выборки для = 0,02 составит 178 02 , 0 13 , 0 96 , 1 На практике, как правило, число измерений (например, отбора проб шихты, чугуна, стали и других материалов) конечно и не превышает. При таком малом числе наблюдений фактическая дисперсия x 2 неизвестна, поэтому при построении доверительного интервала для математического ожидания M x используют выборочную дисперсию В этом случае приведенная случайная величина, аналогичная (3.23), а) где S x — выборочное среднее квадратичное отклонение, определяемое по формуле (3.10), имеет распределение, отличное от нормального. Функция распределения случайной величины t (3.27) имеет вид , dt m t m m m ) t ( F t m 2 1 2 1 2 2 1 (3.28) где Г(у) — гамма-функция, являющаяся обобщением понятия 63 факториала и обладающая рекуррентным свойством Г + 1) = Г) для целых чисел n справедливо Г + 1) = n, см. [1]); m — число степеней свободы, определяемое разностью между объемом выборки n и числом параметров, оцениваемых по выборке в данном случае m = n-1 (поскольку при определении t по (а) необходимо оценить один параметр S x ). Число степеней свободы m — это понятие, которое учитывает в статистических ситуациях связи, ограничивающие свободу изменения случайных величин. Поэтому число степеней свободы вычисляется как разность между числом экспериментальных точек n и числом связей f, ограничивающих свободу изменения случайной величины Так, при вычислении выборочной дисперсии по формуле (3.6) ) 1 ( 1 2 2 n x x S n i i x наблюдается одна связь, определяемая уровнем выборочного среднего n i i x n x 1 1 , поэтому число степеней свободы выборочной дисперсии будет равно m = n – 1, а, например, для выборочной дисперсии, найденной из соотношения (3.7) n M x S n i x i x 1 2 2 , число степеней свободы равно числу испытаний m = n, так как M x определено независимым способом. Понятие о степени свободы поясним еще на примере решения системы линейных алгебраических уравнений. Допустим, что мы имеем систему из n линейных алгебраических уравнений с n неизвестными x 1 , x 2 , ..., x n . Очевидно, решение такой системы (при линейной независимости уравнений) будет единственным, те. такая система не будет иметь ни одной степени свободы. Но если для n неизвестных переменных мы имеем только одно уравнение, то для однозначного определения x 1 , x 2 , ..., x n должно быть наложено еще m = n–1 условий (уравнений, те. число степеней свободы такой системы уравнений будет равно n–1. Наконец, если по выборке объемом n будут сделаны оценки ровно для n (линейно независимых) параметров распределения, то расчет n + 1 оценки не будет нести никакой дополнительной информации о распределении случайной величины (все n выборочных значений x 1 , x 2 , ..., x n будут однозначно определены 64 через n оценок параметров, поскольку после оценки n параметров число степеней свободы m = n - n уже окажется равным нулю. Распределение (3.28), зависящее только от числа степеней свободы (однопараметрическое), называют распределением Стьюдента, или распределением. Плотность распределения Стьюдента выражается формулой 2 1 m 2 m t 1 2 m m 2 1 m ) t ( f , (3.29) причем множители при 2 1 m 2 m t 1 в f(t) выбраны так, чтобы площадь под любой кривой f(t) равнялась единице. Стьюдент — псевдоним УС. Госсета (1876-1937) — химика, работавшего водной из пивоваренных фирм Великобритании. Он самостоятельно разработал статистику малых выборок. Поскольку в современной технике чаще всего исследуются небольшие по объему выборки (менее 30), то работа Стьюдента имеет большое практическое значение. На рис. 3.3 приведено распределение Стьюдента для различных значений m. При n (практически при n 30) распределение Стью- дента переходит в стандартное нормальное распределение с единичной дисперсией. Для случайной величины t (3.27), в соответствии с (2.20), можно записать, что 1 2 2 1 2 1 ) / ) ( ( ) ( P P t n S M x t P t t t P P x x P P P , (3.30) где t P1 и t P2 — значения квантилей случайной величины t порядка p 1 и p 2 соответственно. Если в соотношении (3.30), аналогично (3.24), разрешить относительно M x неравенство, стоящее под знаком вероятности, и при 65 построении доверительного интервала для математического ожидания принять симметричные границы P 1 = α/2 и P 2 = 1 – α/2, то получим, что вероятность выполнения неравенства n s t x M n s t x x m , _ x x m , _ (3.31) равна P = 1 – α , где t α,m — так называемый коэффициент Стьюдента значение квантили статистики t (3.27) порядка P = 1 – α /2 для числа степеней свободы m = n – 1). -3 -2 -1 0 1 2 3 t 0,1 0,2 0,4 m=10 m=4 m=1 f(t) - t -3 -2 -1 0 1 2 3 4 0,2 0,4 0,8 m=10 m=4 m=1 F(t) - 4 б- t t а |