МЕТОДЫ ПЛАНИРОВАНИЯ. Металлургия Екатеринбург 2015
Скачать 7.01 Mb.
|
Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ Предварительная обработка результатов измерений и наблюдений необходима для того, чтобы в дальнейшем, при построении эмпирических зависимостей (функций отклика, с наибольшей эффективностью использовать статистические методы и корректно анализировать полученные результаты. Содержание предварительной обработки состоит в отсеивании грубых погрешностей и оценке достоверности результатов измерений. Другими важными моментами предварительной обработки данных являются проверка соответствия результатов измерения нормальному закону и определение параметров этого распределения. Если гипотеза о том, что отклик не противоречит нормальному распределению, окажется неприемлемой, то следует определить, какому закону распределения подчиняются опытные данные или, если это возможно, преобразовать опытное распределение к нормальному виду. 3.1. Вычисление параметров эмпирических распределений. Точечное оценивание Рассмотрение вопросов обработки экспериментальных данных начнем с простейшей ситуации, когда отклик регистрируется при фиксированных уровнях всех контролируемых факторов и при проведении опытов (в результате влияния неконтролируемых факторов) исследователь получает хотя и близкие, но отличные друг от друга результаты. Пример. При производстве железнодорожных рельсов широкой колеи типа Р (по ГОСТ 18267-82) были получены следующие три значения твердости НВ (по ГОСТ 9012-59) на поверхности катания головки одного итого же рельса (на обоих концах на расстоянии не болеем от торцов ив средней части рельса 351, 370 и 365. Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 40 Попытаемся найти ответ на вопрос, чему равна твердость на поверхности катания данного рельса На первый взгляд решение поставленной задачи не вызывает никаких особых проблем, и начинающие исследователи, не особенно искушенные в области теории вероятностей и математической статистики, скорее всего ответят, что твердость на поверхности катания рельса равна (НВ 1 — первый вариант ответа НВ 1 = (351 + 370 + 365)/3 = 362,00, те. будет найдено среднее арифметическое (выборочное среднее арифметическое из трех полученных значений отклика. Однако опытные данные можно усреднять и другими способами. Например, можно подсчитать среднее геометрическое (НВ 2 — второй вариант ответа 3 2 365 370 351 HB 361,91 или найти среднее, только между минимальными максимальным) значениями — так называемую середину размаха (НВ 3 — третий вариант ответа НВ 3 = (351 + 370)/2 = 360,50, или, расположив все значения в возрастающей последовательности 351, 365, 370, взять средний член полученного ряда — средний член вариационного ряда (НВ 4 — четвертый вариант ответа НВ 4 = 365,00. Можно придумать и какие-либо другие способы (например, очень оригинальной может быть идея еще раз усреднить все четыре полученных значения, однако остановимся пока только на этих четырех вариантах ответа на поставленный перед нами вопрос. Мы видим, что, не привлекая никаких дополнительных соображений, нам пока достаточно трудно обосновать тот или иной вариант, на котором было бы предпочтительно остановиться. Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 41 Так, если выбирать тот ответ, который потребует от нас меньшего количество вычислений, то тогда лучше всего отдать предпочтение значению НВ 4 = 365,00 (вообще не требует никаких расчетов. Однако подобное обоснование вряд ли можно считать достаточно надежными убедительным. Поэтому давайте остановимся и задумаемся о том, почему вообще мы столкнулись с подобной ситуацией. Ведь если бы, например, нам нужно было найти ответ на вопрос, какое количество проходов при прокатке данного профиля осуществляется в двухвалковых рельсовых калибрах, и мы походу технологического процесса проследили за тремя различными раскатами, тов результате было бы получено три абсолютно одинаковых значения допустим, пять. В подобной ситуации нет необходимости считать ни выборочное среднее, ни среднее геометрическое, ни середину размаха, ни находить средний член вариационного ряда и т.д., поскольку можно сразу указать то количество рельсовых калибров, которые проходит раскат в процессе прокатки. Следовательно, между такими величинами, как число рельсовых калибров и твердость на поверхности катания головки, есть принципиальная разница, которая заключается в том, что первая из двух названых величин является детерминированной, а вторая — случайной. И если для того, чтобы описать детерминированную величину, достаточно указать одно ее значение (например, число рельсовых калибров равно пяти, то для описания случайной величины нужно знать ее распределение. Другими словами, для случайной величины недостаточно указать только лишь какое-либо ее значение (или комбинацию ее значений, как, например, выборочное среднее арифметическое, а нужно записать функцию, которая однозначно определяет вероятность того, что случайная величина принимает заданное значение или принадлежит к некоторому заданному интервалу. Поэтому ответ на вопрос примера 3.1 надо начинать нес поиска каких-либо вариантов усреднения опытных данных, а прежде всего с констатации того факта, что твердость на поверхности катания головки рельса — это случайная величина. Далее нужно отметить, что твердость — это непрерывная случайная величина, поскольку (если, например, рельсы отвечают требованиям первого класса) она может принимать любые значения из Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 42 конечного интервала (НВ=341…388, см. пункт 1.4 ГОСТ 18267-82). После этого можно выдвинуть гипотезу (предположение, что такая случайная величина, как твердость на поверхности катания головки рельса, не должна противоречить нормальному закону распределения. Согласно центральной предельной теореме математической статистики, данную гипотезу скорее всего можно будет принять в качестве рабочей, поскольку опытные данные в примере 3.1 получены при измерении твердости в различных точках по длине одного итого же рельса. Следовательно, наиболее существенные факторы, которые определяют механические свойства данного металла на всех стадиях технологического процесса (получение металла, прокатка, термическая обработка, зафиксированы на одних и тех же уровнях. Кроме того, отклик (твердость металла) становится случайной величиной только в результате влияния малозначимых неконтролируемых факторов, число которых на различных этапах металлургического цикла, по всей видимости, стремится к бесконечности. Итак, в качестве ответа на вопрос примера 3.1 мы можем сказать, что твердость на поверхности катания головки рельса — это непрерывная случайная величина, функцию распределения которой скорее всего можно записать в виде dx e 2 1 ) HB ( F HB 2 M x 2 HB 2 H B 2 H Теперь, казалось бы, только осталось подсчитать по (2.15) математическое ожидание М НВ и по (2.17) — дисперсию σ НВ 2 , те. два параметра этой случайной величины, и у нас появится возможность определять вероятность того, что твердость на поверхности катания головки рельса принадлежит к некоторому заданному интервалу например, НВ = 341…388). Однако на данном этапе мы попадаем в какой-то замкнутый круг ведь для того, чтобы записать функцию нормального распределения, необходимо определить математическое ожидание и дисперсию для вычисления этих двух параметров нужно знать плотность распределения (см. (2.15) и (2.17)), а плотность распределения — это первая производная от функции распределения (см. (2.7)), те. в итоге, Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 43 для того, чтобы найти функцию распределения, нужно знать функцию распределения. Выход из подобного замкнутого круга может быть найден только лишь после того, как будет определена причина, по которой мы в него попадаем. Итак, нам необходима функция распределения, причем для начала пусть хотя бы одно из ее значений, например F(341). По определению это вероятность того, что случайная величина НВ принимает значение не более 341. В свою очередь вероятность данного события F(341) = Р(НВ ≤ 341) есть предел частоты реализации события НВ ≤ 341 (отношение числа наблюдений, в которых твердость на поверхности катания головки рельса оказалась не более 341, к общему количеству наблюдений) при неограниченном числе повторений одного итого же комплекса условий. А вот неограниченным числом повторений (генеральной совокупностью) в условиях примера 3.1 мы как разине располагаем, поскольку имеется только лишь три участка (сечения) рельса (три наблюдаемых единицы, в которых определена твердость на поверхности катания головки (три результата наблюдения. Наблюдаемая единица — действительный или условный предмет, над которым проводят серию наблюдений Результат наблюдения — характеристика свойств единицы, полученная опытным путем. Генеральная совокупность — множество всех рассматриваемых единиц. Другими словами, генеральная совокупность — это такое воображаемое, в пределе бесконечно большое число предметов, над которыми можно провести наблюдения при неограниченном числе повторений одного итого же комплекса условий. В примере 3.1 под генеральной совокупностью можно понимать, допустим, все участки одного итого же рельса, в которых в принципе можно было бы замерить твердость, либо вообще все рельсы Р, которые когда-либо изготавливались или еще будут производиться по ГОСТ 18267-82. В распоряжении исследователя, конечно же, никогда нет генеральной совокупности, ион может изучать только ее часть — выборку, причем всегда ограниченного объема. Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 44 Выборка — любое конечное подмножество генеральной совокупности, предназначенное для непосредственных исследований. Объем — количество единиц в выборке. По выборке невозможно однозначно определить ни функцию распределения, ни плотность распределения, ни параметры распределения (например, математическое ожидание или дисперсию) случайной величины, поскольку для этого потребуется неограниченное бесконечно большое) количество результатов наблюдений, те. необходимо исследовать всю генеральную совокупность. Следовательно, имея конечное подмножество генеральной совокупности (выборку, мы должны либо вообще отказаться от поиска распределения исследуемой случайной величины, либо удовлетвориться лишь некоторыми приближенными значениями неизвестных параметров ее распределения, те. провести оценивание случайной величины. Оценивание — определение приближенного значения неизвестного параметра генеральной совокупности по результатам наблюдений. Идея оценивания должна быть вполне понятна из соображений обычной житейской практики. Ведь для того, чтобы, например, купить пару килограмм яблоку нас никогда не возникает желание съесть все имеющиеся у данного продавца фрукты (изучить всю генеральную совокупность, мы пробуем дольку только лишь одного яблока (исследуем выборку, определяем ее вкус (оцениваем) и принимаем решение, стоит нам или нет покупать именно эти яблоки. Исходными данными при оценивании, как и при проверке любых предположений (статистических гипотез, касающихся неизвестного распределения случайной величины, конечно же, могут быть лишь только те результаты наблюдений, которые были получены входе проведения опытов (на выборке ограниченного объема. Причем предварительная обработка экспериментальных данных обычно начинается с подсчета тех или иных функций от результатов наблюдений (статистик. Статистика — функция результатов наблюдений, используемая для оценки параметров распределения и (или) для проверки статистических гипотез. По выборке невозможно найти параметры распределения Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 45 случайной величины (поскольку для этого требуется бесконечное количество результатов наблюдений — изучение всей генеральной совокупности, поэтому, имея в своем распоряжении всегда ограниченный объем экспериментальных данных, исследователю остается довольствоваться только лишь получением некоторых оценок. Оценка — статистика, являющаяся основой для оценивания неизвестного параметра распределения Для одного итого же параметра распределения может быть предложено несколько оценок. В примере 3.1 рассматривалось четыре различных оценки для такого параметра распределения твердости, как математическое ожидание данной случайной величины (выборочное среднее арифметическое, выборочное среднее геометрическое, середина размаха и средний член вариационного ряда. Поэтому при оценивании всегда возникает проблема выбора наилучшей оценки из всех возможных оценок данного параметра. Причем, когда формулируются те или иные требования, по которым оценку целесообразно считать наилучшей, прежде всего учитывается тот факт, что любая оценка — это также случайная величина. Ведь если бы в условиях примера 3.1 было бы найдено, допустим, выборочное среднее арифметическое твердости на поверхности катания головки какого-либо другого рельса, то, конечно же, совершенно необязательно, что оно опять оказалось бы равно именно 362,00 единицам по Бринеллю. Из тех соображений, что любая оценка * какого-либо параметра распределения случайной величины тоже есть случайная величина, к оценкам предъявляются требования состоятельности, несме- щенности и эффективности. Состоятельная оценка — оценка, сходящаяся по вероятности к значению оцениваемого параметра при безграничном возрастании объема выборки. где — оцениваемый параметр * — оценка n — объем выборки. Иными словами, для состоятельной оценки отклонение ее от на малую величину и более становится маловероятным при большом Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 46 объеме выборки. Вполне естественно, что исследователей в первую очередь интересуют те оценки, которые хотя бы в пределе (при проведении бесконечно большого количества наблюдений) давали им возможность определить интересующий их параметр распределения, те. чтобы оценки прежде всего были состоятельными. Однако следует отметить, что на практике приходится оценивать неизвестные параметры и при малых объемах выборки. Естественным является требование, при выполнении которого оценка не дает систематической погрешности в сторону завышения или занижения) истинного значения параметра Несмещенная оценка — оценка, математическое ожидание которой равно значению оцениваемого параметра M( *)= . (3.2) Удовлетворение требованию несмещенности позволяет устранить систематическую погрешность оценки параметра, которая зависит от объема выборки n ив случае состоятельности оценки стремится к нулю при n . Эффективная оценка — несмещенная оценка, имеющая наименьшую дисперсию из всех возможных несмещенных оценок данного параметра. min * 2 M (3.3) или , * * 2 2 i M M (3.4) где i * — любая другая оценка. Иными словами, дисперсия эффективной оценки параметра в некотором классе является минимальной среди дисперсий всех оценок из рассматриваемого класса несмещенных оценок. Из всех состоятельных и несмещенных оценок следует предпочесть такую, которая оказывается наиболее близкой к оцениваемому параметру (эффективной, однако используемые в математической статистике оценки не всегда одновременно удовлетворяют всем трем перечисленным выше требованиям. Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 47 После того как исследователь выбрали подсчитал состоятельную, несмещенную и эффективную оценки интересующего его параметра распределения исследуемой случайной величины, первое и наиболее простое, что он может сделать, так это принять значение оценки как неизвестное значение параметра распределения, те. выполнить точечное оценивание. Точечное оценивание — способ оценивания, заключающийся в том, что значение оценки принимают как неизвестное значение параметра распределения. Рассмотрим некоторые точечные оценки основных параметров распределения для непрерывной случайной величины, не противоречащей нормальному закону распределения. Выборочное среднее арифметическое x — сумма значений рассматриваемой величины, полученных по результатам испытания выборки, деленная на ее объем. n, ..., 2, 1, = i , 1 1 n i i x n x (3.5) где n — объем выборки х — результат измерения й единицы. В математической статистике доказано, что выборочное среднее арифметическое является наилучшей (состоятельной, несмещенной и эффективной) оценкой математического ожидания случайной величины, подчиняющейся нормальному закону распределения. В примере 3.1, даже если предположить, что твердость на поверхности катания головки рельса не противоречит нормальному закону распределения, из четырех полученных оценок предпочтение следует отдать значению НВ 1 = (351 + 370 + 365)/3 = 362,00 (выборочному среднему арифметическому) как наилучшей оценке для математического ожидания данной случайной величины. Три другие рассмотренные в этом примере оценки также являются состоятельными для математического ожидания. Однако среднее геометрическое это смещенная оценка (она будет наилучшей только тогда, когда случайная величина подчиняется так называемому логарифмически нормальному распределению, те. когда закону Гаусса подчиняется не сама случайная величина, а ее Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 48 логарифм). Середина размаха НВ 3 =(351+370)/2=360,50 и средний член вариационного ряда НВ 4 = 365,00 — это хотя и несмещенные оценки для математического ожидания, но их эффективность, как показано в математической статистике, меньше, чему выборочного среднего арифметического (меньше единицы. Выборочная дисперсия 2 x S или 2 x S — сумма квадратов отклонений выборочных результатов наблюдений от их выборочного среднего арифметического в выборке, деленная на n-1 или на n. 1 n x x S n 1 i 2 i 2 x (3.6) или 1 Оценки и 2 x S являются состоятельными, несмещенными ив случае нормального распределения, асимптотически эффективными оценками дисперсии Для практических расчетов выражение (3.6) можно преобразовать к виду 1 1 1 2 1 1 2 В условиях примера 3.1 выборочная дисперсия твердости на поверхности катания головки рельса равна 00 , 97 365 370 351 3 1 365 370 351 1 3 1 2 2 2 Выборочное среднее квадратичное отклонение x S или x S — Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 49 положительный квадратный корень из выборочной дисперсии 2 x x S S (3.9) или В примере 3.1 . , S x 85 Зная выборочное среднее арифметическое x и выборочное среднее квадратичное отклонение x S , можно подсчитать меру относительной изменчивости случайной величины — выборочный коэффициента вариации — по формуле , x S x (3.11) или, в процентах, %. 100 x S x (3.12) Для примера 3.1 выборочный коэффициент вариации твердости равен = 9,85/362 = 0,027, или 2,7%. Через выборочное среднее арифметическое x и выборочное среднее квадратическое отклонение x S могут быть сделаны точечные оценки для любых значений функции распределения, а также для вероятности попадания случайной величины в любой из заданных интервалов. Так, для какого-либо значения функции нормального распределения, поскольку ), ( ) ( ) ( ) ( x x x x M x M x Z P M x M X P x X P x F (3.13) Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 50 в качестве точечной оценки F(x) можно использовать ). ( x S x x x F (3.14) Точечную оценку вероятности попадания случайной величины Х с нормальным законом распределения в любой из заданных интервалов (х, х) можно найти по формуле ). ( ) ( 1 2 2 1 x x S x x S x x x X x P (3.15) В соответствии с (2.32) точечная оценка квантили р порядка р для нормального распределения равна x p p S z x x (3.16) В примере 3.1 предположим, что получено только два значения твердости на поверхности катания головки рельса (на обоих концах на расстоянии не болеем от торцов 351 и 370, а третье испытание в средней части) еще не проводилось. Оценим при этих условиях вероятность того, что после измерения твердости в средней части рельса ее значение окажется ниже, чем 341, те. вероятность того, что в результате третьего испытания рельс попадет во второй класс (для которого твердость на поверхности катания головки может лежать в диапазоне 311…341) или его придется подвергнуть повторной однократной термической обработке (закалке и отпуску. Кроме того, оценим вероятность того, что после определения твердости в средней части рельса он будет по-прежнему удовлетворять требованиям первого класса по пункту 1.4 ГОСТ 18267-82 (НВ = 341…388). Если предположить, что твердость на поверхности катания головки рельса не противоречит нормальному закону распределения, то наилучшими точечными оценками для математического ожидания Глава 3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ 51 и дисперсии этой случайной величины в соответствии си) будут значения 5 , 360 ) 370 351 ( 2 1 HB x , 5 , 180 370 351 2 1 370 351 1 2 1 2 2 2 2 HB S , а по (3.10) выборочное среднее квадратичное отклонение составит 435 , 13 Тогда по (3.14) получаем, что 45 , 1 ) 435 , 13 5 , 360 341 ( 341 Поскольку согласно (2.29) Ф) = 1 - Ф, то по таблицам для функции Лапласа (см. прил. П) находим Фи, следовательно, Ф) = 1 - 0,92647 ≈ 0,07. В электронных таблицах Microsoft Excel для подобных расчетов можно использовать функцию |