МЕТОДЫ ПЛАНИРОВАНИЯ. Металлургия Екатеринбург 2015
Скачать 7.01 Mb.
|
7.3.6. Структура диалога пользователя в системе STATISTICA Структура диалога пользователя в каждом статистическом модуле имеет общие черты 1) необходимо ввести, либо импортировать исходные данные на новый лист пакета Statistica (spreadsheet). Здесь можно указать число факторов и опытов (рис. 7.4); 2) далее изменю необходимо выбрать интересуемый раздел анализа 3) затем выбираются метод анализа и конкретная вычислительная процедура с соответствующими параметрами расчета изменю в стартовой панели модуля 4) далее запускается вычислительная процедура. Если процедура итерационная, то система дает возможность на каждом шаге просмотреть результаты в появившемся на экране окне и при необходимости добавить число итераций для увеличения точности оценок Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 5) используя графические возможности и специальные таблицы вывода с вычисленными разнообразными статистиками, можно осуществить всесторонний просмотри анализ результатов) выбирается следующий шаг анализа. Рис. 7.4. Создание нового документа в пакете Statistica В сложном проекте следует работать с различными модулями, последовательно переключаясь между ними. Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА. Примеры использования системы STATISTICA Расчет основных характеристик случайных величин. Запускаем систему STATISTICA и создаем новый файл исходных данных, выбирая изменю пункт File/New data, и присваиваем ему произвольное имя, например exampl1.sta. Исходные данные для анализа возьмем из примера 3.8, в котором приведены результаты обработки 50 проб передельного чугуна на предмет содержания в них кремния (табл. 3.7). Заполним таблицу в системе STATISTICA с исходными данными, как показано на рис. 7.5. Рис. 7.5. В рабочем окне системы STATISTICA расположен файл с исходными данными содержания кремния в чугуне Для этого создаем две переменные первая содержит номер пробы чугуна («№»), вторая — процентное содержание кремния в чугуне для соответствующей пробы («[Si], %»). Размер таблицы в системе по умолчанию принят 10 на 10 (10 переменных с именами VAR1, VAR2, …, VAR10 и 10 случаев. Чтобы изменить имя переменной, необходимо выбрать пункт меню Edit/Variables/Current Specs или нажать комбинацию клавиша затем в диалоге указать нужное имя. Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 257 После того как подготовлен файл исходных данных, выбираем пункт меню Statistics — Basic Statistics/Tables – Descriptive Statistics Описательная статистика. В появившемся диалоговом окне, вид которого показан на рис. 7.6, следует выбрать переменную для анализа нажатием кнопки Variables. Мы выбрали переменную, содержащую данные о процентном содержании кремния в чугуне, имя выбранной переменной отражается рядом с кнопкой Variables. Диалог Описательная статистика позволяет вычислить разнообразные выборочные характеристики (Statistics): Median&quartiles — медиана и квартили, Conf. Limits for means — доверительные границы для среднего. В строке Alpha error можно задать требуемый уровень значимости. Напомним, что уровень значимости — это вероятность неправильного отвержения гипотезы, когда она верна (подробнее см. п. 3.3). Более расширенный набор статистик для расчета можно выбрать с помощью вкладки «Advanced» рис. 7.7): Mean — среднее арифметическое, Sum — сумма, Median — медиана, Standard Deviation — стандартное отклонение дисперсия, Minimum&maximum — минимум и максимум, Range — размах, те. разность между максимумом и минимумом, Skewness — коэффициент асимметрии, Kurtosis — коэффициент эксцесса Рис. 7.6. Вид экрана меню Descriptive Statistics (Описательные статистики) Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА построить для выборки таблицу частот (Frequency Tables) и гистограмму частот (Histograms); отметив пункт Normal expected frequencies, можно нанести на гистограмму кривую нормального распределения и визуально оценить соответствие исходных данных нормальному закону распределения проверить гипотезу о нормальности распределения наблюдаемых случайных величин с использованием критерия Колмогорова Смирнова, выбирая его в разделе Distribution Для визуализации результатов имеется возможность построения разнообразных графиков (вкладка Prob. & Scatterplots) Результаты статистического анализа выводятся в специальное окно. Для данных из примера вид окна с результатами показан на рис. 7.8, из которых следует, что среднее арифметическое (математическое ожидание) содержания кремния в чугуне составляет 0,6504%; выборочная дисперсия 0,0185%; максимальное и минимальное значения равны соответственно 0,32 и 0,95%; действительное содержание кремния в чугуне с вероятностью 95% лежит в интервале от 0,6117 до 0,6891%. Заметим, что эти данные близки к результатам, полученным ранее в примере 3.8 с помощью пакета Microsoft Excel, небольшие расхождения объясняются точностью представления результатов. Рис. 7.7. Вид вкладки Advanced функции Descriptive Statistics Описательные статистики) Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 259 Рис. 7.8. Вид окна с результатами расчета статистик из примера 3.8 Проверка нормальности распределения Проверим гипотезу о нормальности распределения данных из примера. Для этого в окне диалога Описательные статистики, показанного на рис. 7.6, перейдем на вкладку Normality и отметим мышью пункт Kolmogorov-Smirnov test and Lilliefors test for normality Тест Колмогорова-Смирнова для проверки нормальности и нажмем кнопку. В результате на экране появится окно (рис. 7.9), на котором изображена гистограмма переменной SI_% и дополнительно нанесена линия нормального распределения. Рис. 7.9. Гистограмма распределения содержания кремния в чугуне с результатами проверки гипотезы о нормальности распределения Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 260 В верхней части гистограммы показан рассчитанный параметр теста Колмогорова-Смирнова — критерий D (см. п. 3.6). Напомним, что критерий D называется критерием согласия, поскольку он проверяет, в какой степени наблюдаемые значения случайной величины согласуются с функцией нормального распределения чем меньше величина, тем в меньшей степени эмпирическая функция распределения случайной величины отличается от нормальной функции распределения. В нашем случае критерий D=0,03559, следовательно, гипотеза о нормальности распределения данных о содержании кремния в чугуне подтверждается. В противном случае система выдала бы соответствующее сообщение и выделила бы данный критерий отличительным цветом. Регрессионный анализ Применение системы STATISTICA для регрессионного анализа рассмотрим на примере исследования взаимосвязи среднемесячного удельного расхода кокса и соответствующей величины удельного выхода шлака поданным работы одной из доменных печей ОАО Магнитогорский металлургический комбинат (ОАО ММК), которые отражены в табл. 7.3. Напомним, что задача регрессионного анализа состоит в том, чтобы по наблюдениям входных (X) и выходных (Y) параметров построить регрессионную модель (уравнение регрессии, те. оценить параметры модели (коэффициенты уравнения) наилучшим образом построить доверительные интервалы для коэффициентов модели проверить гипотезу о значимости регрессии оценить степень адекватности модели и т.д. Из теории доменного процесса известно, что величина расхода кокса зависит от выхода шлака, а не наоборот. Поэтому зависимой переменной Y будет являться величина удельного расхода кокса, а независимой переменной X — величина удельного выхода шлака. Регрессионный анализ будем проводить в несколько этапов. 1. Создадим новый файл exampl2.sta и занесем в него данные из табл. 7.3. На рис. 7.10 показан файл с исходными данными. Пере Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 261 менные, содержащие данные об удельном расходе кокса и выходе шлака, которые обозначены соответственно KOKS и SLAG. Таблица Фактические данные о расходе кокса (К) и выходе шлака (Ш) на одной из доменных печей ОАО ММК № п/п К, кг/т чугуна Ш, кг/т чугуна № п/п К, кг/т чугуна Ш, кг/т чугуна № п/п К, кг/т чугуна Ш, кг/т чугуна 1 2 3 1 2 3 1 2 3 1 391 250 31 403 241 61 393 251 2 438 268 32 440 277 62 418 252 3 408 260 33 416 253 63 426 270 4 399 244 34 445 294 64 412 260 5 424 272 35 384 249 65 419 277 6 425 279 36 435 263 66 433 274 7 395 243 37 389 254 67 387 245 8 408 269 38 406 252 68 451 291 9 425 262 39 384 238 69 398 253 10 384 241 40 399 240 70 403 244 11 424 267 41 419 256 71 425 259 12 403 239 42 418 261 72 382 225 13 409 242 43 398 262 73 397 244 14 416 270 44 421 270 74 449 280 15 410 254 45 398 257 75 385 256 16 392 256 46 398 250 76 385 228 17 403 244 47 438 271 77 386 218 18 377 239 48 437 280 78 418 253 19 419 262 49 411 264 79 408 256 20 382 251 50 406 250 80 442 270 21 430 267 51 409 269 81 406 243 22 406 258 52 391 242 82 413 259 23 379 240 53 399 252 83 436 266 24 420 251 54 435 273 84 384 242 25 389 256 55 420 260 85 429 275 26 411 253 56 416 261 86 392 237 27 419 275 57 420 276 87 390 259 28 413 272 58 386 242 88 427 262 29 392 235 59 390 220 89 398 242 30 418 257 60 427 258 90 445 280 Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 262 Рис. 7.10. Фрагмент файла исходных данных для регрессионного анализа 2. Последовательность регрессионного анализа в системе STATISTICA лучше всего начинать с визуальной оценки положения данных при помощи различных графических средств. Поскольку в нашем случае изучается зависимость типа Y = f(X), то для этой цели подойдет двумерный график Scatterplots изменю. В появившемся диалоговом окне (рис. 7.11) выбираем переменные X и Y нажатием кнопки Variables. Имена выбранных переменных Var X (SLAG) и Var Y (KOKS) отображаются в окне диалога. В этом окне дополнительно можно отметить тип графика (Graph Type) — Regular, модель оценивания (FIT) первоначально выберем Off, стиль графика (Style) — Normal, величину доверительного интервала и т.д. После нажатия кнопки OK на экране в отдельном окне появляется построенный график. 3. Из анализа наблюдений положения данных на графике делаем вывод о пригодности для оценивания полиномиальной регрессион- Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 263 ной модели. Отметим в диалоговом окне (рис. 7.11) модель оцени- вания Polynomial и нажмем кнопку ОК. В результате появится отдельное окно с графиком, в котором на точечные данные нанесена кривая, подобранная по методу наименьших квадратов и описываемая многочленом го порядка (рис. 7.12). Уравнение многочлена представлено в заголовке графика и имеет следующий вид KOKS = Абсолютная величина каждого коэффициента в уравнении регрессии характеризует вклад соответствующей степенной составляющей на параметр отклика y. Рис. 7.11. Окно построения графиков для подгонки модели оценивания Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 264 Рис. 7.12. Полиномиальная кривая го порядка, рассчитанная по методу наименьших квадратов 4. Воспользуемся статистическим модулем Nonlinear estimation Нелинейное оценивание). Для этого следует выбрать меню Statistics — Advanced Linear/Nonlinear Models – Nonlinear Estima- tion. Для того чтобы проанализировать регрессионную модель, из диалогового окна выбираем пункт regression, custom loss function Определяемая пользователем регрессия. На экране появляется начальное диалоговое окно (рис. 7.13), в котором нажатием кнопки Function to be estimated & loss function функция оценивания и функция потерь можно с помощью формул задать функцию, которую необходимо оценить, а также определить функцию потерь. Рассмотрим в качестве примера в дальнейшем зависимость между удельным расходом кокса (KOKS) и удельным выходом шлака (SLAG) в виде полинома й степени KOKS=b 0 +b 1 *SLAG+b 2 *SLAG 2 + Функция потерь по умолчанию задается в виде квадрата откло- Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 265 нения наблюдаемых от предсказанных с помощью регрессионной модели значений (Рис. 7.13. Начальное окно диалога по оценке параметров определяемой пользователем регрессионной кривой 5. Нажатие клавиши ОК приводит к появлению окна Model Estimation (Оценивание модели для выбора метода и начальных установок для пользовательской регрессии (рис. 7.14). В качестве метода оценивания выберем квазиньютоновский. В методах нелинейного оценивания важно правильно подобрать начальные приближения. Неизвестными параметрами модели являются коэффициенты и b 3 . Нажатие клавиши ОК приводит к появлению окна оценок параметров модели на каждом шаге итерации. После того как оценивание завершится, внизу окна появится сообщение Parameter estimation process converged (Процесс оценивания параметров сошелся. 6. Далее нажимаем кнопку ОК, после чего открывается окно Results Результаты, показанное на рис. 7.15. Окно результатов имеет следующую структуру верхняя часть окна — информационная, нижняя содержит функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа. Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 266 Рис. 7.14. Окно выбора метода и начальных установок для пользовательской регрессии Рис. 7.15. Окно результатов оценивания параметров пользовательской регрессии Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 267 Информационная часть содержит краткую информацию о проведенном анализе, а именно Model is — вид модели оценивания. В нашем случае KOKS=b 0 +b 1 *SLAG+b 2 *SLAG 2 + b 3 *SLAG 3 ; Dependent variable — зависимая переменная. В нашем примере это удельный расход кокса (KOKS); Independent variables — количество независимых переменных. В примере независимая переменная одна — удельный выход шлака Loss function — вид функции потерь Final value — последнее значение параметра, по которому система проводила подгонку модели. Функциональные кнопки позволяют представить результаты в виде таблиц и графиков. Выберем кнопку Parameter estimates Параметры оценивания), и на экране появится окно, в котором отражены численные значения коэффициентов модели (рис. 7.16). Рис. 7.16. Результаты расчета коэффициентов регрессионной модели Нажатие кнопки Fitted 2D function & observed vals Подогнанная функция и наблюдаемые значения выводит на экран график результирующей кривой, наложенной на наблюдаемые значения исходных данных (рис. 7.17). Таким образом, уравнение регрессионной модели окончательно примет вид x 000265 , 0 x 210403 , 0 x 4188 , 54 231 , 4998 y 3 2 7. Далее следует оценить поведение остатков (residuals) модели, те. разностей между исходными (наблюдаемыми) значениями зависимой переменной и предсказанными с помощью модели. Исследуя остатки модели, можно оценить степень ее адекватности. С помощью функциональных кнопок в данном окне (см. рис. 7.15) можно проанализировать остатки, как в графическом виде, таки в электронных таблицах. Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 268 Рис. 7.17. График результирующей регрессионной кривой, наложенной на наблюдаемые исходные данные Рис. 7.18. График остатков на нормальной вероятностной бумаге Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 269 Рис. 7.19. Распределение остатков на плоскости Сначала для оценки адекватности модели лучше всего использовать визуальные методы и затем, если потребуется, перейти к статистическим. Нажмем кнопку Normal Probability plot of residuals График остатков на нормальной вероятностной бумаге, и выбранная зависимость появится на экране в отдельном окне (рис. 7.18). Из графика остатков на нормальной вероятностной бумаге видно, что они достаточно хорошо ложатся напрямую, которая соответствует нормальному закону распределения. Поэтому гипотеза о нормальном распределении ошибок принимается. Далее нажмем кнопку Predicted vs. residual values Распределение остатков, и на экране появится график следующего вида рис. 7.19). Из этого графика видно, что остатки хаотично разбросаны на плоскости ив их поведении нет закономерностей. Нет основания говорить, что остатки коррелированы между собой. Следовательно, можно заключить, что регрессионная модель достаточно адекватно описывает данные Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА. Контрольные вопросы 1. Какие преимущества дает экспериментатору использование средств вычислительной техники 2. Каковы возможности современных программ по обработке экспериментальных данных 3. На каких принципах основана организация современных статистических пакетов 4. Каким образом решается задача по оценке статистических характеристик с помощью пакета Microsoft Excel? 5. Как организовано взаимодействие пользователя с пакетом Statis- tica? Какие основные модули он в себя включает 6. Как определить коэффициенты уравнения регрессии, используя пакет Statistica? СПИСОК РЕКОМЕНДУЕОЙ ЛИТЕРАТУРЫ СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ 1. Белай Г.Е., Дембовский В.В., Саценко О.В. Организация металлургического эксперимента Учеб. пособие для вузов / Под ред. В.В. Дембовского. — М Металлургия, 1993. — 256 с. 2. Теория и техника теплофизического эксперимента Учеб. пособие для вузов / |