МЕТОДЫ ПЛАНИРОВАНИЯ. Металлургия Екатеринбург 2015
Скачать 7.01 Mb.
|
Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА. Общие замечания В данной главе мы рассмотрим возможности использования отдельных компьютерных программ (пакетов прикладных программ, программных сред, компьютерных систем) для статистической обработки данных, полученных входе инженерного эксперимента. Преимущества использования в этой области компьютерных программных продуктов очевидны, однако сделаем некоторые замечания. В настоящее время темпы развития компьютерных технологий настолько велики, что создаваемые аппаратные и программные средства обработки информации, в том числе и статистической, совершенствуются практически с каждым месяцем, приобретая все новые и новые возможности. С распространением мощных персональных компьютеров стало возможно реализовывать методы расчета, которые раньше считались очень трудоемкими в вычислениях. На рынке программного обеспечения существуют достаточно сложные пакеты прикладных программ, профессионально ориентированные на обработку статистической информации и позволяющие выявлять закономерности на фоне случайностей, делать обоснованные выводы и прогнозы, оценивать вероятности их выполнения. Эти программные среды обладают высокой степенью универсальности, а их применимость и технология использования практически не зависят от предметной области (металлургия, экономика, медицина и др. Тенденцией развития современных компьютерных технологий является объединение (интеграция) функций отдельных пакетов программ (математических, статистических, текстовых, графических, коммуникационных и др) в так называемые интегрированные компьютерные среды. Эта особенность наиболее четко прослеживается с выходом новых версий популярных программных продуктов, когда возможности существующих программ расширяются за счет включения в них новых функций. Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 235 В качестве примера можно привести пакет Microsoft Office, включающий в себя наряду со средствами создания и обработки текста, баз данных (Access), презентаций (Power Point) также табличный процессор Excel, предназначенный, вообще говоря, для создания электронных таблиц и манипулирования их данными. В состав входит набор средств анализа данных (пакет анализа, предназначенный для решения сложных статистических задач. Для проведения анализа данных с помощью этих средств достаточно указать (отметить) диапазон входных данных из таблицы и выбрать необходимые параметры расчет будет проведен с помощью подходящей статистической функции, а результат будет помещен в выходной диапазон таблицы. Кроме того, специальные средства позволяют представить результаты в графическом виде. Для успешного применения процедур анализа в Microsoft Excel также необходимы соответствующие знания в области статистических расчетов, для которой эти инструменты были разработаны. Несмотря на то, что электронные таблицы уступают по своим возможностям специализированным пакетам статистической обработки данных, изучение возможностей и владение навыками работы сделает их мощным инструментом в руках инженера-исследователя. Компьютерные системы для анализа данных — статистические пакеты (СП) — являются, по сравнению с другими наукоемкими программами, пожалуй, наиболее широко применяемыми в инженерной практике и исследовательской работе в разнообразных областях человеческой деятельности. Статистический пакет должен удовлетворять определенным требованиям, на которые в первую очередь надо обращать внимание при его выборе использование простого пользовательского интерфейса, основанного на проблемно-ориентированном языке высокого уровня для формулировки задания пользователя модульность программного обеспечения, автоматическая организация процесса обработки данных и связей между модулями пакета развитая система поддержки при выборе способов обработки данных, визуальном отображении результатов и их интерпретации наличие средств сохранения результатов проделанного анализа в виде графиков и таблиц Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА совместимость с другим программным обеспечением. Современная программа анализа данных, в большинстве случаев, представляет собой электронные таблицы с ограниченными по сравнению с обычными электронным таблицами средствами манипулирования данными, нос достаточно мощными методами расчетов по этим данным. Общая технология статистического анализа данных с использованием статистического пакета включает в себя следующие основные этапы 1) ввод данных в электронную таблицу с исходными данными и их предварительное преобразование перед анализом (структурирование, построение необходимых выборок, ранжирование и т. д 2) визуализация данных при помощи того или иного типа графиков) определение подходящих методов статистической обработки 4) применение конкретной процедуры статистической обработки) вывод результатов анализа в виде графиков и электронных таблиц счисленной и текстовой информацией 6) подготовка, печать и сохранение отчета. Для расчетного анализа данных в СП используются отдельные библиотеки модулей. Модуль СП — это внешняя процедура или программа на языке программирования высокого уровня, удовлетворяющая некоторым дополнительным ограничениям, наиболее важными из которых являются ограничения на способ аварийного завершения работы модуля на способы связи по информации, например на допустимость переменных внешнего типа и использование общей области памяти на возможность передачи управления между модулями с помощью операторов вызова, расположенных в теле модуля на использование операторов ввода-вывода. Отметим наиболее типовые расчетные модули современных статических пакетов, которые условно разделим наследующие три группы описательная статистика и разведочный анализ исходных данных статистическое исследование зависимостей вспомогательные программы. Модуль описательной статистики и разведочного анализа исходных данных позволяет проводить Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА анализ резко выделяющихся наблюдений проверку статистической независимости рядов наблюдений определение основных числовых характеристики частотную обработку исходных данных (построение гистограмм, полигонов частот, вычисление выборочных средних, дисперсий и т.д.); расчет критериев однородности (средних, дисперсий, законов распределения и т.д.); определение критериев согласия (хи-квадрат, Колмогорова- Смирнова и др статистическое оценивание параметров вычисление наиболее распространенных законов распределения вероятностей (нормального, Пуассона, хи-квадрат и некоторых других визуализацию анализируемых многомерных статистических данных. Модуль статистического исследования зависимостей является достаточно объемной частью любого СП. Он включает в себя решение следующих задач корреляционно-регрессионный анализ дисперсионный анализ планирование регрессионных экспериментов и выборочных обследований и др. Вспомогательные программы расширяют возможности статистических пакетов и реализуют, в частности, оптимизационные алгоритмы, вычислительные процедуры, основанные на нейросетях иге- нетических алгоритмах, задачи статистического моделирования на ЭВМ, которые являются полезными составными элементами компьютерных имитационных экспериментов, используемых при анализе сложных реальных систем. В настоящее время существует множество источников информации по использованию статистических пакетов как в виде книгопечатных изданий, таки в электронном виде, которые размещены на сайтах в сети Internet. Для более детального знакомства с процедурами компьютерной обработки результатов статистических исследований заинтересованным читателям можно рекомендовать специальный справочник [20]. Ниже в табл. 7.1 представлены адреса ресурсов Internet, на кото- Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 238 рых расположена информация по некоторым распространенным статистическим пакетам. Таблица Статистические пакеты Адрес Название программы Разработчик 1 2 3 www.statsoft.ru STATISTICA StatSoft Inc., США www.predictivesolutions.ru SPSS SPSS Inc., США www.statgraphics.com STAT- GRAPHICS Plus Manugistics Inc. www.sas.com StatView SAS Institute Inc. www.ncss.com NCSS NCSS Statistical Software www.minitab.com Minitab Minitab Inc. statsoft.msu.ru STADIA НПО Информатика и компьютеры, Россия www.megaputer.ru PolyAnalyst «Мегапьютер Интелли- дженс», Россия Отметим, что многие поставщики предлагают пользователям пробные и демонстрационные версии статистических программ, как правило, отличающиеся тем, что пробная версия представляет собой полнофункциональный продукт с ограниченным сроком использования, а демонстрационная версия в большинстве случаев напоминает электронную презентацию. Следующий параграф посвящен краткому описанию основных статистических функций электронных таблиц Microsoft Excel с комментариями по их использованию в теории инженерного эксперимента для статистической обработки экспериментальных данных и анализа результатов наблюдений. Некоторые из этих функций использовались нами в предыдущих главах данного пособия при изложении соответствующих разделов теории инженерного эксперимента и иллюстрации примеров. Предполагается, что читатель уже имеет некоторые навыки работы на компьютере в среде электронных таблиц Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА Excel, поэтому может использовать данный материал в качестве справочного пособия для статистического анализа данных. Затем мы рассмотрим материал, посвященный знакомству с возможностями интегрированной системы статистического анализа и обработки данных STATISTICA. Наш выбор обусловлен тем фактом, что данная система является на сегодня одной из лидирующих на рынке программного обеспечения для статистической обработки данных. Кроме этого, важным моментом является наличие русскоязычной версии программы и множества публикаций, посвященных этому пакету, например [21]. 7.2. Статистические функции Microsoft Excel 2010 Пакет Microsoft Excel не предназначен для комплексного статистического анализа данных в отличие от специализированного статистического программного обеспечения, например, пакета STATISTI- CA. Однако и на базе электронных таблиц можно провести некоторую статистическую обработку данных для большинства инженерных задач. Функции, реализующие статистические методы обработки и анализа данных, в Microsoft Excel реализованы в виде специального программного расширения — надстройки Пакет анализа, которая входит в поставку данного программного продукта и может устанавливаться пожеланию пользователя. Установка надстройки Пакет анализа производится изменю Файл — Параметры — Надстройки. Далее в диалоговом окне Параметры Excel» необходимо нажать кнопку Перейти. После чего в диалоговом окне Надстройки (рис. 7.1) необходимо отметить флажок пункта Пакет анализа и нажать кнопку ОК Если процесс установки завершен успешно, тов меню Данные появляется еще один пункт — Анализ данных (риса также при создании формул становится доступной новая группа функций — статистические. В рамках Microsoft Excel с помощью встроенных статистических команд можно провести описательный статистический анализ ранжирование данных Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА графический анализ данных прогнозирование данных регрессионный анализ и др. Рис. 7.1. Установка пакета анализа в Microsoft Excel Рис. 7.2. Окно анализа данных, вызываемое изменю «Сервис/Анализ данных Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 241 В табл. 7.2 приведены в алфавитном порядке некоторые статистические функции, позволяющие пользователю реализовать обработку данных непосредственно на листе электронной таблицы. Таблица Статистические функции пакета Microsoft Excel Функция Назначение функции и ее аргументы ВЕРОЯТНОСТЬ Возвращает вероятность того, что значение из интервала находится внутри заданных пределов. Если верхний_предел не задан, то возвращается вероятность того, что значения в аргументе интервал равняются значению аргумента нижний предел. ВЕРОЯТНОСТЬ (x_интервал; интервал_вероятностей; нижний предел верхний_предел). ДИСП.В Оценивает дисперсию по выборке. Логические значения и текст игнорируются. ДИСП.В (число1; число …) ДИСП.Г Вычисляет дисперсию для генеральной совокупности. Логические значения и текст игнорируются. ДИСП.Г (число1; число …) ДИСПА Оценивает дисперсию по выборке. Предполагается, что аргументы являются только выборкой из генеральной совокупности. ДИСПА (число1; число …) ДОВЕ-_РИТ.НОРМ'>ДИСПРА Вычисляет дисперсию для генеральной совокупности. ДИСПРА (число1; число ...) ДОВЕ- РИТ.НОРМ Возвращает доверительный интервал для среднего генеральной совокупности с нормальным распределением. ДОВЕРИТ.НОРМ (альфа; станд_откл;размер) ДОВЕ- РИТ.СТЬЮ- ДЕНТ Возвращает доверительный интервал для среднего генеральной совокупности, используя распределение Стьюдента. ДОВЕРИТ.СТЬЮДЕНТ (альфа; станд_откл;размер) КВАДРОТКЛ Возвращает сумму квадратов отклонений точек данных от их среднего. КВАДРОТКЛ (число1; число) КВПИРСОН Возвращает квадрат коэффициента корреляции Пирсона для точек данных в аргументах известные_значения_y и известные значения КВПИРСОН (известные_значения_y; известные_значения_x) КОРРЕЛ Возвращает коэффициент корреляции между интервалами ячеек массив и массив КОРРЕЛ (массив1; массив) Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 242 П род о л жени е таблицы. 2 ЛИНЕЙН'>ЛГРФПРИБЛ В регрессионном анализе вычисляет экспоненциальную кривую, аппроксимирующую данные, и возвращает массив значений, описывающий эту кривую. Поскольку данная функция возвращает массив значений, она должна вводиться как формула для работы с массивами. Уравнение кривой следующее или y = (b (m 1 x1 ) (m 2 x2 ) … (m n xn )) (при наличии нескольких значений x), где зависимые значения y являются функцией независимых значений x. Значения m являются основанием для возведения в степень x, а значения b постоянны. Отметим, что y, x и m могут быть векторами. Функция ЛГРФПРИБЛ возвращает массив {m n ;m n-1 ; ... ;m 1 ; b}. ЛГРФПРИБЛ (известные_значения_y; известные значения конст; статистика) ЛИНЕЙН Рассчитывает статистику для ряда с применением метода наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные. Функция возвращает массив, который описывает полученную прямую. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива. ЛИНЕЙН (известные_значения_y; известные_значения_x; конст; статистика) МАКС Возвращает наибольшее значение из набора значений. МАКС (число1;число2; ...) МАКСА Возвращает наибольшее значение в списке аргументов. МАКСА (значение1;[значение2];...) МЕДИАНА Возвращает медиану заданных чисел. МЕДИАНА (число1; число ...) МИН Возвращает наименьшее значение в списке аргументов. МИН (число1; число ...) МИН Возвращает наименьшее значение в списке аргументов. МИНА (число1; число ...) МОДА.НСК Возвращает вертикальный массив из наиболее часто встречающихся (повторяющихся) значений в массиве или диапазоне данных. МОДА.НСК ((число1;[число2];...) МОДА.ОДН Возвращает наиболее часто встречающееся или повторяющееся значение в массиве или интервале данных. МОДА.ОДН (число1;[число2];...) Глава 7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИНЖЕНЕРНОГО ЭКСПЕРИМЕНТА 243 П род о л жени е таблицы. НАКЛОН Возвращает наклон линии линейной регрессии для точек данных в аргументах известные_значения_y и известные значения. Наклон определяется как частное отделения расстояния по вертикали на расстояние по горизонтали между двумя любыми точками прямой, то есть наклон — это скорость изменения значений вдоль прямой. НАКЛОН (известные_значения_y; известные_значения_x) НОРМАЛИЗАЦИЯ Возвращает нормализованное значение для распределения, характеризуемого средними стандартным отклонением. НОРМАЛИЗАЦИЯ среднее стандартное_откл) НОРМ.ОБР Возвращает обратное нормальное распределение для указанного среднего и стандартного отклонения. НОРМ.ОБР (вероятность; среднее стандартное_откл) НОРМ.РАСП Возвращает значение нормальной функции распределения для указанного среднего и стандартного отклонения. НОРМ.РАСП (x; среднее стандартное_откл; интегральная) НОРМ.СТ.ОБР Возвращает обратное значение стандартного нормального распределения u НОРМ.СТ.ОБР (вероятность) НОРМ.СТ.РАСП Возвращает стандартное нормальное интегральное распределение. Это распределение имеет среднее, равное нулю, и стандартное отклонение, равное единице. Эта функция используется вместо таблицы для стандартной нормальной кривой. НОРМ.СТ.РАСП (u) ОТРЕЗОК Вычисляет точку пересечения линии с осью y, используя известные_значения_x и известные_значения_y ОТРЕЗОК (известные_значения_x;известные_значения_y) СРГЕОМ Возвращает среднее геометрическое значений массива или интервала положительных чисел. СРГЕОМ (число1; число ...) СРЗНАЧ Возвращает среднее арифметическое своих аргументов. СРЗНАЧ (число1; число ...) СРЗНАЧА Вычисляет среднее арифметическое для значений заданных в списке аргументов. СРЗНАЧА (значение1;[значение2];...) СРОТКЛ Среднее абсолютных значений отклонений точек данных от среднего |