Лавричева методичка. Анализ методов оценки надежности оборудования и систем. Практика применения методов
Скачать 0.88 Mb.
|
Анализ методов оценки надежности оборудования и систем. Практика применения методов 1 Н.В. Пакулин 2 Е.М. Лаврищева 3 А.Г. Рыжов 1,2,3 Институт системного программирования РАН, 109004, Россия, г. Москва, ул. А. Солженицына, д. 25. 2 Московский физико-технический институт, 141700, Россия, Московская обл., г. Долгопрудный, Институтский пер., д. 9. Аннотация. Проводится анализ моделей и методов оценки надежности технических и программных средств. Определяются основные понятия методов надежности и безопасности таких систем и ситуаций, приводящих к ошибкам, дефектам и отказам. Дано определение надежности и безопасности технических систем и программного обеспечения (ПО) систем. Приведена классификация моделей надежности: прогнозирующего, измерительного и оценочного типов. Описаны оценочные модели, которые применяются на практике. Определен стандарт жизненного цикла ПО (ISO 15288:2002), ориентированный на разработку и контроль компонентов систем на ошибки, начиная с требований к системе. Представлены результаты применения моделей надежности (Мусы, Гоэла-Окомото и др.) к малым, средним и большим проектам и дана сравнительная их оценка. Описан технологический модуль (ТМ) оценки надежности сложных комплексов программ ВПК (1989). Показана модель качества стандарта ISO 9126 (1-4):2002-2004 с показателями функциональность, надежность, эффективность и др., которые используются при определении зрелости и сертификата продукта. Ключевые слова: надежность, ошибка, дефект, отказ, плотность дефектов, случайный процесс, безопасность, гарантоспособность, восстанавливаемость, отказоустойчивость, завершенность, оценка надежности, сертификат качества. 1. Введение Рассматривается теория надежности и безопасности технических и программных систем [1-10]. Теория надежности техники возникла в рамках теории массового обслуживания систем и повлияла на становление и развитие теории надежности компьютерных систем и ПО систем. Теоретики, изучая природу ошибок в системах, разработали более 100 математических моделей надежности, основанных на учете различных ситуаций, возникающих в технических и программных системах на первых и последующих поколениях ЭВМ. Методы надежности обеспечивают повышение надежности систем путем исправления разного рода обнаруженных ошибок в процессе разработки и их эксплуатации. Надежность систем сформировалась как самостоятельная теоретическая и прикладная наука, способствующая определению качественных показателей систем (функциональность, точность, отказоустойчивость, гарантоспособность, завершенность и др.). Методы оценки надежности систем позволяют прогнозировать, измерять и оценивать качество продукта с учетом возникающих ошибок, количестве и интенсивности отказов, а также процессов разработки отдельных компонентов систем в жизненном цикле (ЖЦ). В работе рассматриваются все аспекты обеспечения надежности, безопасности и качества технических и программных систем [1-11]. 2. Методы надежности оборудования и систем Методы оценки надежности технических систем (аппаратуры, устройства, оборудование и др.) были разработаны значительно ранее компьютерных систем и основывались на вероятностных Марковских процессах с множеством числа состояний по теории массового обслуживания [12-16]. Эти методы обеспечивали проверку надежности функционирования техники, приборов и устройств в различных областях (машиностроение, энергетика, космос, медицина и др.). На их работоспособность влияли неисправности и разные недоработки в конструкции, приводящие к разрушительным последствиям и к ущербу системы в целом. На оценку надежности компьютерных систем и ПО существенным образом влияют следующие особенности: 1. Большое количество кода в ПО, зачастую превышающее емкость физических элементов ЭВМ, и способов взаимодействия отдельных элементов ПО между собой; 2. Нематериальный характер элементов ПО, которые не деградируют, но стареют во времени и в их процессах, программах и конструкциях могут случаться разного рода непредвиденные ситуации; 3. Возникновение ошибочных ситуаций, разных дефектов и отказов, как в задании формальной спецификации отдельных элементов, так и в их выходном коде; 4. Элементы ПО трудно поддаются визуализации, обнаружению и коррекции найденных ошибок, поэтому измерение надежности ПО требует анализа и проверки данных об ошибках, чем для аппаратуры; 5. Системы ПО могут изменяться при функционировании и выходить из рабочего состояния от разных ситуаций внешней среды (вирусов, атак и др.), которые не предусмотрены в соответствующих моделях надёжности и обеспечиваются методами безопасности информации и систем. Надежность технических систем зависит от двух факторов: - качества отдельных технических конструктивных элементов системы; - отсутствия дефектов и неисправностей в конструктивных элементах и их способность работать надежно и качественно. Надежность программных систем зависит от этих же факторов и от случайных изменений данных и маршрутов исполнения программ, которые могут привести к неверным результатам или отказам, а также нарушить работоспособность, гарантированную разработчиками систем. Между надежностью аппаратуры и ПО систем имеется сходство, состоящее в возникновении случайных явлений в процессах и системах, которые должны анализироваться методами теории вероятности, надежности и безопасности. 2.1. Определение термина надежности и безопасности систем Под надежностью систем понимается способность системы сохранять свои свойства (безотказность, восстанавливаемость, защищенность и др.) на заданном уровне в течение фиксированного промежутка времени при определенных условиях эксплуатации. Термин reliability (надежность) обозначает способность системы обладать свойствами, обеспечивающими качественное выполнение функций системы в соответствии с заданными требованиями. Термин dependability означает гарантию способности (или гарантоспособность) технических систем [17-20]), состоящую в: – безотказности (reliability) выполнения; – готовности (availability) к работе; – достоверности (high confidence) результатов; – приспособленности к обслуживанию или ремонту (maintainability); – информационной безопасности (security); – конфиденциальности (confidentiality), секретности и целостности информации (integrity); – безопасности (safety) работы системы без катастрофических последствий; – эксплуатационной завершенности ПО (maintainability) и способности к восстановлению работоспособности системы. При этом отказоустойчивость (fault-tolerance) обозначает способность системы автоматически за ограниченное время прогнозировать, предупреждать и восстанавливать функциональность системы после отказов с помощью механизмов поддержки всех составляющих гарантоспособности. Системы или процессы, которые обладают таким комплексным свойством, называют гарантоспособными. Им присущи традиционные надежностные свойства (безотказность, готовность, безопасность, целостность, конфиденциальность, восстанавливаемость и др.). Вопросы разработки и использования гарантии качества систем обсуждаются более 25 лет на международных форумах и конференциях (Conference on Dependable Systems and Networks (DSN), European Dependable Computing Conference, (EDCC), International Conference on Computer Safety, Reliability and Security (SAFECOM), Probabilistic Safety Assessment and Management Conference (PSAM), Dependable Systems, Services and Technologies (DESSERT), Conference on Dependability of Complex Systems (DepCoS) и др.). В 2004 году ассоциация IEEE издает журнал Dependable and Security Computing. В нем обсуждаются бизнес-критические приложения, электронная коммерция, банковские технологии и др. [16, 17]. С точки зрения гарантоспособности надежность является целевой функцией реализации системы. К ней предъявляются высокие требования (недопустимость ошибок, отказов, дефектов и других аварийных ситуаций). Надежность систем зависит от числа оставшихся и не устраненных ошибок в отдельных программах и компонентах системы. Чем интенсивнее проводится эксплуатация системы, тем интенсивнее выявляются ошибки, быстрее растет надежность системы и соответственно ее качество. Надежность по существу является функция от ошибок, оставшихся в системе после ввода ее в эксплуатацию. Системы без ошибок считаются абсолютно надежными. Для оценки надежности систем используются собранные статистические данные - время безотказной работы, дефекты и частота (интенсивность) отказов. Исследование надежности систем проводится с помощью методов теории вероятностей, математической статистики, теории массового обслуживания и математических методов надежности и безопасности. Главным источником информации для оценки надежности являются процессы тестирования, эксплуатации и испытания системы и данные, полученные при разработке систем в соответствии со стандартами ЖЦ (ISO/IEC 15846-1998, 15939:2002) системной инженерии [15-23]. 2.2. Базовые понятия моделей надежности и безопасности К базовым понятиям, которые используются в моделях надежности систем, относятся следующие [1-5]. Отказ (failure) – это переход системы из рабочего состояния в нерабочее. Дефект (fault) – это последствие выполнения элемента программы, приводящее к некоторому непредвиденному событию (неверной интерпретации компьютером); невыявленные дефекты - источник потенциальных ошибок и отказов системы. Ошибка (error) может быть следствием недостатка в спецификациях любой из программ или при принятии неверных действий в процессе испытания системы. Интенсивность отказов – это частота появления отказов или дефектов в системе при ее тестировании, эксплуатации и сопровождении системы. Процесс возникновения ошибок и отказов является, как правило, случайным и зависит от времени их возникновения или частоты их появления. В связи с этим модели надежности основываются на нахождении случайной величины в системе, числом и интенсивностью возникновения отказов в системе. С точки зрения теории надежности в системе возникают случайные процессы во времени T (на последовательности времен t k t k+1 ) и образуют случайную величину в зависимости от значения t в моменты времени t T. Если случайная величина дискретна, т.е. принимает конечное число значений х 1 , х 2 , …, x n , то ее распределение описывается вероятностью Р( = х i ) и в общем случае F(х) = P( х i ) является функцией распределения случайной величины. Случайный процесс с непрерывным временем, который описывается однородными событиями, называется пуассоновским процессом. Если функция оказывается случайной величиной, то требуется вычислить математическое ожидание или дисперсию, как среднее отклонение от ее реализации. Поиск случайных величин осуществляется стохастическими методами и процесс соответственно является стохастическим, вероятностным. Если на множестве времени T определяется случайный процесс, то для всех его точек t вычисляется случайная величина (t), которая и является ее значением. Если случайные величины получаются между процессами требований и сопровождения распределены по показательному, эрланговскому или гиперэрланговскому законам, то поведение системы описывается Марковским процессом без непрерывных компонентов. Одним из подходов к исследованию надежности на основе отказов систем является классическая теория вероятностей, согласно которой отказы в системе (в отличие от отказов технических средств) считаются случайными и зависят от дефектов, внесенных при разработке системы. Все модели оценки надежности базируются на статистике отказов и распределении интенсивности выявленных отказов в процессе верификации, тестирования и испытания системы для обеспечения ее работоспособности и гарантоспособности [16, 17]. Тестирование обеспечивает поиск дефектов и отказов, которые могут возникать случайно в системе и определяться с помощью функции p (t, x, s), где t s – момент времени и x X - положение точки в системе координат. Случайная функция удовлетворяет соотношению: P (t, x, u) = p (s, p (t, x, s), u), где t s u означает, что в момент времени t в точке х система из состояния p (t, x, u), переходит в состояние p (t, x, s). Марковский процесс с дискретным временем и конечным числом состояний называется марковской цепью. Функция p ij (t, x, s), при которой система в момент t переходит из i в j- состояние момента s, называется функцией Колмогорова [12] и определяется после решения системы уравнений: ds d p ij (t, s) = 1 s i P ij (t, s) a kj (s) Надежность по существу очень близка задачам безопасности. При разработке систем научными и некоммерческими институтами их трудно оценить на надежность и безопасность из-за того, что они делаются, как правило, не по стандартам. В то время как системы управления авиацией, атомной энергетикой и оборонной промышленностью разрабатываются по стандартам. В них надежность и безопасность определяют работоспособность системы в соответствии с требованиями и с минимум отказов и дефектов. В характеристиках безопасности учитываются только те отказы, которые могут привести к катастрофическим последствиям и ущербам (например, пожар, взрыв, разрушение здания и др.). Оценка безопасности системы базируется на надежности функционирования ПО и БД. Оценка надежности зависит от метрик стандарта качества (внешние, внутренние, эксплуатационные). Они сравниваются с требованиями заказчика на систему и используются при сертификации продукта. Для оценки надежности и функциональной безопасности используются стандарты ISO/IEC 12207 для ПО и ISO 15288 -2006 систем. На работоспособность системы влияют дефекты и ошибки проектирования, которые приводят к длительности восстановления и к необходимости преобразовывать программы от ошибочных отказов, сбоев средствами программной и информационной избыточности. Согласно стандарта ISO 9126 (1-4) определяются характеристики надежности с учетом обнаруженных дефектов и ошибок при функционировании гарантоспособного ПО систем. Степень работоспособности/гарантоспособности зависит от установления соответствия характеристик требований, заданных в проекте и выявленных сбоев, отказов в ПО и возможными неисправностями в конструктивных элементах систем. 3. Классификация моделей надежности Большинство моделей надежности исходят из предположения, что найденные ошибки и дефекты устраняются немедленно или определяются временем их устранения и новые дефекты не вносятся. В результате количество дефектов в системе уменьшается, а надежность возрастает, такие модели получили название моделей роста надежности. Shick G. [6, 16, 17] предложил следующую классификацию моделей надежности. Прогнозирующие модели надежности основаны на измерении технических характеристик создаваемой программы: длина, сложность, число циклов и степень их вложенности, количество ошибок на страницу операторов программы и др. Модель Мотли–Брукса основывается на длине и сложности структуры программы (количество ветвей и циклов, вложенность циклов), количестве и типах переменных, а также интерфейсов. Модель Холстеда дает прогнозирование количества ошибок в программе в зависимости от ее объема и таких данных, как число операций (n 1 ) и операндов (n 2 ), а также их общее число (N 1 , N 2 ). Измерительные модели предназначены для измерения надежности ПО, работающего с заданной внешней средой и следующими ограничениями: – ПО не модифицируется во время периода измерений свойств надежности; – обнаруженные ошибки не исправляются; – измерение надежности проводится для зафиксированной конфигурации ПО. Примером таких моделей является модель Нельсона, Рамамурти–Бастани и др.[3]. Модель Нельсона основывается на выполнении k-прогонов программы при тестировании и позволяет определить надежность по формуле: R (k) = exp [– t j (t)], где t j – время выполнения j-прогона, (t) = –[ln(1–q i )j] и при q i 1 интерпретируется как функция интенсивности отказов. Оценочные модели основываются на серии тестовых прогонов и проводятся на этапах тестирования системы. В тестовой среде определяется вероятность отказа программы при ее тестировании или выполнении. Эти типы моделей могут применяться на этапах ЖЦ и могут быть следующих видов [7-11]. Модели без подсчета ошибок основаны на измерении интервала времени между отказами и позволяют спрогнозировать количество ошибок, оставшихся в программе. К этим моделям относятся модели Джелински и Моранды, Шика Вулвертона, и Литвуда–Вералла. Модели с подсчетом отказов базируются на количестве ошибок, обнаруженных на заданных интервалах времени. К этому классу моделей относятся модели Шика–Вулвертона, Шумана, Пуассоновская модель и др. Модели с подсевом ошибок основаны на количестве устраненных ошибок и подсеве, внесенном в программу искусственных ошибок, тип и количество которых заранее известны. При внесении изменений в программу проводится повторное тестирование и оценка надежности. Этот подход базируется на тестировании и редко используется из-за дополнительного объема работ для покрытия тестами компоненты системы. Модели с выбором области входных значений основываются на генерации множества тестовых выборок из входного распределения. К этому типу моделей относится модель Нельсона и др. На процессах выявления отказов, их интенсивности используются еще такие группы: 1) модели, рассматривающие интенсивность отказов, как Марковский и пуассоновский процесс; 2) модели роста надежности. Четкой границы между этими моделями провести нельзя, однако по фактору распределения интенсивности отказов и их поведения можно разделить на экспоненциальные, логарифмические, геометрические, байесовские и др. Для практической оценки надежности более всего представляет интерес оценочная модель Мусы, Мусы-Окомото и др. Рассмотрим их. |