Лекции надежность. Конспект лекций по дисциплине Диагностика и надежность автоматизированных систем Новосибирск2014 2 содержание
Скачать 1.19 Mb.
|
Новосибирский государственный технический университет Факультет: Мехатроники и автоматизации Кафедра: Электротехнических комплексов Малозёмов Б.В. Конспект лекций по дисциплине Диагностика и надежность автоматизированных систем Новосибирск-2014 2 СОДЕРЖАНИЕ Предисловие 3 Лекция 1. Основные понятия надежности информационных систем (ИС) и пути её обеспечения. 4 Лекция 2. Показатели надежности невосстанавливаемых ИС. 10 Лекция 3. Показатели надежности восстанавливаемых устройств технических объектов ИС. Зависимость надёжности от времени. 17 Лекция 4. Методика оценки безотказности нерезервированных систем. 25 Лекция 5. Надежность невосстанавливаемых и нерезервированных ИС. 30 Лекция 6. Структурное резервирование и его виды. 36 Лекция 7. Расчет характеристик надежности невосстанавливаемых резервированных систем. 45 Лекция 8. Надежность резервированных устройств с последовательно- параллельной структурой (метод свертки). 51 Лекция 9. Оценка надежности методом путей и сечений. Логико- вероятностные методы анализа сложных систем. 55 Лекция 10. Расчет надежности восстанавливаемых систем (метод дифференциальных уравнений). 62 Лекция 11. Марковские модели для оценки надежности резервированных восстанавливаемых ИС. 67 Лекция 12. Приближенные методы расчета ИС. 71 Лекция 13. Надежность программного обеспечения ИС. 74 Лекция 14. Методы введения структурной избыточности в программы. 79 Лекция 15. Модели надежности программ. 85 Лекция 16. Надежность отказоустойчивых систем (ОУС). Назначение и свойства ОУС, примеры реализации. 93 Лекция 17. Методы и алгоритмы автоматического восстановления ИС. 101 Лекция 18. Задачи оптимального резервирования ИС. 106 Заключение. 114 Литература. 116 3 Предисловие Проблема надёжности информационных систем (ИС) является комплексной, системотехнической. Производственный опыт и теоретические исследования свидетельствуют, что нельзя добиться значительного увеличения надёжности отдельными разрозненными мероприятиями. Совместное проведение многих мероприятий объединенных в систему не только увеличивает эффективность каждого из них, но и даёт возможность получить качественно новые результаты. Надёжность ИС определяется надёжностью её элементов и аппаратуры, надёжностью программного обеспечения, управляющего выполнением вычислительного процесса, а также использованием средств контроля и восстановления системы. Пользователя компьютерной техники интересует только получение правильных результатов вычислений за заданное время. Для достижения этой цели необходимо, чтобы всё названные составляющие обладали необходимой надёжностью. Для разработки эффективной системы мероприятий по обеспечению надёжности ИС нужно ясное понимание студентами идей, лежащих в основе многих различных методов оценки и повышения надёжности, позволяющее им трезво оценить возможности и особенности применения этих методов. Цель курса лекций «Надёжность информационных систем» – освещение вопросов, связанных с обеспечением высокой надёжности информационных систем. В лекциях изложены вопросы оценки и расчёта надёжности аппаратурных и программных средств ИС на основе статистических, структурных и эксплуатационных моделей, вопросы надёжности ПО, надежность ОУС, задачи оптимального резервирования ИС. Данный курс базируется на знаниях общих и профилирующих дисциплин. Учебным планом для этой дисциплины отводится: общее количество лекционных часов – 36, практических часов – 18, лабораторных – 18 часов. Надеюсь, что курс лекций по надёжности ИС будет полезен магистрам, аспирантам и широкому кругу специалистов, связанных с проектированием и разработкой высоконадёжных информационных и технических систем. 4 Лекция 1 Тема: Основные понятия надёжности информационных систем и пути её обеспечения План 1. Основные определения и понятия надёжности технических систем (ИС). 2. Задачи теории надёжности, основные причины определяющие внимание к проблеме надёжности ИС. 3. Классификация отказов ИС, стандартизированные определения показателей надёжности. 4. Средства повышения и обеспечения надёжности. Перспективные методы обеспечения надёжности ИС. Ключевые слова Надёжность, информационные системы, классификация отказов, внезапный отказ, постепенный отказ, сбой, безотказность, сохраняемость, ремонтопригодность, восстанавливаемые системы, обслуживаемые, необслуживаемые, высоконадёжный элемент, резервирование, аппаратная избыточность, программное обеспечение, контроль, диагностика, встроенные средства, типовые элементы замены, самопроверяемые устройства, самовосстановление, отказоустойчивость, работоспособность. Информационная система – это сложная человеко-машинная система, включающая в свой состав эргатические звенья, технические средства и программное обеспечение. Использование современных компьютеров и компьютерных систем (КС) может иметь место при условии их достаточно надежной работы. Основными причинами, определяющими повышенное внимание к проблемам надежности являются: рост сложности аппаратуры и появление сложных высокопроизводительных компьютерных систем КС; медленный рост уровня надежности комплектующих элементов; увеличение важности выполняемой аппаратурой функций; усложнение условий эксплуатации и др. Надежность компьютеров и КС определяется, с одной стороны, отсутствием отказов, сбоев и ошибок в работе устройств, с другой возможностью восстановления аппаратуры и вычислительного процесса. Основными задачами теории надежности являются: методы анализа надежности элементов и систем; установление видов количественных показателей надежности; выработка методов аналитической оценки надежности; 5 разработка методов оценки надежности по результатам испытаний; оптимизация надежности на стадиях разработки и эксплуатации. При определении основных терминов и понятий в области надежности (например, отказ, восстановление, само понятие надежности и др.) будем следовать нормативно-техническим документам системе государственных стандартов «Надежность в технике», описываемая ГОСТ.24.701-86. Основным понятием в теории надежности является понятие системы. Под системой понимают совокупность элементов, взаимодействующих между собой в процессе выполнения заданных функций. Например, в качестве систем могут рассматриваться КС, вычислительный комплекс, автоматическая система управления движением космического корабля, судна, микропроцессорная система и др. Объекты, образующие системы представляют собой элементы системы. Элементом системы называют часть системы, которая имеет самостоятельную характеристику надежности, используемую при расчетах и выполняющую определенную функцию в интересах системы. Примерами элементов для систем, перечисленных выше, могут служить соответственно ЗУ-КС, мини-микро ЭВМ вычислительного комплекса, исполнительный механизм рулевого привода и т.д. Каждый из этих элементов можно рассматривать в качестве системы, состоящей из более мелких элементов. Элементы и системы могут находится в двух состояниях: работоспособном и неработоспособном. Работоспособным называется такое состояние системы (элемента), при котором они способны выполнить заданные функции, сохраняя значения заданных параметров в пределах установленных нормативно-технической документацией (НТД). Неработоспособным называется состояние системы, при котором значение хотя бы одного параметра, характеризующего способность выполнять заданные функции, не находится в переделах, установленных, нормативно-технической документацией. Событие, заключающееся в нарушении работоспособности системы, т.е. в переходе её из работоспособного в неработоспособное состояние, называется отказом. Отказы объектов могут классифицироваться по многим признакам, например по характеру возникновения, внешним проявлениям, способам обнаружения. Приведем классификацию отказов по основным признакам (табл. 1). Таблица 1 Классификационный признак Значение классификационного признака Вид отказа 1 Характер измене- ния параметров объекта до воз- никновения отказов Скачкообразное изменение одного или нескольких параметров Внезапный отказ Постепенное изменение одного или нескольких параметров Постепенный отказ 6 2 Взаимосвязь отказов Отказ элемента объекта не обусловлен отказами других элементов объекта Независимый отказ элемента Отказ элемента объекта обусловлен отказами других элементов объекта Зависимый отказ элемента 3 Происхождение отказов Нарушение норм и методов конструирования Конструкционный отказ Нарушение процесса изготовления, ремонта, технологии Производственный отказ Нарушение условия эксплуатации объекта Эксплуатационный отказ 4 Устойчивость неработоспособного состояния (характер воздействия отказа) Неработоспособность сохраняется устойчиво Устойчивый отказ Неработоспособность сохраняется кратковременно, затем восстанавливается Самоустраняющийся отказ (сбой) Неработоспособность одного и того же характера возникает и самоустраняется многократно Перемежающийся отказ При анализе надежности конкретного объекта классификация его отказов позволяет выявить причины отказов и найти пути повышения надежности. Отметим, что в общей массе отказов в вычислительных машинах и микропроцессорных системах преобладают сбои, т.е. самоустраняющиеся отказы. Под сбоем логического элемента КС понимается непредусмотренное изменение состояния этого элемента, после которого работоспособность самовосстанавливается (без проведения ремонта). Сбои приводят к кратко- временному нарушению работоспособности, они опасны для компьютеров, КС, любых ИС так как приводят к искажению информации и к неправильному функционированию системы. На основании использования понятий работоспособности и отказа сформулируем понятие надежность [1, 2, 3]. Основные стандартизованные определения показателей надежности Надежность – свойство объекта (ИС) сохранять во времени в установленных пределах способность выполнять требуемые функции в заданных режимах и условиях применения, технического обслуживания, ремонтов, хранения и транспортирования. Надежность является комплексным свойством включающим в себя безотказность, ремонтопригодность и сохраняемость. Безотказность – свойство системы или элемента непрерывно сохранять работоспособное состояние в течение некоторого времени или некоторой наработки. Под наработкой понимают объем работы объекта (системы). 7 Сохраняемость – свойство системы непрерывно сохранять исправное, работоспособное состояние в течение всего времени хранения. Ремонтопригодность – свойство системы или элемента, заключающееся в приспособлении к предупреждению, обнаружению и устранению причин возникновения отказов путем проведения ремонтов и технического обслуживания. Объекты делятся на восстанавливаемые и невосстанавливаемые, в зависимости от того какое решение должно быть принято в случае отказа объекта. Таким образом можно видеть, что понятие надежности является фундаментальным понятием, которое охватывает все стороны технической эксплуатации элементов и систем. В свою очередь надежность является составной частью более широкого понятия – эффективности. Под эффективностью понимается свойство системы (элемента) выполнять заданные функции с требуемым качеством. Средства повышения надежности ИС В настоящее время, можно выделить несколько основных направлений работ по повышению надежности ИС и микропроцессорных систем [1,35,52]. 1. В первую очередь надежность ИС достигается за счет использования в ней высоконадежных элементов. Это достигается применением в устройствах ИС интегральных схем с высокой степенью интеграции (интенсивность отказов в ИС 10 -6 ÷10 -8 1/ч), использованием оптических элементов, а также внедрением новых типов печатных плат, контактных соединений, новых технологий ИС и т.д. 2. Вторым направлением повышения надежности являются обеспечение оптимальных режимов работы элементов. Большое значение при этом имеет выбор коэффициента нагрузки по тепловому, механическому и радиационному режиму. Режимы зависят от конструкции устройств, от принятых технических решений, которые необходимо учитывать в процессе проектирования. 3. Эффективным средством повышения надежности технических систем является введение избыточности или резервирования. Резервирование – применение дополнительных средств и возможностей с целью сохранения работоспособного состояния объекта при отказе одного или нескольких его элементов. В компьютерах, КС используются различные виды резервирования: структурное, временное, функциональное, информационное и программное. 4. Эффективным методом повышения надежности является восстановление отказавших устройств. Здесь необходимо решить задачи, связанные с обнаружением отказа и с поиском отказавших элементов. Эффективность диагностирования повышается при использовании автоматизированных систем контроля. 8 Одним из средств повышения надежности является уменьшение времени восстановления. Время восстановления сокращается за счет обеспечения доступности всех узлов устройства для осмотра, т.е. определяется ремонтопригодностью разрабатываемых конструкций. В настоящее время широко используется модульно-блочный принцип построения устройств, при которых замена отказавших элементов осуществляется путем замены целых блоков. Снятые блоки уже вне изделия подлежат восстановлению на специальных стендах с использованием контрольно-измерительных приборов. 5. Для повышения надежности компьютеров, КС, ИС необходимо обеспечить надежность программного обеспечения. Надежность программного обеспечения может быть увеличена за счет программного резервирования и использования средств автоматического контроля за правильностью выполнения вычислительного процесса. Наличие системы автоматического контроля способствует увеличению готовности и обслуживаемости ИС. 6. Одним из перспективных путей достижения высоких показателей надежности ИС является их построение на базе использования самопроверяемых средств функционального диагностирования, создание самопроверяемых устройств и отказоустойчивых систем. Из всех перечисленных особо можно отметить проблему контроля и диагностирования. Анализ надежности элементов ИС показывает, что примерно 40-45% всех отказов возникает из-за ошибок на этапе проектирования, 20% от ошибок, допущенных при производстве, 30% от неправильной эксплуатации и 5-10% от естественного износа и старения. Рассмотрим основные методы обеспечения надежности на этапах жизненного цикла ИС, которые могут быть включены в программы по обеспечению надежности. Этап составления технического задания. На этом этапе необходимо собрать все имеющиеся данные об аналогичных или близких реализованных системах, а также данные об условиях применения технических систем и требованиях предъявляемых к ним (функциям, выполняемым рассматриваемой системой). Этап эскизного проектирования. На этапе эскизного проектирования выбирается элементная база, структура и организация разрабатываемой системы. Проводится предварительный расчет надежности, принимается решение о резервировании наименее надежных подсистем, а также решения о способах и организации технического обслуживания (профилактических и ремонтных работ). Исследуется вопрос о целесообразности и способах реализации методов автоматического восстановления и отказоустойчивости в системе. Этапы технического и рабочего проектирования. На этих этапах проверяются и уточняются ранее принятые технические решения. Основой для этого служат данные о надежности, полученные на основании расчетов и 9 результаты экспериментов над моделями, макетами, опытными и промышленными образцами. Разрабатывается программное обеспечение системы и проводится её проверка по тестам (путем имитационного моделирования на модели разрабатываемой ТС). Этап производства. Здесь основным является технический контроль, охватывающий все стадии производственного процесса (входной контроль качества комплектующих изделий, соответствия тех. документациям печатных плат, блоков, устройств, схемных соединений и т.д.) и устранение недостатков в разработке системы. Этап эксплуатации. На этом этапе важными являются контроль и обеспечение условий окружающей среды, квалификация и состав обслуживающего персонала, организация и проведение технического обслуживания и ремонтов в предусмотренном порядке. В период эксплуатации продолжается сбор сведений об отказах аппаратуры и программного обеспечения. Эти сведения передаются разработчикам с целью устранения причин отказов и уточнения исходных данных для расчета надежности. Контрольные вопросы и задания 1. Дайте определение понятию «надежность». 2. Перечислите основные задачи теории надежности. 3. В каких состояниях могут находится элементы и системы ИС? 4. Что такое отказ? Какой вид отказа преобладает в компьютерах и КС? 5. Какие свойства включает в себя надежность? 6. На какие виды делятся объекты ИС? 7. Определите существующие пути повышения надежности элементов и устройств ИС. 8. Назовите наиболее перспективный метод обеспечения надежности современных компьютеров? 9. В каких состояниях могут находится элементы и устройства ИС? 10. Какие свойства включает в себя надежность? Литература: 1,2,3,6, 10. 10 Лекция 2 Тема: Показатели надёжности невосстанавливаемых информационных систем План 1. Вероятностное описание элементов технических систем (ИС). 2. Понятие восстанавливаемых и невосстанавливаемых систем, области применения. 3. Количественные показатели надёжности невосстанавливаемых устройств ИС. 4. Расчетные формулы для статистической, вероятностной оценки параметров ИС. Ключевые слова Восстанавливаемые системы, невосстанавливаемые устройства, статистическая оценка, вероятностная оценка, вероятность безотказной работы, отказ, сбой, интенсивность отказа, частота отказа, наработка на отказ, наработка до отказа, вероятность отказа, приближенный расчет, точная оценка. Показателями надежности называются количественные характеристики одного или нескольких свойств, составляющих надежность системы. Отказы и сбои элементов и систем являются случайными событиями, поэтому теория вероятностей и математическая статистика – это основной аппарат, используемый при исследовании надежности, следовательно показатели надежности являются вероятностными показателями. К числу наиболее широко применяемым количественным характеристикам надежности относятся [2, 9]: вероятность безотказной работы (ВБР) в течение определенного времени – P(t); средняя наработка до первого отказа – Т ср. ; вероятность отказа – Q(t); наработка на отказ – t ср .; частота отказов – а(t); интенсивность отказов – λ(t); интенсивность восстановления – µ; параметр потока отказов – w(t); функция готовности – К г (t); коэффициент готовности – К г ; коэффициент оперативной готовности – К о.г 11 Выбор количественных характеристик надежности зависит от вида объекта, – восстанавливаемого или невосстанавливаемого. Восстанавливаемыми называют такие объекты (ТС, их подсистемы, элементы), которые в процессе выполнения своих функций допускают ремонт. Если произойдет отказ такого объекта, то он вызовет прекращение функционирования объекта только на период устранения отказа. К таким изделиям относятся: компьютер, телевизор, блок питания, автомобиль и т.д. Обслуживаемая система – система для которой предусматривается проведение регулярного технического обслуживания. Необслуживаемая система – система для которой не предусматривается проведение регулярного технического обслуживания. Невосстанавливаемые объекты в процессе выполнения своих функций не допускают ремонта. Если происходит отказ такого объекта, то выполняемая операция будет сорвана и её необходимо начинать вновь, если возможно устранение отказа. К таким объектам относятся как объекты однократного действия (ракеты, управляемые снаряды, искусственные спутники Земли, системы подводной связи и т.п.), так и объекты многократного действия (некоторые системы навигационного комплекса судового оборудования, системы ПВО, системы управления воздушным движением, ответственными производственными процессами и т.д.) Показатели надежности невосстанавливаемых элементов. Вероятность безотказной работы Р(t) выражает вероятность того, что невосстанавливаемый объект не откажет к моменту времени наработки t (наработка может быть выражена как календарное время, как время работы, как число циклов работы или в виде другой меры проделанной объектом работы). Показатель обладает следующими свойствами: 1. Р(0) = 1 (предполагается, что до начала работы объект является безусловно работоспособным); 2. 0 ) ( lim t t P (предполагается, что объект не может сохранять свою работоспособность неограниченно долго); 3. dP(t)/dt ≤ 0 [предполагается, что объект не может после отказа спонтанно восстанавливаться (для объектов, восстанавливаемых обслуживающим персоналом, этот показатель не используется)]. t – время, в течение которого определяется вероятность безотказной работы. ВБР по статистическим данным об отказах оценивается выражением: No t n No t P / )) ( ( ) ( ˆ , (1) где No – число объектов в начале испытания; n(t)– число отказавших объектов за время t; ) ( ˆ t Р – статистическая оценка ВБР. 12 На практике более удобной характеристикой является вероятность отказа Q(t). Дополнение ВБР до единицы: ) ( 1 ) ( t P t Q (2) называется вероятностью отказа. Вероятность отказа Q(t)– вероятность того, что случайное время до отказа меньше заданного времени t. Отказ и безотказная работа являются событиями несовместимыми и противоположными, поэтому ) ( 1 ) ( t P t Q , а статистическая оценка вероятности отказа равна: No t n t Q / ) ( ) ( ˆ (3) Функция Q(t) совпадает с функцией распределения времени F(t): t t dx x f t F t Q 0 ) ( ) ( ) ( , (4) где ƒ t (х) – функция плотности распределения времени до отказа; х – переменная интегрирования. Тогда показатель надежности [1]: t t t t dx x f dx x f t P t Q ) ( ) ( 1 ) ( 1 ) ( 0 (5) В качестве показателя надежности неудобно использовать функциональную зависимость, например, Р(t). Поэтому в технических условиях (ТУ) обычно задают отдельные ординаты (одну или две) функции Р(t) при значениях t, выбираемых из нормированного ряда t = 100; 500; 1000; 2000; 5000; 10000 ч. Частота отказов представляет собой плотность распределения времени безотказной работы или производную от вероятности безотказной работы, поэтому ) ( ) ( ) ( t P t Q t a . (6) Для определения величины а(t) используется следующая статистическая оценка: t No t n t а / ) ( ) ( ˆ , (7) 13 где n(∆t) – число отказавших объектов в интервале времени от (t-∆t/2) до (t+∆t/2), No – число объектов в начале испытания. Между частотой отказов, вероятностью безотказной работы и вероятностью появления отказа имеются следующие зависимости: t dt t а t Q 0 ) ( ) ( , (8) t dt t а t Р 0 ) ( 1 ) ( (9) Интенсивность отказов λ(t) выражает интенсивность процессов возникновения отказов. Вероятностная оценка этой характеристики находится из выражения ) ( / ) ( ) ( t P t a t . (10) Для определения величины λ(t) используется следующая статистическая оценка t N ) t ( ) t ( ˆ ср. n , (11) где N ср. =(N i +N i+1 )/2 – среднее число исправно работающих объектов в интервале времени ∆t. Интенсивность отказов и вероятность безотказной работы связаны между собой зависимостью: t 0 ) t ( ) t ( dt е Р (12) Если λ(t)= λ=const, то тогда t е t Р ) ( и t е t а ) ( соотношение характеризует экспоненциальное распределение безотказной работы. Для высоконадежных систем, если Р(t)≥0,99, то а(t)≈λ(t). Опыт эксплуатации ИС показывает, что интенсивность отказов λ(t) в течение времени t изменяется как показано на рис. 1 как видно, функцию можно разделить на три участка. На первом участке 0 – t 1 интенсивность отказов высока и уменьшается с течением времени. На этом участке 14 выявляются грубые дефекты производства и сам участок I носит название участка приработки. Для блоков ИС длительность этого участка составляет десятки, иногда сотни часов. Рис. 1. Изменение интенсивности отказов λ(t) во времени Второй (II) участок t 1 –t 2 , участок нормальной эксплуатации, характерен тем, что интенсивность отказов имеет постоянное значение, длительность участка составляет тысяча и десятки тысяч часов. На третьем участке (III) t 2 –∞ из-за усиления процессов старения элементов интенсивность отказов начинает возрастать. Время t 2 может служить временем, при достижении которого аппаратура должна сниматься с эксплуатации 0 0 0 ) ( | ) ( ) ( dx x P t P t dx x f t t М Т ср (13) Первый член в (1.13) стремится нулю, когда t=0, а также когда t→∞, так как получающаяся неопределенность ) ( lim t P t t при встречающихся на практике функциях Р(t) стремится к нулю. Следовательно, 0 0 0 0 0 ) ( ) ( | ) ( - ) ( ) ( ] [ dt t P dt t P t tP t dP t dt t f t T М Т ср Средняя наработка до отказа (среднее время безотказной работы) представляет собой математическое ожидание наработки объекта до первого отказа, следовательно, 0 ) ( dt t P Т ср Для экспоненциального закона распределения времени безотказной работы имеем λ=const I II III t 1 t 2 t 0 (t) 15 1 0 dt е Т t ср (14) Для определения средней наработки до отказа используется следующая статистическая оценка: No t Т No t i ср / ˆ 1 , (15) где t i – время безотказной работы i-го объекта; No – число испытуемых объектов. Таким образом, рассмотренные характеристики позволяют достаточно полно оценить надежность невосстанавливаемых объектов. Они также позволяют оценить надежность восстанавливаемых изделий до первого отказа. Наличие нескольких критериев вовсе не означает, что нужно оценивать надежность объекта по всем критериям. Интенсивность отказов – наиболее удобная характеристика надежности простейших элементов, так как она позволяет более просто вычислить количественные характеристики надежности сложной системы. Наиболее целесообразным параметром надежности является вероятность безотказной работы, это объясняется следующими особенностями вероятности безотказной работы: она входит в качестве сомножителя в другие, более общие характеристики системы, например, в эффективность и стоимость; характеризует изменение надежности во времени; может быть получена расчетным путем в процессе проектирования системы и оценена в процессе её испытания. |