Черкесов Г. Н. Надежность аппаратно-программных комплексов.. Надежностьаппаратнопрограммных
Скачать 2.81 Mb.
|
/ Г. Н. Черкесов НАДЕЖНОСТЬ АППАРАТНО-ПРОГРАММНЫХ КОМПЛЕКСОВ Рекомендовано Министерством образования Российской Федерации в качестве учебного пособия по дисциплине Надежность, эргономика и качество для студентов высших учебных заведений, обучающихся по направлению подготовки дипломированных специалистов Информатика и вычислительная техника и направлению подготовки бакалавров и магистров Информатика и вычислительная техника» 300.piter.com Издательская программа лучших учебников для высшей школы в честь 300-летия Санкт-Петербурга осуществляется при поддержке Министерства образования РФ Москва • Санкт-Петербург Нижний Новгород • Воронеж Ростов-на-Дону Екатеринбург Самара • Новосибирск Киев Харьков Минск 0 0 5 ББК 32.973-04я7 УДК Рецензенты: Кафедра Системный анализ и управление СПбГПУ А. М, доктор технических наук, профессор, заслуженный деятель науки и техники РФ Черкесов Г. Н Надежность аппаратно-программных комплексов. Учебное пособие. — СПб.: Питер, 2005. — 479 с ил. ISBN В учебном пособии дается систематическое изложение аналитических методов оценки надежности аппаратно-программных комплексов и практических методов обеспечения надежности. Данная книга является усовершенствованным вариантом учебного пособия Г. Н. Черкесова «Основы теории надежности АСУ, которое было опубликовано в году и прошло многолетнюю апробацию в учебном процессе СПбГТУ и других вузов. Рекомендовано Министерством образования Российской Федерации в качестве учебного пособия по дисциплине Надежность, эргономика и качество для студентов высших учебных заведений, обучающихся по направлению подготовки дипломированных специалистов Информатика и вычислительная техника и направлению подготовки бакалавров и магистров Информатика и вычислительная техника». ББК 32.973-04я7 УДК Все права защищены. Никакая часть данной книги не может быть воспроизведена в какой бы тони было форме без письменного разрешения владельцев авторских прав. Информация, содержащаяся в данной книге, получена из источников, рассматриваемых издательством как надежные. Тем не менее, имея ввиду возможные человеческие или технические ошибки, издательство не может гарантировать абсолютную точность и полноту приводимых сведений и не несет ответственности за возможные ошибки, связанные с использованием книги © ЗАО Издательский дом Питер, 2005 Предисловие Одной из центральных проблем при проектировании, производстве и эксплуатации автоматизированных систем обработки информации управления (АСОИУ) является проблема обеспечения надежности. Как и многие другие технические системы, АСОИУ имеют в своем составе сложные комплексы технических средств. Поэтому многие вопросы теории и практики надежности АСОИУ могут рассматриваться как общетехнические. Вместе стем специфика АСОИУ требует в ряде случаев особого подхода и специальных методов анализа и повышения надежности. К особенностям АСОИУ следует отнести прежде всего то, что они являются сложными техническими комплексами и оснащаются разнообразными программными средствами, образующими функциональное (ФПО) и системное (СПО) программное обеспечение. Программное обеспечение (ПО) является наиболее развитой по структуре и функциональным связям составной частью аппаратно- программных комплексов (АПК) АСОИУ. Дефекты ПО могут проявляться случайным образом в случайные моменты времени и иметь последствия, аналогичные последствиям, вызванным отказом техники, а именно потерю отдельных функций или задержку их выполнения, искажение информации или управляющих воздействий. Более того, при сложном взаимодействии технических и программных средств часто трудно идентифицировать первоисточник нарушения правильного функционирования АПК. Поэтому важно не только обеспечить высокую надежность ПО, но и учесть ее при оценке надежности АСОИУ в целом. Особенностью АСОИУ является также то, что не все отказы ее элементов являются явно и могут быть обнаружены визуально, как это например, при отказах двигателей или генераторов тока. Чтобы обнаруживать отказы в АСОИУ, создают специальные средства контроля и диагностирования (СКД). От их характеристик зависят доля своевременно и достоверно обнаруживаемых отказов и, как следствие, уровень надежности и его количественные оценки. Вопросы контроля и диагностирования являются предметом рассмотрения самостоятельной учебной дисциплины и здесь подробно не излагаются. Но элементарные сведения из этой дисциплины активно используются. При изложении вопросов повышения надежности учитывается современная тенденция проектирования АСОИ, состоящая в компоновке сложных систем из Предисловие агрегированных средств вычислительной и информационной техники, серийно изготавливаемых промышленностью. Принимается во внимание также подтвержденный практикой проектирования факт, состоящий в том, что многие системы не могут эффективно функционировать без включения в них специализированной аппаратуры. Поэтому значительное место в книге занимает изложение методов повышения надежности отдельных приборов и устройств, входящих в состав АСОИУ. Особое внимание уделено изложению общих принципов и методик анализа надежности система также общих свойств основных методов ее повышения. Поскольку для повышения надежности АСОИУ используются различные методы резервирования, подробно излагаются методы и технические приемы не только традиционного структурного, но и других видов резервирования функционального, информационного, временного, алгоритмического. Схемотехнические вопросы реализации методов повышения надежности имеют здесь подчиненное значение, так как они подробно изучаются в других учебных дисциплинах. Для понимания приводимых в книге результатов анализа и оценки надежности читателю необходимы знания по математике в объеме стандартного курса технического вуза, в том числе по комбинаторике, операционному исчислению, интегральным преобразованиям, теории вероятности и математической статистике, теории случайных процессов, а также элементарные сведения из специальных разделов теории и техники АСОИУ. Введение Автоматизированные системы обработки информации и управления представляют собой совокупность технических средств, алгоритмов управления, методов и средств информационного и программного обеспечения, объединенных для выполнения функций управления. Технические средства включают в себя сложные комплексы измерительной, вычислительной техники, средств связи, автоматики, отображения, регистрации и архивирования информации, исполнительных механизмов, вспомогательной и обеспечивающей аппаратуры. Для того чтобы технические средства воспроизводили алгоритмы функционирования так, как это было предусмотрено разработчиками при проектировании, аппаратура должна быть достаточно надежной, приспособленной к своевременному обнаружению и устранению отказов. От насколько в АСОИУ удалось исключить отказы или уменьшить их количество и вероятность появления, устранить или уменьшить их влияние на процесс управления, зависит не только качество, но и безопасность управления. Система управления принимает участие в предунреждении и устранении аварийных ситуаций в объекте управления и самане должна провоцировать негативные процессы в автоматизированном технологическом комплексе (АТК), состоящем из двух тесно взаимодействующих составных частей объекта управления и системы управления. Поэтому задача обеспечения высокой надежности становится одной из ключевых задач теории и практики проектирования, производства и эксплуатации АСОИУ. Современная теория надежности занимается в основном вопросами надежности техники, за более чем летнюю историю своего развития она накопила большое количество полезных, проверенных на практике результатов. Казалось бы, это может служить залогом успешного и беспроблемного решения задачи обеспечения надежности АСОИУ. Однако это не так. В последние десятилетия проблема повышения надежности не только не ослабела, но, напротив, значительно обострилась. Это связано с действием ряда объективных причин, обусловленных бурным техническим прогрессом в новой области техники — информатике ивы- числительной технике. Одна из причин — непрерывный рост сложности аппаратуры, который значительно опережает рост качества элементной базы, хотя последний, по абсолютным оценкам, тоже настолько велик, что производит большое впечатление при сравнении с некоторыми другими областями техники Введение Второй причиной можно считать значительное расширение диапазона условий эксплуатации техники. В зависимости от назначения она работает в условиях высокой или низкой температуры окружающей среды, при повышенном или пониженном давлении, высокой или низкой влажности, при больших механических нагрузках вибрационного и ударного типов, в условиях действия повышенной радиации, агрессивных сред, негативных биологических факторов. Безусловно, не все отказы аппаратуры являются неизбежными, каждый из них имеет свою причину или группу причин. Если причины известны, на них можно воздействовать с целью предупреждения отказа. Однако сведения о процессах, происходящих в аппаратуре, не всегда оказываются достаточными. Чтобы такие сведения получить, систематизировать и учесть при проектировании и производстве, необходимы немалое время и немалые средства, которыми создатели систем часто не располагают. Многие системы стареют морально раньше, чем физически. Поэтому зачастую инженеры вместо совершенствования уже созданных систем разрабатывают новые. Исходя из опыта предыдущей работы они исключают одни ошибки, но вместо них появляются другие, вызываемые различием систем и условий их эксплуатации. По меткому выражению Д. Ллойда и М [1.1], эволюционный процесс накопления знаний входит в конфликт с революционной атмосферой проектирования. Ненадежность техники оборачивается большими экономическими потерями. Так, по данным национального симпозиума США по вопросам надежности, стоимость эксплуатации многих систем превышает их покупную стоимость в 1,5-2 раза за один год работы 10-12 раз завесь период жизни. Однако это еще не все негативные последствия. Ненадежность вызывает недоверие к технике и, как следствие, снижение ее технической эффективности. Проблема надежности систем управления приобретает особое значение из-за большой значимости выполняемых ими функций и высокой цены отказа. Даже при довольно редких отказах ущерб, вызванный отключением системы управления или ее неправильным срабатыванием, может превысить выгоду, получаемую в периоды ее работоспособного состояния. Например, ущерб, вызванный отказом аппаратуры управления производственным процессом в химической, металлургической промышленности или в энергетике может в сотни раз превысить стоимость самой аппаратуры управления. Отказ релейной защиты (стоимость несколько сотен долларов) энергосистемы северо-восточной части США вызвал перебои в энергоснабжении ряда штатов и принес 300 млн. долларов убытков. В некоторых случаях отказ системы управления может вызвать серьезные экологические последствия и даже гибель людей. Говоря о другой составной части АСОИУ — программном обеспечении следует отметить, что оно также заметно влияет на надежность системы. Без правильно и эффективно работающего программного комплекса (ПК) АСОИУ превращаются просто в дорогую груду металла. Нарушение работоспособности ПК часто приводит к не менее тяжелым последствиям, чем отказы техники, но найти причину нарушения бывает крайне тяжело. Неправильная работа программ может провоцировать отказы технических устройств, устанавливая для них более тяжелые условия функционирования, поэтому вопросам обеспечения и поддер- Введение 1 5 жания надежности ПК всегда уделялось внимание. Однако методы оценки надежности ПК стали разрабатываться совсем недавно. До сих пор теория надежности не имеет методик расчета надежности ПО, исследованных столь же тщательно, как методики для оценки надежности технических средств. Вместе стем отдельные результаты таких исследований вызывают определенное доверие разработчиков ПК и вполне могут быть использованы в проектной практике. Некоторые их этих результатов приведены ив книге. Наконец, следует отметить, что теория надежности — это общетехническая дисциплина, имеющая собственный предмет исследования, собственные методы и свою область применения. Поэтому многие излагаемые далее результаты имеют более широкое применение, чем область АСОИУ. Что касается специальных разделов теории надежности, ориентированных на использование при проектировании АСОИУ, то они также могут быть полезны опытному читателю, работающему в других областях техники, в той части, которая содержит изложение методики подходов к построению моделей надежности и использованию для этого современного математического аппарата. Книга содержит большое количество примеров, иллюстрирующих методы и методики расчета надежности, общие результаты анализа надежности, свойства методов обеспечения надежности. Перечень литературы и ссылки на источники по всем разделам дают читателю возможность продолжить свое образование по узким вопросам теории надежности, самостоятельно изучая техническую литературу монографического характера. Автор надеется, что такое построение книги будет способствовать активному усвоению читателем материала, поможет ему развить критический взгляд на достоинства и недостатки излагаемых здесь моделей надежности, подготовиться к самостоятельной деятельности в области обеспечения надежности аппаратно- программных комплексов От издательства Ваши замечания, предложения и вопросы отправляйте но адресу электронной почты (издательство Питер, компьютерная редакция). Мы будем рады узнать ваше мнение! Подробную информацию о наших книгах вы найдете на веб-сайте издательства http://www.piter.com. Глава Основные понятия. Надежность Надежность является фундаментальным понятием теории надежности, с помощью которого определяются другие понятия Надежность есть свойство объекта сохранять во времени в установленных пределах значения всех параметров, характеризующих его способность выполнять требуемые функции в заданных режимах и условиях применения, технического обслуживания, хранения и транспортирования Остановимся на некоторых особенностях этого понятия. Во-первых, как следует из определения, надежность есть внутреннее свойство объекта, заложенное в него при изготовлении и проявляющееся вовремя эксплуатации. Для количественной оценки надежности, как и любого другого свойства объекта, необходима таили иная мера, являющаяся ее характеристикой. Надежность нельзя свести ник одной ее характеристике. Вторая особенность надежности состоит в том, что она проявляется во времени. Если нет наблюдения за объектом во времени, то нельзя сделать никаких заключений о его надежности. Этим она существенно отличается от таких свойств объекта, как дефектность, точность и пр. Дефектность можно установить специальными измерениями в течение сравнительно небольшого времени, определяемого количеством измеряемых параметров и временем каждого измерения и составляющего несколько минут или часов [6]. Для того чтобы составить представление о надежности, необходимы наблюдения за группой объектов в течение тысяч или десятков тысяч часов. Можно сказать также, что дефектность и точность отражают начальное значение качества объекта, а надежность отражает устойчивость начального качества во времени. Третья особенность надежности заключается в том, что она по-разному проявляется при различных условиях эксплуатации и различных режимах применения объекта. При изменении режимов и условий эксплуатации изменяются и характеристики надежности. Нельзя оценить надежность объекта, не уточнив условия его эксплуатации и режимов применения 1 8 Глава 1. Основные понятия При определении понятия надежность для обозначения обладателя этого свойства и предмета анализа используется понятие объект. В технической литературе по надежности для этих же целей часто используют также понятие «изделие». Однако эти понятия не являются синонимами и поэтому требуют пояснения. Объект (технический объект) — это предмет определенного целевого назначения, рассматриваемый на этапах выработки требований, проектирования, производства и эксплуатации. Объектами, в частности, могут быть технические комплексы, программные комплексы, установки, устройства, машины, аппараты, приборы, агрегаты, отдельные детали и пр. Изделие — это промышленная продукция. В Единой системе конструкторской документации изделием называют любой предмет или набор предметов, подлежащих изготовлению на производстве. К техническим объектам относятся нелюбые промышленные изделия, а только такие, каждый экземпляр которых в процессе эксплуатации (применения по назначению) не подвергается постепенному расходованию. У данных изделий стечением времени расходуется только технический ресурс. С этой точки зрения не является объектом банка смазочного материала, хотя, несомненно, она является изделием. Это не значит, что понятие «изделие» нельзя употреблять при анализе надежности. Далее под изделием будем понимать любую единицу промышленной продукции, количество которой может исчисляться в штуках или экземплярах. К объектам относятся также совокупности (комплексы, системы) изделий, совместно выполняющие определенные функции или задачи, даже если они не связаны между собой конструктивно (например, линии радиосвязи, системы энергетики и др. Работоспособность. Отказ. Неисправность. Восстановление Одно из основных требований теории надежности — это необходимость установить принадлежность всех возможных состояний объекта к одному из двух противоположных классов работоспособные и неработоспособные. Работоспособным называют такое состояние объекта, при котором значения всех параметров, характеризующих способность выполнять заданные функции, соответствуют требованиям нормативно-технической и/или конструкторской (проектной) документации. Неработоспособным будет такое состояние, при котором значение хотя бы одного из параметров не соответствует требованиям документации. У большинства технических объектов не существует четкой границы между этими классами состояний. Однако в теории надежности промежуточные состояния не рассматриваются. Чтобы оценить надежность, надо сделать эту границу четкой в рамках рассматриваемой модели надежности. Это весьма непростая задача, и решается она путем обсуждения с участием компетентных лиц со стороны разработчика и заказчика (пользователя) объекта. Однако далеко не всегда задача разбиения всех состояний по принципу «всё или ничего может быть успешно решена. Тогда вводятся несколько уровней работоспособности и понятия полной и частичной работоспособности. Для многофунк- 1.2. Работоспособность. Отказ. Неисправность. Восстановление циональных систем возможна ситуация, когда при выполнении каждой функции удается разделить все состояния на работоспособные и неработоспособные, но возможны состояния, при которых одни функции выполняются, а другие — нет. Тогда уровни работоспособности выделяют по способности выполнять все функции, группу функций, определенные функции. Для оценки надежности таких объектов могут применяться векторные показатели. Если же это неудобно, применяют свертку векторного показателя в скалярный, трактующийся как показатель эффективности. С переходом из работоспособного состояния в неработоспособное и обратно связаны особые события в процессе функционирования объекта, называемые, соответственно, отказом и восстановлением Отказ — это событие, состоящее в нарушении работоспособного состояния объекта Восстановление — это событие, заключающееся в переходе объекта из неработоспособного состояния в работоспособное в результате устранения отказа путем перестройки (реконфигурации) структуры, ремонта или замены отказавших частей. Этим же термином обозначают и процесс перевода объекта из неработоспособного состояния в ботоспособное. Всякий отказ связан с нарушениями требований документации. Ноне всякое нарушение требований приводит к отказу. Оно приводит к событию, называемому неисправностью, к возникновению неисправного состояния. Поэтому можно различать неисправности, не приводящие к отказами неисправности или их сочетания, вызывающие отказ. Отказы можно классифицировать по различным признакам [2], [5]. По скорости изменения параметров до возникновения отказа различают внезапные и постепенные отказы Внезапный отказ — это отказ, характеризующийся скачкообразным изменением значений одного или нескольких параметров объекта Постепенный отказ — это отказ, возникающий в результате постепенного изменения значений одного или нескольких параметров объекта. Такое деление весьма условно, так как большинство параметров изменяется с конечной скоростью, поэтому четкой границы между этими классами не существует. К постепенным отказы относят в тех случаях, когда изменения параметров легко прослеживаются, позволяя своевременно предпринять меры по предупреждению перехода объекта в неработоспособное состояние. По характеру устранения различают устойчивый, самоустраняющийся и перемежающийся отказы Устойчивый отказ всегда требует проведения мероприятий по восстановлению работоспособности объекта. Самоустраняющийся отказ, или сбой, устраняется в результате естественного возвращения объекта в работоспособное состояние безучастия или при незначительном вмешательстве оператора, причем время устранения отказа мало или близко к нулю. Перемежающийся отказ это многократно возникающий самоустраняющийся отказ одного итого же характера. Как правило, для его устранения требуется вмешательство оператора. По характеру проявления различают явные (латентные) отказы. Явный отказ обнаруживается визуально или штатными методами и средствами контроля и диагностирования при подготовке объекта к применению или в процессе его применения по назначению. Скрытый отказ выявляется при проведении 20 Глава 1. Основные понятия технического обслуживания или специальными методами диагностирования. Задержка в обнаружении скрытого отказа может привести к неправильному срабатыванию алгоритмов, некорректной обработке информации, выработке ошибочных управляющих воздействий и другим неблагоприятным последствиям. При наличии нескольких уровней работоспособности различают полный и частичные отказы. Переход на уровень частичной работоспособности называют частичным отказом. Полная потеря работоспособности возникает при полном отказе. В многофункциональной системе полный отказ при выполнении одной из функционально самостоятельных операций может означать только частичный отказ для системы в целом, если потеряна одна или часть функций, а остальные могут В некоторых устройствах и элементах возможны отказы двух типов. В резисторах, полупроводниковых диодах, транзисторах, реле и ряде других элементов могут возникать отказы типа обрыв и типа короткое замыкание. В первом случае падает до нуля проводимость, а во втором — сопротивление в любых или в определенном направлении. В устройствах, назначение которых состоит в формировании определенного сигнала в ответ на определенные сочетания сигналов на входах, например в логических элементах, дискретных датчиках, устройствах контроля и диагностирования, регуляторах, также возможны отказы двух типов: отсутствие сигнала, когда он должен быть сформирован, и появление сигнала, когда его не должно быть (ложный сигнал). По первопричине возникновения различают конструктивный, производственный и эксплуатационный отказы Конструктивный отказ возникает по причине, связанной с несовершенством или нарушением установленных правили или норм проектирования и конструирования. Производственный отказ связан с несовершенством или нарушением технологического процесса изготовления или ремонта (на ремонтном предприятии, а эксплуатационный отказ — с нарушением правили или условий эксплуатации, при возникновении непредусмотренных внешних воздействий или воздействий высокой интенсивности. Безотказность. |