Апраратное резервирование. Аппаратное резервирование. Httpbookasutp ruChapter8 aspx Аппаратное резервирование Страница 1 Аппаратное резервирование
Скачать 1.3 Mb.
|
http://bookasutp.ru/Chapter8_1.aspx Аппаратное резервирование Страница 1 Аппаратное резервирование Резервирование является практически единственным и широкое используемым методом кардинального повышения надежности систем автоматизации. Оно позволяет создавать системы аварийной сигнализации, противоаварийной защиты, автоматического пожаротушения, контроля и управления взрывоопасными технологическими блоками [ Денисенко ] и другие, относящиеся к уровням безопасности SIL1...SIL3 по стандарту МЭК 61508-5 [ МЭК ], а также системы, в которых даже короткий простой ведет к большим финансовым потерям (системы распределения электроэнергии, непрерывные технологические процессы). Резервирование позволяет создавать высоконадежные системы из типовых изделий широкого применения. Составной частью систем с резервированием является подсистема автоматического контроля работоспособности и диагностики неисправностей. Большая доля отказов в системах автоматизации приходится на программное обеспечение. Однако этой теме посвящено множество специализированных книг и журнальных статей (см., например [ Черкесов ]), поэтому мы ее касаться не будем. 1. Основные понятия и определения Основные определения понятий теории надежности и надежности, связанной с функциональной безопасностью, даны в ГОСТ 27.002-89 [ ГОСТ ] и МЭК 61508 [ МЭК - МЭК ]. Ниже приводится ряд определений, которые потребуются нам для дальнейшего изложения. Неисправностью называется состояние объекта, при котором он не соответствует хотя бы одному своему параметру, указанному в эксплуатационной документации. Неработоспособностью называется состояние объекта, при котором он не способен выполнять хотя бы одну из своих функций, описанных в эксплуатационной документации. Например, контроллер, у которого отказал один из каналов ввода, является работоспособным, но неисправным, если этот канал не используется. Дефектом называется каждое отдельное несоответствие объекта установленным требованиям (ГОСТ 15467-79) [ ГОСТ ]. Отказом называется событие, заключающееся в нарушении работоспособности объекта. Факт отказа устанавливается на основании некоторых критериев отказа, т.е. признаков, позволяющих судить о нарушении работоспособности. В результате отказа объект становится неисправным. Отказы возникают вследствие применения ненадежных схемотехнических решений на стадии проектирования контроллеров, электронных компонентов, изготовленных с нарушением техпроцесса, применения некачественных материалов, нарушения технологических режимов пайки, неточной установки компонентов на печатную плату, старения материалов, некачественного технологического оборудования, низкой культуры производства, отсутствия надежных методов контроля, работы компонентов в предельных электрических режимах, нарушений условий эксплуатации и т. п. http://bookasutp.ru/Chapter8_1.aspx Аппаратное резервирование Страница 2 Наработкой называется продолжительность работы объекта, выражаемая в единицах времени или в количестве циклов (например, циклов срабатывания реле). Различают наработку до отказа (от начала эксплуатации до первого отказа) и наработку между отказами (от начала работы после ремонта до очередного отказа). Используют также средние значения этих величин. Среднюю наработку между отказами называют наработкой на отказ, в отличие от средней наработки до отказа. Безотказность - свойство объекта непрерывно сохранять работоспособность в течение некоторого времени или наработки. Живучесть - свойство объекта сохранять ограниченную работоспособность при неисправностях или отказе некоторых компонентов. Этот термин наиболее близок международному термину "fault-tolerance" (дословно - "допустимость неисправностей"), который часто переводят как "отказоустойчивость". Термин "отказоустойчивость" в ГОСТ 27.002-89 используется, но его значения стандартом не определено. Мы будем использовать его в сочетании "отказоустойчивая система" как более компактный синоним понятия "система, обладающая свойством безотказности после отказа отдельных элементов". Вероятность безотказной работы - вероятность того, что в пределах заданной наработки отказ не возникнет. Коэффициент готовности - вероятность того, что объект окажется работоспособным в произвольный момент времени, кроме запланированных периодов, в течение которых его работа по назначению не предусматривается. Высокая готовность системы обеспечивается избыточностью, допустимостью сбоев, автоматическим контролем ошибок и диагностированием (ГОСТ Р 51840-2001 [ ГОСТ ]). Резервирование может быть общим, когда резервируется система в целом, и раздельным (поэлементным), когда резервируются отдельные элементы системы. В случае, когда в системе много однотипных элементов (например, модулей ввода сигналов термопар), число резервных элементов может быть в несколько раз меньше, чем резервируемых. Кратность резерва - отношение числа резервных элементов к числу резервируемых, которое выражается несокращаемой дробью. В частности, в соответствии с ГОСТ 27.002-89, кратность резерва 3:2 нельзя представлять как 1,5 и иногда используемый термин "полуторное резервирование" не соответствует стандарту. При сокращении дроби исчезает важная информация об общем количестве элементов в системе. Дублированием называют резервирование с кратностью резерва один к одному. Постоянное резервирование (к нему относится мажоритарное резервирование и метод голосования) - резервирование с нагруженным резервом, при котором все элементов в резервированной системе выполняют одну и ту функцию и являются равноправными, а выбор одного из сигналов на их выходе выполняется схемой "голосования", без переключений. Постоянное резервирование позволяет получить системы с самым высоким коэффициентом готовности. Резервирование замещением - резервирование, при котором функции основного элемента передаются резервному только после отказа основного элемента. http://bookasutp.ru/Chapter8_1.aspx Аппаратное резервирование Страница 3 Резервирование замещением может быть с холодным, теплым или горячим резервом. Его недостатком является зависимость от надежности переключающих устройств. Нагруженный резерв ("горячий резерв") - резервный элемент, который находится в таком же режиме, как и основой. Недостатком горячего резерва является уменьшение ресурса с течением времени. В системах автоматизации с горячим резервом переход на резерв может занимать время от нескольких миллисекунд до единиц секунд. Облегченный резерв ("теплый резерв") - резервный элемент, находящийся в менее нагруженном состоянии, чем основной. Например, резервный компьютер в "спящем" режиме является облегченным резервом. Ненагруженный резерв ("холодный резерв") - резервный элемент, находящийся в ненагруженном режиме до начала его использования вместо основного элемента. Ненагруженный резерв позволяет получить системы с самой высокой надежностью, но с низким коэффициентов готовности. Они эффективны в случае, когда система некритична к времени простоя величиной в несколько минут. Основное отличие между "горячим", "холодным" и "теплым" резервом состоит в длительности периода переключения на резерв. При горячем резервировании контроллеров время переключения составляет от единиц миллисекунд до долей секунды, при теплом - секунды, холодном - минуты. Поэтому время переключения на резерв иногда рассматривают как основной признак при классификации резервирования замещением. Надежность - это свойство объекта сохранять во времени значения всех параметров и выполнять требуемые функции в заданных условиях применения. Надежность является составным понятием. Оно может включать в себя понятия безотказности, долговечности, ремонтопригодности, сохраняемости. В промышленной автоматизации для количественной оценки надежности чаще всего используется параметр "наработка на отказ" или "интенсивность отказов", а в системах безопасности - "вероятность отказа при наличии запроса" [ Смит , МЭК ]. Интенсивностью отказов называется условная плотность вероятности возникновения отказа объекта, определяемая при условии, что до рассматриваемого момента времени отказ не возник. При испытаниях на надежность количество исправных элементов с течением времени уменьшается за счет того, что часть из них становятся неисправными через время в результате отказа. Интенсивность отказа определяется пределом = ( (1) Длительность безотказной работы элемента (от момента включения до ) является случайной величиной, поэтому ее можно характеризовать вероятностью , где - число исправных элементов в момент времени , - число исправных элементов в момент времени . При конечном числе испытуемых элементов вместо вероятности получают ее точечную статистическую оценку. http://bookasutp.ru/Chapter8_1.aspx Аппаратное резервирование Страница 4 Вероятность безотказной работы можно интерпретировать следующим образом: если в системе автоматизации используется 100 модулей ввода-вывода, каждый из которых имеет вероятность безотказной работы =0,99 в течение времени =1 год, то через год после начала эксплуатации в среднем один из модулей станет неработоспособен. Поделив числитель и знаменатель в (6.1) на , получим ( (2) Выражение для функции распределения длительности безотказной работы можно получить, решая дифференциальное уравнение (2) при начальном условии : ( (3) Вероятность отказа , по определению, равна ( ( 4) Интенсивность отказов обычно быстро уменьшается в начале эксплуатации изделия (период приработки), затем длительное время остается постоянной ( ) и после исчерпания срока службы резко возрастает. Поскольку для средств промышленной автоматизации как правило, указывают значение , выражение (3) в этом случае упрощается: Таким образом, вероятность безотказной работы устройства на интервале времени от до экспоненциально уменьшается с течением времени, если устройство прошло этап приработки и не выработало свой ресурс. Эта вероятность не зависит от того, как долго устройство проработало до начала отсчета времени [ Черкесов , Александровская ], т.е. не играет роли, используется бывшее в употреблении устройство, или новое. Это кажущееся парадоксальным утверждение справедливо только для экспоненциального распределения и объясняется тем, что выражение (5) получено в предположении, что снижение ресурса изделия с течением времени не происходит, а причины отказов распределены во времени в соответствии с моделью белого шума. ( (5) http://bookasutp.ru/Chapter8_1.aspx Аппаратное резервирование Страница 5 Вероятность отказа за время , по определению, равна , а плотность распределения времени до отказа (частота отказов) равна производной от функции распределения: ( (6) и для экспоненциальной функции распределения (5) равна ( (7) Зная плотность распределения (7), можно найти среднюю наработку до первого отказа , которая, по определению, является математическим ожиданием случайной величины - длительности безотказной работы , т.е. ( (8) Интегрирование в (8.8) выполняется по частям. Наработка до отказа является основным параметром, который указывается в эксплуатационной документации на электронные средства промышленной автоматизации. Поскольку при из (5) получается , то наработку на отказ можно интерпретировать следующим образом: если в системе автоматизации имеется 100 модулей ввода-вывода, то через время после начала эксплуатации останется в среднем 37 работоспособных и 63 отказавших модулей. Иногда наработку на отказ неправильно интерпретируют как время, в течение которого устройство почти наверняка будет работоспособно, и только после истечения этого времени наступит отказ. При анализе надежности систем, связанных с безопасностью, вместо вероятности отказа используется понятие "вероятность отказа при наличии запроса" (подробнее см. раздел "Функциональная безопасность" ), т. е. вероятность отказа при наличии необходимости быть в состоянии готовности. Например, если рассматривается система охраны нефтебазы, то нужно учитывать вероятность отказа системы во время попытки проникновения нарушителей на базу, а не в то время, когда их нет. Отсюда следует вывод, что с точки зрения надежности охраны нужно рассматривать вероятность несрабатывания датчика охранной сигнализации на интервале времени, в течение которого может появиться нарушитель, и не нужно учитывать вероятность ложного срабатывания системы, поскольку она не влияет на выполнение функции охраны. Классическая же теория надежности учитывает оба вида отказов. http://bookasutp.ru/Chapter8_1.aspx Аппаратное резервирование Страница 6 В системах, связанных с безопасностью, наработка до отказа рассматривается отдельно для опасных и безопасных отказов. Безопасным считается отказ, не вызывающий опасную ситуацию на объекте. Рассмотрим, например, систему аварийного отключения, в которой исчезновение питания приводит к обесточиванию обмотки реле и поэтому реле отключает нагрузку, переводя ее тем самым в безопасное состояние. В такой системе отказ источника питания обмотки реле является безопасным отказом и поэтому не учитывается при расчете вероятности отказа при наличии запроса. Однако отказ такого же источника питания в системе автоматического пожаротушения, когда необходимо, наоборот, подать напряжение на насосы, рассматривается как опасный отказ. Поэтому средняя вероятность отказа при наличии запроса в двух рассмотренных системах будет различной несмотря на применение блока питания с одним и тем же значением наработки до отказа. Учет обычной наработки до отказа при проектировании систем безопасности может привести к неоправданно заниженным показателям надежности и невозможности достижения требуемого уровня безопасности. Фактические значения наработки до отказа систем с резервированием оказываются гораздо ниже расчетных. Это связано с существованием так называемых отказов по общей причине (ООП), которые происходят одновременно у основного элемента и резервного и которые составляют основную долю отказов в системах автоматизации. Предположим, например, что резервированная система находится в помещении, которое оказалось затопленным водой или охваченным пожаром. Отказ основного элемента и резерва при этом наступит одновременно. Другим примером может быть одновременный обрыв основного и резервного кабеля в результате земляных работ. Третьим примером может быть применение двух контроллеров с процессорами из одной и той же партии, которая была изготовлена с применением просроченной паяльной пасты. Следующим примером может быть применение двух датчиков давления одной и той же конструкции, от одного и того же производителя, которые окислились и разгерметизировались одновременно. Электромагнитный импульс молнии или импульс в сети электропитания может явиться причиной отказа основного и резервного оборудования одновременно. Во всех приведенных примерах существует сильная корреляция между случайными величинами, вызывающими отказ основного и резервного элемента. Для уменьшения коэффициента корреляции (снижения влияния общих причин отказов) нужно по возможности выбирать элементы системы от разных производителей, выполненные на разных физических принципах, с применением различных материалов, различных технологических процессов и с разным программным обеспечением. Основное и резервное оборудование, включая кабели, датчики и исполнительные механизмы желательно разносить территориально, а монтаж основной и резервной системы должны выполнять разные люди или разные монтажные организации, чтобы исключить появление одинаковых ошибок монтажа и одинаково ошибочную интерпретацию руководства по эксплуатации монтируемого изделия. Общие факторы, влияющие на всю систему, учитываются в моделях отказа как последовательно включенное звено со своей наработкой на отказ. http://bookasutp.ru/Chapter8_1.aspx Аппаратное резервирование Страница 7 2. Резервирование ПЛК и устройств ввода-вывода Несмотря на существование большого разнообразия методов резервирования, в промышленной автоматизации получили распространение только два из них: горячее резервирование замещением (hot standby) и метод голосования (2oo3 voting, 1oo2 voting и др.). Реже используется теплый резерв (warm standby). Целью резервирования может быть обеспечение безотказности или обеспечение безопасности. Методы резервирования, используемые для достижения этих двух целей, существенно различаются. Основное различие состоит в том, что для обеспечения безопасности достаточно снизить вероятность только опасных отказов, в то время как для обеспечения безотказности требуется обеспечить работоспособность системы при всевозможных отказах. Поэтому системы, связанные с безопасностью, получаются проще, чем отказоустойчивые системы при условии одинаковой наработки до отказа. 2.1. Общие принципы резервирования В основе метода резервирования лежит очевидная идея замены отказавшего элемента исправным, находящемся в резерве. Однако реализация этой идеи часто становится достаточно сложной, если необходимо обеспечить минимальное время перехода на резерв и минимальную стоимость оборудования при заданной вероятности безотказной работы в течение определенного времени (наработки). Для замены отказавшего элемента достаточно иметь резервный (запасной) элемент на складе. Однако продолжительность ручной замены составляет единицы часов, что для многих систем автоматизации недопустимо долго. Сократить время вынужденного простоя позволяет применение контроллеров и модулей ввода-вывода с разъемными клеммными соединителями и с возможностью "горячей замены" [ Боломытцев ] при условии наличия развитой системы диагностики неисправности. Для обеспечения возможности "горячей замены" необходимо предусмотреть следующее: защиту от статического электричества, которое может возникать на теле оператора, выполняющего замену устройства; необходимую последовательность подачи напряжений питания и внешних сигналов. Для этого используют, например, разъемы с контактами разной длины и секвенсоры внутри устройства; защиту системы от броска тока, вызванного зарядом емкостей подключаемого устройства, например, с помощью токоограничительных резисторов или отдельного источника питания; защиту устройства от перенапряжения, короткого замыкания, переполюсовки, превышения напряжения питания, от ошибочного подключения; программируемые устройства должны быть заранее запрограммированы, в сетевые устройства должен быть записан правильный адрес и предусмотрена подсистема автоматической регистрации нового и исключения старого устройства из сети; в алгоритмах автоматического регулирования должен быть предусмотрен "безударный" режим смены контроллера или модулей ввода-вывода [ Денисенко ]. |