Лекции надежность. Конспект лекций по дисциплине Диагностика и надежность автоматизированных систем Новосибирск2014 2 содержание
Скачать 1.19 Mb.
|
Контрольные вопросы и задания 1. Определите виды ошибок в КС которые можно исправить с помощью маскирования. 2. Дайте определение понятию «реконфигурация». 3. Что такое динамическая и статическая реконфигурация. 4. Постройте граф состоянии и переходов процесса восстановления в отказоустойчивых КС. 5. Что называется контрольной точкой в вычислительном процессе? 6. Определите понятие «программный рестарт». 7. Какой вид отказа является наиболее жестким в теории надежности? 8. Назовите основные метод автоматического восстановления в КС. Литература: 1, 2, 3, 5, 10. 106 Лекция 18 Тема: Задачи оптимального резервирования отказоустойчивых ИС План 1. Прямая и обратная задачи резервирования в отказоустойчивых систем (ОУС). 2. Метод множителей Лагранжа для нахождения оптимального резерва в ОУС. 3. Градиентные метод оптимизации надежности . 4. Расчетные формулы. Графическая зависимость доминирующей последовательности ОУС. Ключевые слова Резервирование, отказоустойчивость, высоконадежные системы, задачи оптимизации, метод множителей Лагранжа, оптимальное резервирования, градиентных метод, экстремум функции, доминирующая последовательность, стоимостный показатель. Задачи оптимального резервирования компьютерных систем Как уже отмечалось, резервирование является одним из простых и достаточно эффективных методов повышения надежности. Однако при резервировании возникает задача не только обеспечить заданные показатели надежности, но добиться этого как можно более экономично, с наименьшими суммарными затратами на резервные элементы для системы в целом, либо при заданных ресурсных ограничениях достичь максимально возможной надежности. Задача оптимального резервирования чаще возникает в отказоустойчивых системах позволяющих пользователю или функциональной программе продолжать работу и тогда, когда в аппаратных или программных средствах системы возникают отказы. При проектировании таких систем следует стремиться не только к достижению необходимой их надежности, но и к достижению этой надежности при минимальных средствах, т.е. к нахождению оптимального решения. В отказоустойчивых компьютерных системах и машинах существует ряд параметров, от которых зависит надежность системы. Сюда относится количество резервных элементов, устройств или подсистем; параметры систем контроля и диагностики; характеристики системы программного обеспечения; величины, характеризующие архитектуру, конфигурацию работы системы и другие: ) Q P, M,..., , ( ) ( C F t R 107 Надежность представляется в виде функциональной зависимости от перечисленных параметров. В качестве подобных ограничивающих ресурсов можно рассмотреть стоимость, массу, габаритные размеры, потребляемую мощность и т.п. Выбор вида ограничивающего ресурса определяется конкретным типом системы и ее назначением. Часто выделяют одну наиболее важную характеристику – стоимость. Обычно в задачах оптимального резервирования предполагается, что стоимость резерва для системы в целом: m i i i m m C m m C 1 1 ) ( ) ,..., ( где i m – число резервных блоков в i-ой подсистеме КС; и кроме того, сама стоимость резерва i-й резервной группы определяется как: i i i i m c m C ) ( где i c – стоимость одного блока в i-ой подсистеме КС. При наличии одного ограничивающего фактора (стоимости) возможны постановки двух следующих задач оптимального резервирования [1, 3, 13]. 1. Прямая задача. Раздельным резервированием системы, состоящей из m-резервных групп, добиться того, чтобы показатель надежности был не менее заданного R зад при минимально возможной стоимости резерва в целом, т.е.: } ) ,..., ( | ) ,..., ( { min 1 1 зад m m i m R m m R m m C 2. Обратная задача. Раздельным резервированием системы, состоящей из m-резервных групп, добиться того, чтобы при максимально возможном показателе надежности системы R стоимость всего резерва не превысила заданного значения С зад , т.е.: } ) ,..., ( | ) ,..., ( { max 1 1 зад m m i m C m m C m m R , если в качестве показателя надежности выбрать ВБР Р с , то: } ) ( | ) ( { max зад i i i c i m C m C m P , где С i – стоимость одного блока в i-й подсистеме компьютера или КС; m i – число резервных блоков в i-й подсистеме компьютера или КС; C зад – заданное значение стоимости резервных блоков машины или КС; P c – вероятность безотказной работы КС за время Т. Суть оптимизационной задачи, заключающейся в повышении надежности системы путем резервирования при ограничениях на суммарную 108 стоимость, можно пояснить на двух простых частных случаях. Допустим, что все элементы системы равнонадежны и в каждой резервной группе имеется ровно по одному основному элементу. В этом случае приоритет по резервированию сначала получают те группы, элементы которых характеризуются наименьшей стоимостью. Если же элементы имеют равную стоимость, то сначала следует резервировать наименее надежные резервные группы. В более сложных случаях, когда резервные группы содержат различное число элементов, а сами элементы в различных группах различаются и по показателям надежности, и по стоимости, для определения оптимального состава резервных элементов в системе требуется использовать специальные алгоритмы решения оптимизационных задач [13, 15, 18]. Экспериментальные задачи (задачи нахождения экстремума функции min или max) с ограничениями могут быть решены аналитически (с использованием метода неопределенных множителей Лагранжа) и с помощью численных методов: метода перебора и градиентного метода. При решении оптимизационных задач могут быть ограничения на массу, стоимость, габариты и другие характеристики системы. Рассмотрим, как может быть сформулирована оптимизационная задача резервирования с учетом одного параметра – стоимости. Задача оптимизации компьютерных систем по показателю надежности заключается в таком резервировании каждой из подсистем, которое доставляет максимальную безотказность всей системы при заданных ограничениях на ее стоимость – С(m i ) ≤ С зад , или можно найти вектор m i , представляющий собой решение задачи: } ) ( | ) ( { max зад i i i c i m C m C m P где m i – число резервных блоков в i-й подсистеме ВС; С i – стоимость одного блока в i-й подсистеме; C зад – заданное значение стоимости резервных блоков ВС; P c – вероятность безотказной работы КС за время Т. Может быть решена и обратная задача. Оптимальное распределение резервов в КС на уровне процессоров, устройств или подсистем рассмотрим с использованием аналитического приближенного метода неопределенных множителей Лагранжа. Пусть имеем систему с нагруженным резервом, подключенным по схеме поэлементного резервирования. Каждая из n-подсистем (процессоры, ОЗУ, ПУ и др.) имеют m i -1 резервов. Вероятность безотказной работы (ВБР) i-й подсистемы ( n l i , ) обозначается через Р i . Тогда ВБР системы Р с выражается как: 109 n i i m i c P P 1 ] ) 1 ( 1 [ (1) Чтобы упростить формулу, допустим, что 1 1 i i q p , где q i – вероятность отказа i-й подсистемы. Тогда вероятность отказа системы Q: n i i m i q m Q 1 ) ( , (2) где m = (m 1 , m 2 ,…, m n ). Масса, габариты или стоимость системы выражается в виде линейной зависимости: n i i i m c m C C 1 ) ( , (3) где c i – стоимость i-й подсистемы. Необходимо определить min Q(m) при условии, что C(m) ≤ С зад , где С зад – заданное значение стоимости системы. Искомыми являются значения m i , минимизирующие вероятность отказа Q. Поскольку Q(m) и C(m) монотонные зависимости, то условие типа неравенства может быть заменено условием типа равенства, а задача решена методом неопределенных множителей Лагранжа. Функция Лагранжа F(m) имеет следующий вид: )) ( ( ) ( ) ( m С C m Q m F зад , (4) где ξ – неопределенный множитель Лагранжа. Совместное решение необходимых условий экстремума (4): 0 ) ( i m m F , (5) и условие типа равенства: ) (m С C зад , (6) позволяют определить n оптимальных значений m i и соответствующее им значение неопределенного множителя ξ. Подставляя Q(m), C(m), из (2), (3) в 4, а F(m) из (4) в (5) получим следующую систему уравнений: 0 ) ln( i i m i c q q , откуда, ) ln( ) ln( i i i q m , (7) 110 где α i = c i / ln(q i ). Для определения ξ поставим m i , из в (6), тогда: n i i i i i n i i зад q c C 1 1 )) ln( ) (ln( )) (ln( ) ) (ln( (8) В последнем выражении изменены знаки сомножителей ξ и α i , т.е. вместо ξ и α i написано (-ξ) и (-α i ) для того, чтобы можно было логарифмировать, так как α i ≤ 0. Следовательно, решение существует только в случае, когда ξ – отрицательная величина. Выражая ln(-ξ) и подставляя, получим окончательное выражение для оптимальных значений m i : )] ln( ) ( )) ln( ( [ )) (ln( 1 1 1 i n i i i n i i i i Cзза q m , (9) При второй постановке задачи решение осуществляется согласно (min (max) φ(x), H x) ( где Н – ограничение, налагаемое на показатель надежностиП(х)) на основании следующей функции Лагранжа: )) ( ( ) ( ) ( 1 m Q Q m C m F зад , где η – неопределенный множитель Лагранжа; Q зад – заданное значение вероятности отказа. Решая совместно уравнения 0 ) ( 1 i m m F при n , 2, 1, i и Q(m) Q зад , получим вқражение для оптимальных кратностей резервирования: ) ) ( ) ( ln( )) (ln( 1 1 n i i зад i i i Q q m (10) Приведенные выражения являются приближенными из-за необходимости округления результата. Ошибка получается особенно большая при малых m i . Кроме того, аналитический метод позволяет получить решение в явном виде только при простейших моделях надежности. Оптимальное распределение резервов численными методами Задача оптимального резервирования может быть решена не только аналитически (методом неопределенных множителей Лагранжа), но и 111 численными методами. Численные методы определения оптимального резерва позволяют найти более точное решение, и особенно эффективны при малом числе резервных подсистем. К численному методу относится метод перебора, когда сравнивают между собой все возможные варианты структуры. Затем выбирают из них тот, который лучше всего отвечает установленным требованиям по надежности. Однако число вариантов получается практически весьма большое, поэтому метод перебора может быть использован только в простейших случаях. Обозначим количество конкурирующих вариантов N b . Для структуры сложной КС типа N b определяется произведением: n 1 i b N iM m , где n i 1 – общее число подсистем; iM m – максимально возможное число параллельных подсистем i-го типа. Например, 10 n и 10 iM m , при n C , 1 , тогда N b = 10 10 , это практически исключает возможность перебора. Рассмотрим возможность сокращения числа вариантов при переборе. Введем понятие доминирующий последовательности и рассмотрим график вариантов технический решений в координатах: стоимость С – вероятность отказа Q (рис.1). Рис. 1. Графическая иллюстрация доминирующей последовательности Каждый вариант этом графике представляется точкой. Из всех вариантов заданной стоимости С интерес представляют только варианты, обладающие минимальной вероятностью отказа Q. Из вариантов при заданной (ими меньшей) вероятности отказа Q интересны только варианты, отличающиеся минимальной стоимостью С. Отсюда следуют, что из всего Q C 112 множества вариантов интерес представляют только те, которые находятся снизу и слева. Подмножество этих вариантов, перспективных с точки зрения поиска оптимального варианта, называется доминирующей последовательностью. На рис. 1 доминирующая последовательность обведена. Мощность (количество элементов) доминирующей последовательности обычно намного меньше мощности множества вариантов. Поэтому легко выбирать оптимальное решение из вариантов, входящих в доминирующую последовательность. Численные методы позволяют построить доминирующую последовательность поэлементно, – до достижения заданной надежности при минимальной стоимости или до достижения минимальной стоимости при заданной надежности. При структурной оптимизации важно найти эффективный способ ограничения количества рассматриваемых вариантов. Эффективным методом является градиентный метод заключается в пошаговом поиске максимума критерия типа ∆lg(Q)/(∆С), т.е. отношения приращения логарифма вероятности отказа системы к приращению стоимости [1, 12, 42, 49]. Градиентный метод позволяет определить часть элементов доминирующей последовательности, т.е. некоторые элементы могут отказаться пропущенными. Поэтому получаемые этим методом результаты следует рассматривать как приближенные или проводить дополнительный поиск. Пример оптимального распределения резервов. Пусть имеется система, состоящая из четырех подсистем, т.е. n = 4. подсистемы характеризуются стоимостями C i и вероятностями отказа за заданное время q i : 15 , 0 25 , 0 3 , 0 2 , 0 5 , 4 4 , 3 3 , 2 2 , 1 4 3 2 1 i i q C i Требуется построить систему, обладающую вероятностью безотказной работы Р ≥ 0,99 при минимальной стоимости С. Первоначальное состояние системы, когда нет резервов, описываются вектором состояний ) 1111 ( ) m m m ( 4 3 2 1 m m . Сравнение вариантов (2111), (1211), (1121) и (1112) происходит по критерию ∆lg(Q)/∆С, обеспечивающего максимум критерия. Используя приведенные выше формулы находим приближенное решение задачи. Величина оптимального распределения резерва m = (5543). 113 Контрольные вопросы и задания 1. Что такое резервирование? 2. Какие виды структурного резервирования широко распространены на практике? 3. Для каких компьютерных систем решаются задачи оптимального резервирования? 4. Какие аналитические и численные методы используются при оптимальном резервировании КС? 5. Определите суть метода Лагранжа для оптимизации надежности. 6. Дайте формулу для расчета нахождения резервного элемента в КС ответственного назначения. 7. Что такое градиентный метод? 8. Укажите метод при оптимизации резервов в КС, где используется понятие «доминирующая последовательность». Литература: 1, 2, 5, 6, 9, 10. 114 З А К Л Ю Ч Е Н И Е Развитие информационных систем в настоящее время осуществляется по следующим основным направлениям: создание высоконадежных аппаратных и программных средств компьютерной техники; суперкомпьютеров большой производительности; систем с высокой степенью интеллекта; обширных компьютерных сетей с огромными банками данных; персональных компьютеров массового применения; микропроцессорных средств управления для различных машин и аппаратов. Успешная реализация возможностей всех этих направлений предполагает весьма высокую достоверность получаемых с помощью компьютера результатов при ограниченном числе ремонтного персонала. Выполнение этого условия возможно только при систематическом планировании, учете и реализации факторов, обеспечивающих надежность и отказоустойчивость получаемых результатов при высокой степени автоматизации процесса эксплуатации вычислительных средств. Проблема надежности вычислений и достоверности их результатов в ИС существовала всегда. Однако при небольших объемах и скоростях вычислений и при решении не очень ответственных задач отдельные ошибочные результаты легко обнаруживались и не причиняли особого вреда. Неисправность простых и немногочисленных компьютеров того времени тоже можно было легко устранить. В настоящее время в связи с непомерно возросшими объемами и скоростями вычислений и с высокими требованиями к достоверности результатов обработки данных поддерживание работоспособности ИС может быть достигнуто путем его полной автоматизации. Учитывая стремительные темпы дальнейшего роста быстродействия и производительности компьютерных средств, можно с уверенностью сказать, что всякие другие пути поддержания работоспособности ИС, кроме его полной автоматизации, наталкивается на непреодолимые трудности, связанные с нехваткой обслуживающего персонала. Процесс развития ИС не может быть преодолен просто наращиванием компьютерных мощностей. В области обеспечение работоспособности средств компьютерной техники (СКТ) зарождаются новые в принципе технические решения. С одной стороны, эти решения базируются на новой элементной базе, а с другой – на новых логических, структурных и алгоритмических принципах построения СКТ. Существующие технические решения, основанные на трех- или четырех кратном увеличении аппаратуры и программных средств для достижения увеличения устойчивости ИС к отказам и ошибкам вряд ли соответствуют по уровню отработанности и по изяществу замысла другим техническим решениям, принятым в современной компьютерной технике. В данной области существует широкое поле поиска развития общей теории отказоустойчивых КС, так и в плане изобретательской деятельности для решения частных задач. 115 Очевидно, решение проблемы отказоустойчивости ИС тесно связано с проблемой распараллеливания вычислений, построения компьютерных сетей, а возможно, с новыми результатами в области применения теории групп и других отраслей современной математики к развитию арифметических и логических основ построения СКТ. 116 Литература 1. Иыуду К.А Надежность, контроль и диагностика вычислительных машин и систем. М: Высшая школа, 1989-216с 2. Расулова С.С Надежность вычислительных машин и систем. Учебное пособие, ТашГТУ, 1995-60с 3. Расулова С.С Надежность ЭВС. Конспект лекций. ТашГТУ, 2001-90с 4. Расулова С.С. Рашидов А.А. Программа, методические указания, ТашГТУ-2003. 5. Расулова С.С., Рашидов А.А. Построение отказоустойчивых микропроцессорных систем. Ташкент –Mehnat -2004. 6. Расулова С.С. Обеспечение надежности и отказоустойчивости компьютерных систем. Проблемная лекция. ТашГТУ, 2004-27с 7. Дружинин Г.Н. Надежность автоматизированных произвоственных систем. М: Энергаатомиздат 8. Иыуду К.А. Задачи и упражнения по основам эксплуатации электронных приборов. М: МАИ, 1996-120с 9. Самопалов К.Г. и др. Цифровые ЭВМ. Практикум. Киев. Высшая школа. 1990-125с. 10. Бройдо В.Л. Вычислительные системы, сети и телекоммуникации. 2 изд. Учебник. СПб.: «Питер», 2005. глава 20, -703 с. 11. Степанов А.Н. Архитектура вычислительных систем и компьютерных сетей. Учебное пособие. – СПб.: Питер, 2007. -509 с. |