Главная страница

Реферат по курсу Теоретические основы испр


Скачать 213.5 Kb.
НазваниеРеферат по курсу Теоретические основы испр
Дата01.05.2018
Размер213.5 Kb.
Формат файлаdoc
Имя файлаref-2.doc
ТипРеферат
#42573
страница3 из 3
1   2   3


В теории игр существует ряд принципов совместного (коллективного) поведения, удовлетворяющих тем или иным аксиомам выбора (например, арбитражные схемы, вектор Шепли и т. д.). Однако общим их недостатком является статический подход, сводящий все к одноразовому выбору, что с учетом заведомой неравновесности предлагаемого решения вызывает сомнение в его реалистичности. Вместе с тем реальные конфликты подобного типа разрешаются обычно путем переговоров, представляющих собой динамический многошаговый процесс промежуточных предложений и соглашений. Попробуем проинтерпретировать такой процесс с позиций теории игр.

Итак, в результате индивидуальных действий сторон игроки достигли ситуации равновесия. По-видимому, так часто бывает в

109
реальных -конфликтах, когда до некоторого момента их развитие происходит без результативных согласований действий участниками. Далее процесс становится стационарным и игроки осознают постепенно, что без совместных действий они не могут достичь лучших результатов, которые в принципе возможны. В этот момент могут начаться действительно результативные переговоры. Так как в ходе переговоров происходит столкновение интересов, то они также должны описываться игрой, которая является как бы надстройкой над исходной игрой, описывающей реальный конфликт (экономический, торговый, экологический и т. д.).

Эта новая игра является динамической многошаговой игрой с начальной точкой (и°ь и°2), являющейся равновесной ситуацией для исходной игры. На каждой шаге /г по очереди один игрок предлагает новую точку (соглашение) (ЙАЬ й'!2), а другой игрок принимает ее или отклоняет, что может быть описано с помощью булевой переменной 6й. Таким образом получается динамический процесс

и?, б*=1,

<<

= 0, 1=1,2,6=1,2.....

(4.10)

который заканчивается при выходе на паретовское множество, так как далее любое предложение, более выгодное для одного игрока, будет невыгодным для другого. Стратегиями игроков являются последовательности

Й22*-'),62Й, Л =1,2, ...}, й,ай, Й22"), /г=1, 2, ...},

(4.11)

где переменные на каждом шаге являются функциями предыдущих выборов (игра с полной информацией). Новые критерии игроков в динамической многошаговой игре должны быть определены на этих стратегиях и траекториях процесса (4.10). Например, можно взять дисконтированную сумму
4. Анализ динамической модели взаимодействия систем
Динамическую модель рассмотрим для случая двух участников, хотя полученные результаты можно перенести и на дифференциальную игру п лиц.

Процесс функционирования для каждого участника конфликта описывается системой дифференциальных уравнений (4.2). Общий критерий каждого игрока, как и ранее, имеет вид (4.1), где в качестве частных критериев терминального типа, определяемых в силу систем (4.2), примем

Ф4 (<,-)=*<( Л-*ь

ЧЧ<ь и*)<=Мм(Т)-К*}у}(Т), (4.13)

^г{) ^1 - весовые коэффициенты, А,',-, А,г^>0; x^ - <эталонный> уровень, х^О (I, /=1, 2, 1^=1).

<Внутренний> критерий Ф^ оценивает развитие фондов во внутренней (производственной) сфере в сравнении с <эталонным> уровнем. <Внешний> критерий Ч*1,- сравнивает потенциалы участников во внешней сфере с учетом весовых коэффициентов.

Таким образом, рассматривается дифференциальная игра с критериями (4.1), (4.13) и уравнениями движения (4.2). Исследование этой игры начнем со случая постоянных во времени управлений, т. е. когда и,- являются константами из отрезка [О, 1] (такую модель можно назвать квазидинамической). Несмотря на относительную теоретическую простоту такого случая, он представляет интерес в практическом плане, так как реальные данные для больших систем показывают, что управления рассматриваемого типа (например, доля непроизводственных государственных расходов или расходов на оборону) меняются во времени медленно и при сравнительно небольших 'плановых периодах их можно считать . постоянными.

Интегрируя уравнения (4.2) при постоянном управлении, получаем явные выражения для частных критериев:

2

6=0

), 1=1, 2..

(4.12)

Описанная многошаговая игра может быть исследована в традиционной теоретико-игровой манере (например, можно ставить вопрос о существовании равновесных стратегий), однако при описании реальных конфликтов более реалистичным представляется подход, связанный с оценкой и сравнением между собой некоторых эвристических стратегий вида (4.11) на основе имитации процесса (4.10) по критерию (4.12). Такая имитационная (деловая) игра может быть использована при построении системы поддержки принятия решений на переговорах.

где

Ц- ехр [(а{ и1 - ц,) Т] +

У1(Т)= \

--

по

III
Непрерывность функций Ф,-(<,-). ^'(<ь "2), ,1=1, 2, очевидна (втгро-чем, она следует из теоремы о непрерывной зависимости решения линейного дифференциального уравнения от параметра).

Функция Фг>(и,-) является монотонно возрастающей по и{ на [О, 1], следовательно, она унимодальна и <+,-=!. Исследуем функцию 4я,-( аргументу не зависит от <чужого> аргумента и равна

( Ц а,- х° (аг а, - Иг + бг)-2 [а, Т (1 - щ) (а,и, - иг + бг) X X ехр [(а, щ - Цг) Т] - (а, - и,- + бг) (ехр {(а, и, - Иг)Л -

а,-

I ЛлГ

{

^ *1а* I Т [7*(а*^ + бг)-2] ехр (-бг Г), ыг = Заметим, что

т. е. вблизи ы,-=1 функция ^-(<ь ы2) убывает по ы,-. Далее будем считать, что и<^бг, >=1, 2 (при и<<^ анализ только упрощается). Имеем

М <г А;,? (иг - бг)2 [(<г - Иг + бг) (ехр (- бг Т) -- ехр(- м,гГ)) -с

и,=0

-у Я< аг дс{> Г (о, Г-2) ехр (-бг Г), цг = б,.

Если цг > бь то ^

ди,

и,=о

' 0 при

д"1 <г=<Г'<^г-бг> Если иг = бг, то

<0, если выполняется неравенство

0 при

(4.14) (4.15)

(4.16)

Легко убедиться в том, что неравенство (4.15) является следствием неравенства (4; 14).

Условие <ЗЧг,-/д<,-<;0 равносильно тому, что

112

р{|(^,-б,-счщ)Т].

Лемма 4.4. Если выполняется условие (4.14) при'Ц1>йг- или (4.16) при (д,г=б,-, то функция ^-(<ь ы2) монотонно убывает по и* на отрезке '['О, 1].

Лемма 4.5. Если условие (4.14) или (4.16) не выполняется, то существует единственное и{^(0, 1), такое, что функция гРДиь ы2) монотонно возрастает по и{ на '[0, и{), достигает максимума в ы,- и монотонно убывает по ы,- на (иь 1].

Доказательства лемм 4.4, 4.5 основаны на соотношениях между скоростью роста экспоненциальной и квадратичной функции, мы их приводить не будем. Из этих лемм следует, что 4*1 как функции а< унимодальны, и(-е:[0,1) (возможно, Ы|=0) и Ч') возрастают то 1^ при и,^и).

Случай, соответствующий лемме 4.5, имеет место при следующих соотношениях между параметрами:

в|)Г]>1+а1Г,(цг-6|)(а<- щ+6,)"1.

а(Г>2, (1, = б(.

Кроме того, при |г(>б,-:

а) если выполняется неравенство (4.15), то и(-<а{-'(ц,- - б() (в случае равенства Т(щ - ц,--4-^() =2 справедливо и(- = а('(Ц( - б,-));

б) если выполняется неравенство Т (а,-- Ц( +<5<) >2, то и!-е(аг1(ц{ - б<),1).

Если и,->0, то оно является решением уравнения

= 1-ехр[(|ц- б,- а,и,)Г], которое можно, например, решать методом хорд:

а) если Г(а4- р.,- + б()<2, то иг находим на отрезке [0, последовательными приближениями по формуле

(4.17)
- 80
51))-/?1К)

=

где

=а(Г(1- и

б) если Г(а( - ц.(+б*)>2, то иг находим на отрезке [а,--1(Ц( - б,-), 1] последовательными приближениями по формуле

б;).

Итак, функции Ф,'(<,-), ^{(и!, и2) удовлетворяют всем условиям § 4.2, причем и+<=1, 0^<,-<1, 1=1, 2. Значит, по леммам 4.1, 4.2 в рассматриваемой дифференциальной игре существует по крайней мере одна ситуация равновесия на ![ыь 1]Х'[го, 1], а если их несколько, то среди них есть наилучшая для обоих игроков (с 'наибольшими выигрышами).

Все точки равновесия могут быть найдены из условий (4.4) (с последующей проверкой очевидных неравенств), которые при п = 2 распадаются на

113
девять типов условий (в данном случае и<+=1, а и(- либо равно нулю, либо определяется решением уравнения (4.17), ;=;1,2). Из них четыре типа приводят к решению одного уравнения с одним неизвестным, которое можно, например, решать методом хорд, четыре типа просто сводятся к известным точкам (комбинациям границ отрезков) и один тип приводит к решению системы двух уравнений

Ф1("1)=ЧЛ1(и1, и2), Ф2("2)=Чг2(и1, иг).

Для решения этой системы можно использовать .метод Ньютона, т. е. последовательные приближения по формуле

<"+' = <"-.Р"-'/(<*). * = 0,1.....

где цт=(и|, и2), {т(и) = (Ы"ь "г), Ы<ь "0) (здесь <т> - символ транспонирования), Ы"1> <2)=Ф;("()-ЧГ<("1, и2), и°1, "°2 -- начальные приближе-ния к

а/, () э/,(и?, <>)

Из теоремы 4.1 в качестве следствия можно получить свойства равновесия в дифференциальной игре (4.1), (4.13), (4.2) с постоянными управлениями. В данном случае

Если ^,=Х21 и Х22 = А,12, то ^(<ь <2)=0; при Л

функция ^(<ь м2) не возрастает то иь ы2, если Хг',-^А,-',-, А,^>'А,1^, то

функция Ч'Хиь и2) монотонно убывает хотя бы по одному аргу-

менту.

Таким образом, если А'г^АЛ (>, /=1, 2, 1=^=/), то в игре (4.1), (4.13), (4.2) существует единственная ситуация равновесия, которая принадлежит 7ЯДРУ (а значит, и паретовскому множеству) и является единственным решением игр с любой последовательностью ходов. Если в этом соотношении коэффициентов имеется хотя бы одно строгое неравенство, то ситуация равновесия есть единственная точка -у-ядра.

Перейдем теперь к случаю программного управления, т. е. рассмотрим дифференциальную игру (4.1), (4.13), (4.2) с и,-, представляющими собой функции времени. В качестве вспомогательного результата установим вид закона оптимального управления для задачи максимизации функционала

/=тш{ЩГ), у (Т)} при ограничениях

х- (аи->ц)х, х(0) =д

(1- и)ах- Ьу, у(0)=у0,

(4.18)

(4.19)

где и(1) -- кусочно-непрерывная функция со значениями в {О, 1]. 114

В соотношениях (4.18), (4.19) сделаем замену переменных, упрощающую дальнейшие рассуждения:

(4.20)

В терминах этих переменных исходная задача преобразуется к виду

, У(Т)х(Т)},

х=аих,

(4.21)

Уо. '.-. -- , (4-22)

Связь между начальными условиями в задачах (4.18), (4.19) и (4.21), (4.22) получается из соотношения (4.20) при / = 0.

Фазовое пространство задачи (4.21), (4.22) разобьем на три непересекающиеся части: область <влияния> функционала Кх>(Т), область <влияния> функционала у (Т) и область одинакового <влияния> обоих функционалов, которые обозначим соответственно через

-х},8+={(х, у

С помощью непрерывных на отрезке'[О, Т] сопряженных переменных ф] и <р2 необходимые условия оптимальности в задаче (4.21), (4.22) могут быть сформулированы в виде принципа максимума, в котором форма сопряженных систем уравнений и функции Гамильтона одна и та же во всем фазовом пространстве, но граничные условия для сопряженных переменных на правом конце интервала управления зависят от той области, где заканчивается фазовая траектория (это следует из результатов гл. 3 с учетом того, что в данном случае имеем критерий терминального типа).

Таким образом, вид оптимального управления определяется задачей

Я=аыхф1+'[1(а+6-|я)л:+ (ц-б)г/]ф2->- тах ,

иб[0,1]

ф!'= -0<<Р1-(а + б-Ц)ф2, Ф2=(б-ц)ф2, (4.23)

( (К, 0), если (х(Т),у(Т))*=8-, (Фх (Т), Фг (Т)) = | (-1, 1),если (х(Т), у(Т))е-8+,

[ со((Х, 0), (-1, 1)), если (х(Т), у(Т))с=8,

где со(-, ) -- выпуклая оболочка векторов.

Из выражения для функции Гамильтона, положительности фазовой координаты х и нетривиальности сопряженных переменных

115
ф! и ф2 следует, что оптимальное управление принимает лишь крайние значения 0 и 1: 1, если ф!>0,

О, если

(ф! может равняться нулю только в изолированных точках).

Уточним характер закона управления. Для этого заметим, что в предположении постоянства управления из системы (4.23) следует

Точкам переключения управления соответствуют нули функции

еаи/фь которая вследствие знакопостоянства ф2 монотонна.

Таким образом, у управления не может быть более одного переключения. Характер этой монотонности следует из краевых условий для сопряженной переменной ф2. Поэтому при (х(Т), у(Т))^8 переключений управления нет, причем ы=1, а при (х(Т), у(Т))^8+ управление переключается со значения ы=1 на значение и = 0. На множество со ((А,, 0), ( - 1, 1)) вторая координата неотрицательна, поэтому при (х(Т), у(Т))&$ управление переключается также со значения и=\ на значение и = 0.

Следовательно, общий качественный вид закона оптимального управления есть
0,
где 1 - - момент переключения (возможно, т=0 или т=Г, тогда считается и° ({)=() или и° (<) = !).

Вернемся теперь к игровой задаче (4.1), (4.13), (4.2), для которой исследуем вопросы существования и свойств равновесия. Так как по определению равновесия равновесное управление доставляет максимум критерию каждой системы при фиксированном управлении другой системы, можно воспользоваться результатом, полученным для оптимизационной задачи.

Учитывая (4.24), критерии систем мож'но параметризовать моментами переключений, т. е. представить в виде &г\1\, /2), 1=1,2, где /, - момент переключения управления с 1 на 0 для г'-го игрока, редуцировав исходную игру к игре с критериями У^(1\, /2) на квадрате [О, Г],Х^[0, Т]. При управлении вида (4.24) системы (4.2) легко интегрируются, и можно получить в явном виде соотношения

С учетом (4.1), (4.13) и (4.25) имеем

,(/,), ^ЧМ'^-^У^ (I,)},

(4.25)

где I, 1=1, 2, ;=т^=/, 116 '

Нетрудно убедиться, что Фг(^) являются монотонно возрастающими функциями, а Ч^'(*0 - - унимодальными функциями с точками максимума ^е[0, Т], т. е. критерии 3{(1\, 1ч} обладают теми свойствами, которые предполагались в § 4.2 для критериев игры Я(2> (то, что они заданы не на единичном квадрате, несущественно). Значит, справедлива следующая

Теорема 4.3. В игре двух лиц (4.1), (4.13), (4.2) с программными управлениями существует по крайней мере одна ситуация равновесия, все ситуации равновесия строгие, и если их несколько, то среди них имеется наилучшая для обоих участников. Если дополнительно Я.'^АЛ (I, /=1, 2, 1^1), то ситуация равновесия единственная, принадлежит -\>-ядру и является единственным решением игр с любой последовательностью ходов.

В теоретическом плане полученные здесь результаты представляются весьма любопытными, так как в дифференциальных играх с нелинейными системами (в (4.2) имеются члены ы^,) даже вопросы существования равновесия изучены слабо. Хуже на первый взгляд обстоит дело с их практической интерпретацией, так как оптимальные и равновесные управления оказались релейными (переключение с 1 на 0), что допустимо для технических систем, но для экономических систем нереализуемо и ставит под сомнение модель. Однако можно отметить, что в качественном плане управления такого типа, состоящие сначала в наращивании производственной базы, а затем быстрой перестройке структуры и развитии на этой базе непроизводственной сферы, весьма разумны и встречаются на практике. Что же касается количественной стороны дела, то можно считать, что распределению подлежит только некоторая свободная и мобильная часть ресурсов, к которой и относится модель. Можно также сузить область значений управлений, что, очевидно, не повлияет на результаты. Наконец, следует иметь в виду, что релейность оптимального управления связана с выбором линейной производственной функции, замена ее на нелинейную с обычными свойствами падения эффективности [54] приведет к появлению стационарных управлений.
1   2   3


написать администратору сайта