Главная страница

диплом крнфликты. Ю. В. Литвинов Моделирование конфликтов в двухсторонней теории игр Учебное пособие


Скачать 0.67 Mb.
НазваниеЮ. В. Литвинов Моделирование конфликтов в двухсторонней теории игр Учебное пособие
Дата03.02.2022
Размер0.67 Mb.
Формат файлаpdf
Имя файладиплом крнфликты.pdf
ТипУчебное пособие
#350640
страница3 из 4
1   2   3   4
2.3. Рандомизированное управление
Рандомизированное управление относится к практическим приложениям смешанных стратегий теории игр и используется в случае принятия решений с риском. Название «рандомизированное» происходит от слова «random», в переводе с английского означающее случайный. В дословном переводе рандомизированное управление означает случайное управление, те. управление, выбираемое случайным образом. Принятие решений заключается в выборе человеком или управляющим устройством (регулятором) одного из нескольких возможных (те. дискретных) управлений, подаваемых на объект управления (экономическую, техническую или какую-нибудь другую систему, причем такой выбор приходится делать неоднократно в течение времени работы системы. Например, для управления технической системой надо выбрать управляющий параметр u, от значения которого зависит эффективность работы системы f(u). Пусть зависимость f(u) имеет вид (рис)
Рисунок 2.4. График эффективности работы системы
Из графика видно, что при u=u* эффективность f имеет максимум. В тоже время допустимые значения u находятся в промежутке 0 ≤ u ≤ u
m
, те. управление ограничено. При рандомизированном управлении эти ограничения нарушают за счет организации управления во времени в некоторые моменты выбирают управление, выходящее за допустимые ограничения, те. делают перескок за u
m
, ближе ка затем снова возвращаются в допустимые

27 границы управления. Это позволяет улучшить процесс в среднем - за много ходов, или моментов дискретного управления. Можно получить больше эффективность, иногда выбирая рискованные ходы, но компенсируя их менее рискованными ходами. В общем случае задача нахождения управления ставится следующим образом. Заданы целевая функция f=f(u), набор допустимых управлений u
1
, u
2
,…
u
i
,…u
k
, i=1…k, уравнение ограничений g(u) ≤ u
m
. Необходимо найти u
i
*, такое, что
m
u
u
g
i
u
f
u
При переходе к рандомизированному управлению целевая функция максимизируется в среднем, те. рандомизированная целевая функция




k
i
i
i
u
f
u
p
u
должна стремиться к максимуму в среднем, где p(u
i
) вероятность выбора управления u
i
. Ограничения на управление также должны выполняться в среднем
m
k
i
i
i
u
u
g
u
p
u
Кроме того, должно выполняться уравнение ограничений для вероятностей Решение этой задачи линейного программирования сводится к нахождению вероятностей p(u
i
) ходов, те. выборов управлений Рассмотрим пример. Пусть эффективность работы технической системы f(u) определяется выражением
30 10 20
)
(
2



u
u
u
где u – напряжение, периодически, по тактам подаваемое на систему. График зависимости f(u) приведен на рис. Техническая реализация системы позволяет подавать на нее только дискретные по величине значения напряжения управления u1 = 1B, u2 = 2B, u3 = 3B, u4 = 4B, u5 = 5B. Как видно из графика на рис, эффективность системы тем выше, чем больше напряжение управления, и при u5 = 5B достигается максимальная

28 эффективность работы. Однако в среднем, за много ходов (тактов) выбора управлений, напряжение на системе должно быть не более В (u
m
= 3.1 В. Если подавать на систему все время напряжение u3 = 3B, те. максимально эффективное из класса реализуемых и допустимых напряжений, получим среднюю эффективность f(u3) =6.667.
Попробуем повысить эффективность работы системы путем подачи на нее напряжений из класса реализуемых, но иногда, случайным образом, выходящих за допустимые ограничения. Назначим штрафы за выбор управлений, исходя из следующих соображений. Если напряжение не превышает допустимое, то штраф выбираем небольшой и тем меньше, чем дальше выбранное напряжение от опасной границы u
m
= В. Штраф задается назначением ограничений за выбор u1=1B будем штрафовать единицей - g1=1, за выбор u2=2B назначаем g2=2, за выбор u3=3B назначаем
g3=3. При выходе за допустимое ограничение штраф должен расти и, чем дальше от границы, тем больше. Поэтому назначаем за выбор u4=4B штраф
g4=4 и за выбор u5=5B штраф g5=5. Получаем линейную функцию нарастания штрафа по мере роста управления. Определим, с какой вероятностью p необходимо назначать управление u¡ на тактах изменения управления, чтобы получить максимальную эффективность в среднем за много ходов. Составим программу расчета в среде
Mathcad (рис. 2.5) Рисунок 2.5. Программа расчета рандомизированного управления

29 Из решения видно, что u1=1B необходимо назначать с вероятностью p1=0.3, а u4=4B необходимо назначать с вероятностью p4=0.7. Все остальные значения управлений имеют нулевую вероятность, следовательно, они не должны подаваться на систему для реализации рандомизированного управления. Значение эффективности за много тактов управления в среднем равно 7.025, те. больше, чем средняя эффективность (6.667) для допустимого управления В. Линейная функция нарастания штрафа по мере подхода напряжения управления снизу к допустимой границе um=3.1B и далее вверх при переходе через границу, не всегда справедлива. Действительно, зачем сильно штрафовать управление, если оно находится в допустимых границах и относительно слабо штрафовать, когда оно переходит через границу Поэтому часто назначают нелинейно изменяющиеся функции штрафа. Например, пока управление не выходит за ограничение, штраф принимают малый и постоянный для всех u¡ ≤ um. Назначим g1=g2=g3=1, а после границы штраф существенно увеличим, приняв g4=5, а g5=10. Тогда получаем решение p1=p2=p5=0, p3=0.475, p4=0.525, а эффективность равна 7.453. Обратим внимание, что такое назначение управлений несколько лучше, чем первый вариант во-первых, рисковое управление u4 (сверх допустимого) назначается реже (вероятность
0.525), чем раньше (вероятность 0.7); во-вторых, эффективность выше
(7.453>7.025). В общем случае, назначение штрафов представляет самостоятельную задачу и должно быть привязано к конкретной технической или экономической задаче ив некотором роде отражает искусство проектировщика систем управления.
3. Двухстороняя монополия в теории игр
В этой главе рассматривается модель конфликта между двумя объектами, возникающего при взаимодействии между ними. В технической системе это может быть конфликт между двумя элементами системы при обмене между ними энергией, информацией, потоками вещества, а в экономической задаче это конфликт на рынке обмена товарами и услугами. Рассмотрим сначала экономическую задачу как наиболее изученную. Конфликт возникает между продавцом и покупателем, или, как они называются на рынке, производителем и потребителем блага (товаров или услуг. Конфликт характерен тем, что производитель и потребитель имеют как противоположные интересы, таки совпадающие. Противоположные интересы заключаются в том, что потребителю нужна низкая цена, а производителю высокая цена на товары и услуги. Совпадающие интересы заключаются в том, что одному надо продать, а другому купить товар или услугу. В теории игр как раз рассматривается вопрос поиска компромисса, при котором продажа/покупка может произойти, те. точка равновесия рыночной системы.

30 При двухсторонней монополии на рынке имеется один производитель какого-нибудь монопольного блага (продукта) и один потребитель этого блага продукта. Все остальные потребители и производители на этом рынке действуют в условиях совершенной конкуренции, поэтому все цены на все блага, кроме монопольного, считаются заданными. Рынок совершенной конкуренции это такой рынок, на котором действует много мелких потребителей, и много мелких производителей, которые своими предложениями товаров и услуги их покупкой, не могут существенно влиять на цену блага. Поэтому цена считается постоянной. При монополии на рынке есть как крупные производители, таки крупные потребители, которые своими действиями могут изменять цены на рынке в случае крупных закупок или продаж. Поэтому цены на монопольном рынке могут существенно изменяться. Двухсторонняя монополия есть частный случай монополизма на рынке, в некотором смысле, идеальный, как и рынок совершенной конкуренции, но позволяющий выяснить некоторые важные теоретические моменты движения к равновесию.
Сточки зрения теории игр производитель может быть игроком А, а потребитель – игроком В. При сделке (игре) игроки должны договориться о цене p и количестве обмениваемого блага y. Поэтому ходами игрока А будут назначения определенной цены p, а ответными ходами игрока В будут покупки за эту цену определенного количества блага y. Например, ходом А может быть назначение цены p = 50 руб./кг, если благо y измеряется в кг. Ходом А может быть назначение цены p
= 52 руб./кг итак далее. Ходами В, B2, B3 может быть покупка соответственно 3.5 кг, 5 кг, 12.36 кг продукта y. Так как, в принципе, цена p и количество блага y могут назначаться в пределах от нуля до бесконечности, то количество ходов игроков Аи В образуют несчетное множество. Поэтому задать платежную матрицу с бесконечным числом строки столбцов не удается. Такая игра уже будет непрерывной и плата за нее задается в виде непрерывных функций. Для игрока А плата за игру или выигрыш задается функцией Wa(p,y) =
p·y - C(y), где произведение p·y означает стоимость продажи количества y за цену p
игроку В, а C(y) – это издержки игрока А на производство блага y закупка сырья, материалов, энергии и т.п. у других производителей на рынке совершенной конкуренции. Для игрока В плата за игру или выигрыш задается функцией Wb(p,y) =
R(y) - p·y, где произведение p·y означает стоимость покупки у игрока А количества продукта y за цену p, а R(y) – это прибыль от использования количества блага y (переработка блага y как сырья и продажа на рынке совершенной конкуренции другим потребителям. Двухсторонняя монополия не является игрой с нулевой суммой, поскольку выигрыш одного игрока не является проигрышем другого. Это было бы так, если бы мы не учитывали действие рынка совершенной конкуренции. Действительно, без учета рынка совершенной конкуренции для игрока А получаем его выигрыша. Для игрока В получаем его

31 выигрыша. Тогда получим игру с нулевой суммой, так как Wa(p,y) = - Wb(p,y). Платежные функции Wa(p,y) и Wb(p,y) называются также ценами игры для игроков Аи В соответственно. Перед началом игры игрок В обычно не знает вида функций C= C(y) игрока А, а игрок Ане знает вида функции R =
R(y) игрока В. Таким образом, платежные функции друг друга им неизвестны. Этапы конфликта. Нахождение состояния равновесия Игра или торг начинается с того, что игрок А выходит на рынок и назначает цену p за свое благо. Игрок В стремится максимизировать свой выигрыш, отвечая покупкой определенного количества y. Максимизируем
Wb(p,y), найдя первую производную по y при постоянной цене p и приравняв первую производную нулю где Тогда уравнение R’(y)=p определяет некоторую границу. Игрок А, выходя на рынок и зная, что он является монополистом, чаще всего устанавливает очень высокую цену p. Если окажется, что p > R’(y), то игрок В вообще ничего не купит, те. ответит ходом y=0. Такой первоначальный этап игры приходах называется некооперированным равновесием ив соответствии с математической теорией игр, может продолжаться бесконечно долго. Такой тип равновесия изучал американский математик Джон Нэш, поэтому оно иногда называется равновесием по Нэшу [4.5]. Оно характерно темни один участник игры не может увеличить выигрыш, изменив свою стратегию, если другие участники своих стратегий не меняют. Действительно, игрок А может как угодно менять свои ходы, но если он остается в рамках некооперированного равновесия, то при этом выигрыша он не прибавит, так как ничего не продаст. Также и для второго игрока B, при y=0 при некооперированном равновесии у него получается максимальный выигрыша если он что-то купит, те. выберет какую-то стратегию y>0, то он только проиграет, уйдѐт в минус относительно максимума. Рассмотрим пример. Пусть цена игры игрока А задана платежной функцией
Wa(p,y)=py- (y² + 10y +3), где C(y)= y² + 10y +3. Цена игры игрока В задана платежной функцией
Wb(p,y)= -2y² + 40y + 1- py, где R(y) = -2y² + 40y + 1.

32 Игрок А выходит на рынок и назначает цену на свою продукцию p = 100 рублей за единицу своего блага. Игрок В ничего не покупает, те. отвечает ходом y = 0. Определим, почему это происходит. Находим R`(y) = - 4y + 40 и приравниваем производную R`(y) цене p:
-4y + 40 = p Приняв y = 0, находим цену, определяющую границу некооперированного равновесия p = 40. Таким образом, при p > 40 игрок В ничего не будет покупать. Игрок Ане знает величину этой граничной цены, так как ему неизвестна функция R= R(y), а следовательно, и производная R`(y). Толку от такого равновесия мало, так как один участник ничего не покупает из-за слишком высокой цены, а другой ничего не продает. Поэтому игрок А дальнейшими ходами постепенно снижает цену – начинается так называемый этап прощупывания. Игрок А стремится узнать, сколько же блага купит игрок В за установленную цену, а игрок В хочет узнать, до какой величины игрок А будет снижать цену. Наконец, при очередном снижении цен (p1 < 40 руб/ед.), игрок В покупает y1 единиц монопольного блага за цену p1 = R`(y1), те. прощупывание состоялось. Игрок А получает некоторую информацию о соотношении между ценой и количеством блага. Принимая для себя это соотношение за установленное ограничение p1 - R`(y1)=0, игрок А начинает перестраивать производство с целью выпуска такого количества блага, которое максимизирует его выигрыш. Следовательно, математически описывая эту игру, мы должны решить задачу нелинейного программирования - найти максимума) при ограничении p1 - R`(y1)=0.
Составляем функцию Лагранжа а
La(p1,y1,λ) = py1 – C(y1) + λ(p1 - R`(y1)). Находим первые производные от функции Лагранжа по всем трем переменными приравниваем их нулю
)
1
(
R
1
)
,
1
,
1
(
L
0 1
1
)
,
1
,
1
(
L
0
)
1
(
)
1
(
C
1 Из второго и третьего уравнений системы находим λ = - y1 , p1 = R`(y1) и подставляем в первое уравнение, получаем
R`(y1) – C`(y1) + y1· R``(y1) =0. Решая это уравнение относительно одной неизвестной, находим y1. Подставляя найденное значение y1 в третье уравнение системы, находим и цену p1. Пара

33
p1,y1 максимизирует выигрыша) при ограничении p1 - R`(y1)=0, учитывающем ход игрока В. Для примера, рассмотренного ранее, получаем следующее решение. Первая производная от R(y1) поуже определена R`(y1)= - 4y1 + 40. Находим вторую производную R``(y1) =-4, а также первую производную от
C(y1) по y1: C`(y1) = 2y1 +10. Подставляя найденные значения в уравнение для определения y1, получаем
-4y1 +40 – 2y1 – 10 – 4y1 = 0. Откуда y1 = 3, а p1 =28. Выигрыши игроков приходе легко посчитать по платежным функциям а – 42 = 42, а Wb(p1,y1)= 103 -3·28= =19. Это и есть состояние равновесия, при котором происходит покупка/продажа блага, найденное в результате этапа прощупывания. Теоретически игра в таком состоянии равновесия, с найденной парой p1,y1, тоже может продолжаться в течение бесконечного числа ходов.
3.2. Построение перил и ядра игры Нельзя сказать, что найденное состояние равновесия p1,y1 устраивает игроков, и что дальше они будут ходить этими ходами. Игрок А недоволен тем, что за такую низкую, сего точки зрения, цену 28 руб./ед. игрок В слишком мало покупает блага. Действительно, до граничной цены в 40 руб./ед. еще есть некоторый запас. Экономически заставить игрока В покупать больше блага за 28 руб./ед. игрок Ане в состоянии. Поэтому у него возникает соблазн – поднять цену.
Игрок В тоже недоволен – он, может быть, и купил бы больше блага, нос его точки зрения игрок А слишком завысил цену и заход получает выигрыш
42 рубля, а игрок В – всего 19 рублей. Поэтому игрок В, зная, что он единственный покупатель у игрока А, может повести себя не в соответствии с уравнением p1 = R`(y1), теза цену 28 руб./ед. купить блага меньше, чем 3 единицы, или вообще ничего не купить. Его цель – заставить игрока А снизить цену. Такая ситуация грозит тупиком, возвратом к некооперированному равновесию. В этот момент большое значение приобретает информация. Каждый игрок заинтересован раскрыть правила поведения, которым следует другая сторона. Можно поставить себя на место партнера и попытаться определить эти правила.
Оба игрока должны понять сразу или после прощупывания, что им надо договориться, прийти к явному или неявному соглашению. В этом соглашении нет главного, неважно, кто назначает цену p, а кто - количество блага y. Оба игрока должны совместно найти оптимальный ход Рассмотрим возможные ограничения, которые определят область нахождения пары p
opt
,y
opt
. В теории игр эти ограничения называются перилами или верхней или нижней ценами игры, как уже определялось ранее

34 Перила должны удовлетворять следующим четырем условиям) Выигрыш игрока А должен быть, по крайней мере больше или равен его издержкам при нулевом выпуске блага, те. а) ≥ C(0). Игрок А должен оправдать свои издержки, в противном случае у него не будет никакого интереса в обмене с игроком В
2) Выигрыш игрока В должен быть, по крайней мере больше или равен его доходу при нулевой покупке блага, те. Wb(p,y) ≥ R(0). Игрок В должен иметь какой-то доход, даже если не будет обмениваться монопольным благом с игроком А. В противном случае игрок Встанет банкротом
3) Пара
p
opt
,y
opt должна максимизировать а) при ограничении Wb(p,y) = о, причем величина о = const и пока неизвестна
4) Пара
p
opt
,y
opt должна максимизировать Wb(p,y) при ограничении Wa(p,y) = о, причем величина о = const и пока неизвестна. Условия 3 и 4 означают, что каждый из игроков согласен на максимизацию своего выигрыша при каком-то постоянном выигрыше другого игрока. Следовательно, необходимо снова решать задачу нелинейного программирования. Вводим функцию Лагранжа для игрока А
La(p,y,λ) = Wa(p,y) + λ(Wb(p,y) – Wbo) = p·y – C(y) + λ(R(y) - p·y – Wbo). Находим производные от La(p,y,λ) по всем трем переменными приравниваем их нулю Из второго уравнения системы получаем условие λ = 1 и подставляем его в первое уравнение. Тогда получаем следующее уравнение
C`(y) = R`(y). Его решением является оптимальное количество блага y = y
opt
. Для нашего численного примера имеем
2y +10 = - 4y + 40 и y = y
opt
= 5. Подставляя найденное решение y
opt в третье уравнение системы, получаем
R(y
opt
) – p · y
opt
– Wbo = 0. Видно, что неизвестное значение Wbo не позволяет найти оптимальную цену
p
opt

35 Аналогично составляем функцию Лагранжа для игрока В
Lb(p,y,λ) = Wb(p,y) + λ(Wa(p,y) – Wao) = R(y) - p·y + λ(p·y – C(y) – Wao). Находим производные от Lb(p,y,λ) по всем трем переменными приравниваем их нулю Из первого и второго уравнений системы получаем такие же соотношения для игрока В, как и для игрока Аи. Таким образом, игроки могут явно или неявно прийти к согласию о количестве
y
opt обмениваемого блага. Третье уравнение имеет вид p · y
opt
– C(y
opt
) - Wao = 0. Также неизвестное значение Wao не позволяет найти оптимальную цену Можно найти границы, в которых находится p
opt
. Подставляя значения
p
opt
, y
opt в платежные функции и используя условия 1 и 2 для перил, получаем :
Wa(p,y) = p
opt
, y
opt
– C(y
opt
) ≥ C(0)
Wb(p,y) = R(y
opt
) – p
opt
, y
opt
≥ R(0)
Неравенства в правой части разрешаем относительно неизвестной цены Подставляем численные значения y
opt
=5, получаем
5 1
1 5
40 5
2
-
5 3
3 5
10 5
2 или 16,2≤
p
opt
≤30. Таким образом, оптимальная цена лежит в интервале от 16.2 до 30 руб./ед, а оптимальное количество обмениваемого блага равно y
opt
= 5 ед.

36 Множество пар p
opt
,y
opt называются ядром двухсторонней монополии. Внутри ядра интересы игроков противоположны игрок Ане хочет опускать цену p
opt ниже 30 руб./ед., а игрок B не желает покупать выше цены p
opt
=16.2 руб/ед. Выигрыши игроков при верхней цене ядра верх = 30 руб./ед. равны
верх , y
opt
) = 72 руб, верх , y
opt
) = 1 руб Выигрыши игроков при нижней цене ядра p
нижн
= 16.2 руб./ед. равны
Wa(p
нижн
, y
opt
) = 3 руб, Wb(p
нижн
, y
opt
) = 70 руб. На плоскости p,y (рис) построим 4 линии постоянного уровня платежных функций
py – C(y) = верх , y
opt
) = 72 руб,
py – C(y) = Wa(p
нижн
, y
opt
) = 3 руб,
R(y) – py = верх , y
opt
) = 1 руб,
R(y) – py = Wb(p
нижн
, y
opt
) = 70 руб
y
y
y
y
p
y
y
y
y
p
y
y
y
y
p
y
y
y
y
p
70 1
40 2
)
(
1 1
40 2
)
(
3 10 3
)
(
3 10 72
)
(
2 2
2 Рисунок 3.1. Ядро экономики и линии постоянного уровня платежных функций

37 На рис по оси абсцисс отложено количество блага y, а по оси ординат цена p. Верхняя цена и нижняя цена образуют две, параллельные оси абсцисс линии, на уровне 30 и 16.2 соответственно. Линии постоянного уровня Wa=3 и
Wb=70 касаются друг друга в точке с координатами y= y
opt
, p = p
нижн
=16.2. Эта точка является нижней границей ядра двухсторонней монополии. Линии постоянного уровня Wa=72 и Wb=1 касаются друг друга в точке с координатами y= y
opt
=5, p= верх = 30. Эта точка образует верхнюю границу ядра двухсторонней монополии. Ядро является отрезком прямой между этими двумя точками, отрезком параллельным оси цен при постоянном значении y=5. Любое проникновение того или другого игрока внутрь ядра снижает их выигрыши по сравнению с оптимальными выигрышами, полученными в результате решения задачи нелинейного программирования. Поэтому, если они все-таки желают провести сделку, они должны договориться о цене внутри ядра. Использование угроз как средства достижения выгодной комбинации содержит риск расстроить соглашение. Возможности соглашения внутри ядра связаны уже нес экономическими, ас политическими соображениями. Дело в том, что выигрыши Wa и Wb не всегда соизмеримы друг с другом и даже не всегда определены однозначно, те. выигрыши могут измеряться не только в денежных единицах. Например, в случае, когда игроки являются потребителями, те. обмениваются разными благами, необходимыми для потребления, то выигрыш каждого игрока задается функцией полезности, которую извлекает игрок от игры, а соизмерить функции полезности игроков весьма трудно. Например, если значение функции полезности для игрока A Sa(y1)=20, а Sa(y2)=40, то можно сделать лишь вывод, что выбор y2 предпочтительнее для игрока A, чем выбор y1. Если значение функции полезности для игрока B Sb(y3)=50, то это не значит, что выбор y3 предпочтительнее, чем y2, хотя Sb(y3)> Sa(y2). Нельзя сравнивать функции полезности разных игроков. Говорят, что выигрыши нетрансферабельны, те. не обмениваются друг на друга.
1   2   3   4


написать администратору сайта