Главная страница

Лекции по теории игр и политологии


Скачать 1.03 Mb.
НазваниеЛекции по теории игр и политологии
Дата18.10.2022
Размер1.03 Mb.
Формат файлаpdf
Имя файлаlektsii_po_teorii_igr_2.pdf
ТипЛекции
#739684
страница7 из 8
1   2   3   4   5   6   7   8
Agress., Agress.)
4
= ((Agr., Agr., Agr., Agr., ),
(Agr., Agr., Agr., Agr., )). Теперь отметим, что “нормальной стратегией” является не просто ход, а последовательность ходов. А стратегией в более общем смысле является объявляемая функция отклика: это последовательность реакций на каждом этапе на каждую из возможных наблюдаемых ситуаций. Поэтому точнее приведенное решение будет записать так: SP E = {((Agr., Agr., Agr., Agr., )
anyway
, (Agr., Agr., Agr., Agr., )
anyway
)}.
Кроме этого, теоретически, можно рассмотреть и такие стратегии “максимального наказания”:
{(P eace, P eace, P eace, P eace, )
f or peacef ul partner
,
(P eace, ...., Agr., Agr., )
f or agress. partner
},
32
Аналогичная игра возникает во многих практических ситуациях. Например, между двумя оли- гополистами, каждый из которых может снизить цену продукта в некотором периоде, и отнять у конкурента долю рынка, зная, что тот может тоже ответить “агрессией”.
58
то сеть, обещание быть мирным, пока партнер мирный, иначе переключаться на агрессию до конца веков. Однако эти стратегии “максимальной угрозы” (обещание мстить за агрессию максимально, иначе сохранять мир) не рациональны в смысле
SPE в конечной игре, рациональна только чистая агрессия. В бесконечной же игре они могут быть рациональны! (Считают, что целевые цункции бесконечной игры есть взвешенные с некоторым дисконтом выигрыши моментов игр.) Проверьте, что при дисконте близком к 1 (слабое убывание полезности) кроме “максимальной угрозы”
много и других решений: скажем, когда оба партнера агрессивны только по понедель- никам, а мстят за отступления от этого объявленного правила ограниченное число периодов, Обобщим эту идею.
Теорема 5 (“Народная теорема” (Folk Theorem):) В бесконечной повторяю-
щейся игре, если дисконт стремится к единице, множество возможных средних
выигрышей стремится к множеству всех выигрышей выше гарантированных.
Доказательство мы опускаем. Иллюстрацией смысла теоремы служит Рис.11. Мно- жество возможных выигрышей - четырехугольник, помеченный (1,1). .....
2.13
Игры с несовершенной памятью, и другие несовершен- ства рациональности
До сих пор мы предполагали, что каждый игрок помнит все, что он знал ранее, в том числе собственные предыдущие ходы. Иногда это не так: в картах слабые игроки нередко не помнят вышедших карт, даже своих. Как моделировать подобные ситуа- ции? Очевидный ответ – с помощью мультиперсонного представления игры: одного и того же игрока нужно считать другим (хотя с теми же целями), после того, как он забыл часть информации.
Пример 2.13 (“Бабушка и очки”.) Бабушка снимает очки, и идет умываться, а очки кладет на видное место у выхода из ванной. Она знает, что не вспомнит, куда их положила, и проектирует ситуацию, чтобы на них наткнуться. В данном случае,
она смоделировала себя как другого игрока, чей ход (искать очки) состоится после умывания первого игрока, и приняла адекватное решение (постройте дерево игры и
SPE).
Аналогично, мультиперсонное представление игры помогает моделировать ситуа- ции, когда иррациональность участников заключается в изменении их целей по ходу игры.
Пример 2.14 (“Курильщик” (D.Kahneman, A.Tversky, 1982).) Бывший ку- рильщик наиболее предпочитал бы выкуривать 2 сигареты в день, менее приятно для него совсем не курить, а совсем нехорошо (врачи запрещают) курить пачку в день. Он бы и выбрал 2 сигареты, но знает, что тогда предпочтения его изменятся, он не удер- жится, и будет курить пачку. Поэтому он останавливается на полном воздержании
(постройте дерево игры и SPE).
В противоположность двум приведенным примерам иррациональности, рассмот- рим ситуацию, которая кажется иррациональной, но ей не является.
Пример 2.15 (“Честный дележ”) (см. J.Tirole 2001), A.Rubinstein 2002 - до-
клад в РЭШ) Паре игроков ведущий обещает $ 100 если дележ, предложенный первым будет принят с первого раза вторым. С точки зрения кооперативных игр, возможны- ми дележами является все ядро, от 0 до 100. С точки зрения же Штакельберговского решения первого игрока (то же SPE), можно предлагать всего 1 второму и 99 себе,
второй вынужден согласиться. Практически же, многочисленные опыты этой игры с неподготовленной аудиторией дают около 95% случаев дележа 50:50, около 2% дру- гих принятых дележей, около 3% отвергнутых дележей, когда оба получили 0! Тем не менее, это наблюдение не позволяет говорить о средней иррациональности лю- дей. Просто нужно считать их целевые функции заданными не только на денежном выигрыше, но и на сопоставлении выигрыша своего и партнера. Практически люди чаще максимизируют самоуважение, чем непосредственный результат: им важно
“не остаться в дураках”. Кроме того, многие придерживаются некоторых концепций
“справедливости” при дележе. Если внести определенный вариант подобных гипотез в конструируемую модель их целевых функций, то окажется, что обидеть “наглеца”,
предлагающего не равный дележ прибыли – рациональная стратегия, максимизиру- ющая самоуважение, а первый игрок, зная это, предлагает дележ 50:50 (постройте целевые функции, дерево игры и SPE).
Аналогично “самоуважению”, альтруизм – это не иррациональность, а нетривиаль- ные цели. Современная “психологическая экономика”, “экспериментальная экономика”
накопила достаточно фактов такого характера, демонстрирующих систематическое отклонение поведения от тривиально понимаемой рациональности (и немало фактов истинной иррациональности).
59

Истинная иррациональность может иметь разные причины: - несовершенный рас- чет игры; - несовершенная память; - изменение целей в ходе игры; - иррациональные предпочтения (неполные или нетранзитивные). Мы видели, что модели теории игр, с некоторыми модификациями, оказываются пригодны и к этим ситуациям. Теперь мы покажем, что они пригодны и к некоторым ситуациям совсем без рациональности.
2.14
Игроподобные ситуации без рациональности: псевдоопти- мизация и эволюционное равновесие
Биологи, исследуя популяции животных, построили различные модели динамических систем их взаимодействия. Системы могут иметь равновесия или не иметь (раскачи- ваться). В частности, хорошо известны модели Вольтерра “хищники и жертвы”, описы- вающие динамику совместных колебаний численности популяций, например, волков и оленей, связанных в экосистеме.
Нас будут интересовать те ситуации, где переменными являются различные ва- рианты поведения. Окажется, что даже если особи совсем иррациональны (болваны),
результирующие равновесия чем-то похожи на рациональное (оптимизирующее) по- ведение. Это не удивительно, поскольку даже в неживой природе некоторые явления хорошо описываются оптимизационной моделью, например, расположение воды нали- той в емкость минимизирует высоту ее центра тяжести. Такие явления можно назвать
“псевдооптимизацией”: оптимальный, в некотором смысле, исход в отсутствии оптими- зирующего субъекта. Это феномен, волновавший религиозных мыслителей и Дарвина,
в связи с естественным отбором. Когда игрок не один, то (Парето) оптимальность не гарантирована естественным отбором. Рассмотрим подобную ситуацию - равновесие типа Нэшэвского, но без рациональных субъектов.
Пример 2.16 (“Голуби и ястребы” (см. Ordeshook, p.183)) Пусть популяция воробьев (пример можно применить и к другим животным, или к популяции типов
поведения людей) состоит из 2 типов птиц: “Агрессивный” (как ястреб) или “Мирный”
(как голубь), причем ни один не меняет своего типа поведения (они “болваны”). Но тот тип, который в среднем имеет лучшее благосостояние, обильнее и размножается
(либо особи перенимают образ поведения субъектов, выглядящих успешными). Так или иначе, доля агрессивных воробьев в популяции со временем будет возрастать,
если они “обыгрывают” более мирных, и наоборот.
Предположим, тип поведения проявляется возле куска корма: двое мирных осо- бей встретившись — вместе его клюют, мирный отступает перед агрессивным, а двое агрессивных деруться, с обоюдными потерями. Эти гипотезы о выигрышах в каж- дой из 4-х возможных комбинаций (кто с кем окажется возле корки хлеба) отразим матрицей выигрышей:
Обозначим α(t) [0, 1] текущую долю агрессивных птиц в популяции, тогда µ =
(1 − α(t)) [0, 1] есть доля мирных.
Найдем равновесие Нэша в смешанных стратегиях NE
m
, понимая его как стацио- нарное состояние ¯
α доли агрессивных птиц, то есть решение уравнения:
U
α, (1 ¯
α)) =
α + 2(1 ¯
α) = 2
α = U(1 ¯
α, ¯
α) = 0¯
α + 1(1 ¯
α) = 1 ¯
α,
¯
α = 0.5. При такой доле агрессивных эта пропорция могла бы не меняться.
60

Второй воробей агресс.
мирный
-1 0
Первый агрессивный
-1 2
SNE
воробей
2 1
мирный
0
SNE
1
Таблица 17: “Голуби” и “ястребы”.
Заметим, что кроме найденного симметричного равновесия NE
m
¯
α = 0.5 в системе есть и два крайних равновесия Нэша в чистых стратегиях: (Агр.,Мирн.), (Мирн.,Агр.),
однако они не отвечают содержательной формулировке “игры”: нельзя придумать до- лю α отвечающую этим ситуациям. Напротив, содержательно возможны крайние си- туации, когда какого-то типа просто нет: ˜
α = 0, ˆ
α = 1. Однако, как легко проверить,
в отличие от первого, они неустойчивы к возможным мутациям, то есть к ненулевой вероятности случайного появления особей любого типа (аналог случайных ходов в ситуациях с рациональностью).
Понятие локальной устойчивости эволюционных равновесий в системах такого типа можно сформулировать так. Пусть есть n типов игроков i = 1, ..., n с одина- ковыми целевыми функциями u
1
(.) = ... = u
n
(.) = u(.), доли их в популяции есть
α
1
, ...α
n
: α
i
[0, 1],
P
i
α
i
= 1 (в иной интерпретации, это одинаковые игроки, а
α
1
, ...α
n
есть частоты применения чистых стратегий).
Определение 2.14.1 В описанной ситуации набор стратегий (типов поведения) (¯
α
1
, ..., ¯
α
n
)
называется “эволюционным равновесием” EvE, если для любого типа поведения i
выполняется u
i

α
i
, ¯
α
−i
) > u
i
(α
i
, ¯
α
−i
) ∀α
i
(стратегия ¯
α
i
строго предпочтительна при равновесных стратегиях партнеров ¯
α
−i
), либо u
i

α
i
, ¯
α
−i
) ≥ u
i
(α
i
, ¯
α
−i
), u
i

α
i
, α
−i
) >
u
i
(α
i
, α
−i
) (α
i
, α
−i
) (стратегия ¯
α
i
нестрого предпочтительна, но начинает строго пред- почитаться при отклонении партнеров от Нэшевского решения).
Итак, эволюционно- устойчивые cтратегии - это Нэшевские cтратегии от которых к тому же строго вредно отклоняться при сохранении позиций партнеров, или при от- клонении партнеров. Эволюционное равновесие - профиль таких стратегий. Очевидно,
SNE ⊂ EvE ⊂ NE.
Заметим, что показанный эволюционный подход применим и к случаям частичной рациональности такого типа: участники популяции (особи) — это не люди или живот- ные, а бытующие типы поведения. А игроки — люди или животные — поступают тем или иным образом случайно, с некоторой текущей частотой α(t), не занимаясь насто- ящей оптимизацией, но несколько увеличивая частоту тех ходов, где они в среднем,
по опыту, больше выигрывают. Мутации есть случайные ходы. Концепция равновесия и результат в таких ситуациях те же, что в популяциях с реальными особями типа
“болванов” (dummy).
61

Упражнение. В описанной в предыдущем примере ситуации с воробьями, пред- положите, что есть еще один тип воробьев, его доля в популяции β, он называется
“буржуазным”, поскольку уважает собственность. Подразумевается, что если такой воробей нашел корм первым, то считает его своим и дерется с любым претендентом,
получая выигрыш (-1), как и претендент. Если же он подходит к корму вторым, то с мирным напарником кормится вместе (выигрыши (1,1)), а агрессивному уступает
(выигрыши (0,2)). Считая вероятность быть первым 1/2 и усреднив, получим, что выигрыши равны u
β
(β, α, µ) = 1α + 1µ + 1β... Найдите эволюционное равновесие
(β, α, µ) (только ли “буржуазные” типы поведения останутся, единственно ли EvE?).
Пример 2.17 (“Обезьяны: альтруисты и эгоисты”) Пусть, на равнине, равно- мерно покрытой джунглями рассеяна популяция обезьян. Обязьяна может быть типа альтруиста, вычесывая блох у соседей, либо типа эгоиста, подставляя спину другим,
но сама не вычесывая. Предположим, что у каждой обезъяны 8 соседей (как у клетки на шахматной доске), и полезность ее возрастает пропорционально числу альтруистов среди них, но убывает по размеру собственных усилий. Покажите, что при подобной целевой функции окажется, что в этом лесу единственное эволюционное равновесие
– полный эгоизм. Напротив, при некоторых параметрах подобной целевой функции и возможности парных мутаций нет эволюционных равновесий: возникающая в эгои- стичном лесу пара альтруистов растет, как пятно, в ней возникает пятно эгоистов, и т.д. Подобная ситуация возможна и при единичных мутациях: не из всякого начально- го положения устанавливается равновесие. В другом варианте игры: когда альтруизм гаснет, если не взаимен – возможно равновесие с полным альтруизмом (точнее, дру- желюбием), мутации эгоистов подавляются эволюцией.
Эти соображения о возможности предсказания эволюционных равновесий без ра- циональности хорошо переносятся с популяций животных и на “популяции” типов поведения людей. Дело в том, что в истории многие сообщества чаще всего не были способны свободно “конструировать” типы поведения, даже если они признавались по- лезными (вопреки Ж.-Ж.Руссо). Традиционализм перевешивал изменчивость. Нормы возникали, скорее, эволюционно. Другая причина применимости эволюционной кон- цепции та, что даже в бизнесе, тот или иной тип маркетингового поведения зачастую слишком трудно просчитать и оптимизировать. Практически, популяция торговцев просто “пробует” (мутации) множество разных типов поведения, и некоторые из них выживают в равновесии, а неуспешные торговцы “обезъянничают” у успешных или выходят из игры (в обоих случаях их прошлый “тип поведения” погибает). Тем са- мым, ограниченная рациональность торговцев не препятствует описанию ситуации игроподобной моделью с максимизацией прибыли.
2.15
Содержательное сопоставление различных концепций ре- шений игр
В заключение обзора (заведомо неполного) различных концепций решений игр попро- буем сопоставить их между собой; в какой мере некоторые концепции могут считаться частным случаем других или, наоборот, отражать принципиально разные ситуации?
62

Прежде всего, сопоставляя некооперативные (NE, MaxMin) и кооперативные кон- цепции решений (например, ядро, Парето-границу), можно заметить, что вторые, в отличие от первых, служат скорее критериями оптимальности для определенных ситу- аций, чем способами предсказать исход. Действительно, указывая ядро как некоторое множество “интересных” исходов в ситуации, где возможны переговоры, следовало бы указать еще процедуру, которой будут вестись переговоры, построить по ней соответ- ствующую некооперативную игру (кто что может предложить, кто отказаться, и т.д.)
и тогда уже пытаться предсказать исход. Причем, исход при некоторых механизмах
(дележ Шепли) может быть и не в ядре. Однако, польза простой концепции ядра как именно предсказательной концепции в том, что многие сложные реальные процеду- ры приводят к ядру, и мы можем иногда предсказывать множество потенциальных исходов не зная конкретной процедуры, а лишь ее принадлежность этому классу.
Далее, обсуждая некооперативные концепции, из предыдущего должно быть ясно,
что статическая игра – это частный случай динамической, а именно, это однопери- одная игра с одновременными скрытыми ходами партнеров. В таком разрезе, прямо по определению, решение Нэша есть SPE этой игры (не имеющей дополнительных подыгр). Но тонкость в том, что это же решение Нэша может быть применимо и к повторяемой игре с такой же структурой возможных ходов и выигрышей, в том чис- ле - к игре бесконечной. Тогда его нужно рассматривать как одно из совершенных в подыграх равновесий (SPE) этой повторяемой игры, такое, где ходы неизменны от раунда к раунду (см. ситуации с Folk Theorem). Именно в этом смысле его называ- ют “равновесием”, хотя строгое обоснование того, что это действительно равновесие должно проводиться именно через соответствующую развернутую форму динамиче- ской игры. Итак, NE – это простая концепция, иногда применимая к весьма сложной ситуации, которую мы пытаемся прогнозировать не зная конкретной динамики.
Напротив, решение Штакельберга, возникшее первоначально для “статических”
игр, на самом деле выражает совершенно определенную динамику: на первом этапе ходит лидер, затем одновременно (по Нэшу) – его последователи. Итак, StE есть SPE
в подходящим образом сформулированной двухпериодной игре. Небольшое отличие возникает только в “оптимистической” и “пессимистической” вариациях понятия StE.
Аналогично, понятие итерационно-слабо-недоминируемого множества IWND, при- водящее к сложному равновесию SoE, можно рассматривать как осуществляемое на определенном дереве игры, задающем последовательность отметания (слабо) домини- руемых альтернатив. В классическом варианте определения SoE последовательность предполагается такой: все игроки одновременно отбросили стратегии в первом ра- унде, увидели результаты, отбросили во втором, и т.д. Но в определенных случаях
(например, при неповторимости выигрышей) и все другие варианты последователь- ности ходов приводят к тому же результату (см. Мулен, 1985,). Поэтому, опять, цен- ность данной простой концепции в попытке предсказывать исход
1   2   3   4   5   6   7   8


написать администратору сайта