Главная страница

Лекции по теории игр и политологии


Скачать 1.03 Mb.
НазваниеЛекции по теории игр и политологии
Дата18.10.2022
Размер1.03 Mb.
Формат файлаpdf
Имя файлаlektsii_po_teorii_igr_2.pdf
ТипЛекции
#739684
страница5 из 8
1   2   3   4   5   6   7   8
Что общего в разных концепциях решений?
Завершая раздел статических (одновременных) игр, в качестве упражнения интуиции в применимости той или иной концепции, попробуем сформулировать универсальную,
достаточно широкую концепцию решения, охватывающую многие некооперативные решения как частные случаи. Она выдвигает на первый план понятие ожиданий,
которое затем пригодится в последовательных играх.
Определение 1.11.1 Набор ¯
x ∈ (X × X × ... × X) ожидаемых стратегий (гипотез о всех партнерах, включая себя, причем ожидания любого игрока о себе совпадают с реально выбранной его стратегией) ¯
x
i∗
= (¯
x
i1
, ..., ¯
x
in
) ∈ X (i = 1, ..., n) можно назвать равновесием с правилом ожиданий – отображением E : (X × X × ... × X)
(X × X × ... × X) если
1) выбор ¯
x
ii
∈ X
i
каждого игрока i является одним из наилучших для него от- ветов на ожидаемые стратегии x
ij
∈ X
j
прочих игроков j 6= i, то есть: u
i

x
ii
, ¯
x
ij
) =
max
x
ii
∈X
i
u
i
(x
ii
, ¯
x
ij
);
2) ожидания любого игрока i о всех игроках соответствуют заданному правилу согласования ожиданий: (¯
x
1
, ..., ¯
x
n∗
) ∈ E
x
1
, ..., ¯
x
n∗
).
В частности, для Нэшевской концепции решения, правило соответствия ожиданий очень простое E(x) = (x
11
, x
22
, ..., x
nn
) × (x
11
, x
22
, ..., x
nn
) × ... × (x
11
, x
22
, ..., x
nn
), то есть ожидания должны соответствать действительно выбранным стратегиям. Напротив,
для концепции осторожного решения (MaxMin) ожидания соответствуют наихудшим гипотезам о партнерах.
19
Возможно записать в форме отображения предположений E(.) и другие правила,
в том числе, соответствующие равновесию Штакельберга и итерационному доминиро- ванию, но это громоздко, и мы этого не коснемся.
Итак, в этом параграфе выражен взгляд на различные концепции решений, как на ситуации, различающиеся именно ожиданиями о партнерах, но не типами рациональ- ности поведения (методами рассуждений игроков). Противоположный взгляд - что рациональность бывает разная - теоретически менее последователен, но практически тоже часто бывает удобен.
19
Как уже отмечено, в ситуации антагонистической игры это достаточно реалистично, но в других случаях одновременные решения игроков при таком правиле ожиданий могут приводить к исходу,
неожиданному для них: пессимизм не всегда оправдается. В этом смысле MaxMin, в отличие от NE,
не во всех играх можно назвать равновесием, ведь трудно представить себе популяционную игру, где одни и те же ожидания нарушаются из раунда в раунд.
34

2
Глава.
Игры в развернутой форме (“динамиче- ские” или “последовательные”)
Перейдем к рассмотрению игр, заданных в развернутой форме, то есть в виде описа- ния не стратегий, а отдельных ходов и их последовательностей. Для этой цели часто применяются сетевые структуры – графы, причем преимущественно — “исходящие”
деревья.
2.1
Формализация последовательных игр, соответствие развер- нутой и нормальной формы игры
Исходящим деревом (out-tree) называют связный направленный (ориентированный)
граф с единственным истоком (“корнем”), если в графе нет циклов, и каждый узел имеет единственного непосредственного предшественника.
Часто полезно отражать игры и графами более общего вида, но, как правило, "фун- дированными".
Фундированным называют связный направленный граф с одним истоком (корнем) и без циклов.
Упражнение.
Чтобы понять, что дерево - не всегда самое экономное представление игры из возможных, представьте девятиклеточные “Крестики-нолики” фундированным гра- фом, не являющимся деревом (в некоторые позиции можно попадать из разных предше- ственников). Для упрощения можно считать первый ход “Х - в центр” уже сделанным, и идентифицировать ходы именами типа “0 - в угол”, “Х - в противоположный угол”, отожде- ствляя тем самым эквивалентные ситуации. Докажите, что цена игры - “ничья”.
Граф игры мы будем обозначать Γ(G), точки выбора участников будут “узлами”,
а ходы – “дугами” графа. Каждому конечному узлу, то есть (финальной) “вершине”,
или “исходу” игры, приписываются некоторые выигрыши всех участников. Тем са- мым, граф игры задает физическую и целевую структуры игры, а информационная структура игры отражается “информационными множествами”, а также отдельно от графа, например, в той или иной концепции решения.
Определение 2.1.1 Информационное множество или информационная позиция иг- ры есть несколько узлов (физических позиций) графа игры, соответствующих опреде- ленному ходу одного участника, который не может различать между ними (не знает,
в котором узле он находится).
Очевидно, одновременная игра есть частный случай последовательной, где у каж- дого игрока просто всего одно информационное множество.
Чтобы подойти к концепции решения последовательных игр, рассмотрим примеры.
Пример 2.1 (“Террорист”) Предположим, в самолете летящем из Майами в Нью-
Йорк обнаруживается террорист, обещающий взорвать бомбу, если самолет не повер- нет на Кубу. Допустим, пилот, от которого зависит решение, считает свою смерть
(неважно где) хуже посадки на Кубе, которая, в свою очередь, хуже посадки в Нью-
Йорке. Это можно отразить, например, такими выигрышами пилота: U
P ilot
(...) :=
(Bomb → 0, Cuba → 1, New-Y ork → 2). Предположим, данный террорист также жизнелюбив и не хочет умирать, и это видно по его лицу, только он Кубу предпо- читает Нью-Йорку. То есть его цели можно задать в виде U
T errorist
(...) := (Bomb →
35

0, Cuba → 2, N ew-Y ork → 1). Пилот должен выбрать, поворачивать ли на Кубу, а за- тем террорист – взрывать ли бомбу, как обещал. Что произойдет, если летчик почему- то, например, по жизнелюбивому виду террориста, вполне уверен в своем (истинном)
предположении о целях террориста, то есть его ожидания о целях партнера истинны:
β
pilot
(u
terr
) = (Bomb → 0, Cuba → 2, N − Y → 1)?
Для ответа формализуем игру. Можно представить варианты этой игры с после- довательными ходами двумя деревьями: Рис. 3 отражает случай, когда террорист
НАБЛЮДАЕТ ход пилота, а Рис. 2 - противоположный случай (довольно глупый:
что ж тогда угрожать? Но нам важно сравнить их.). То есть, в случае “Б” терро- рист не способен глядя в иллюминатор определить, куда ведут самолет. Это игра с
несовершенной (неполной) информацией о сделанных ходах. Это отражается на дере- ве игры объединением пунктиром узлов, неразличимых для игрока принимающего здесь решение, объединенные так узлы составляют информационное множество,
или “историческую позицию” игры.
В этом случае игрок вынужден принимать решение вслепую, и то, что он ходит вто- рым, а не первым – не имеет значения, равно как и его объявленная в духе cheap-talk
(пустые слова) стратегия [N-Y bomb, Cuba peace]. Тогда мы можем представить соответствующее дерево “Б” (Рис. 2) в уже известной нам нормальной стратегической форме следующей матрицей стратегий и выигрышей:
Pilot
Terr-st
Terr-st
*
j
*
z
1
q
0, 0 2, 1 0, 0 1, 2
N-York
Cuba bomb peace peace bomb
0, 0 0, 0 1, 2*
2, 1
bomb peace
New-YorkCuba
Pilot
Terrorist j
¼
1
j
Рис. 2: Игра “Террорист”-Б — без наблюдаемости хода. Развернутая (слева) и нор- мальная (справа) формы.
Если пилот знает цели партнера, то легко предсказать, что он определит его стра- тегию “peace” как строго доминирующую, и выберет для себя “New-York”. Это про- изойдет и в том случае когда он рассуждает как Штакельберговский лидер, и по концепции “сложного равновесия”, и просто по доминированию – независимо от зна- ния целей партнера. По сути, подобная игра без наблюдаемости хода эквивалентна одновременным играм, изученным выше, и новых понятий не требует.
Интереснее случай “Н” с наблюдаемостью курса самолета. Для прояснения соотно- шения развернутой и нормальной форм игры на Рис. 3 она переведена и в нормальную форму.
Здесь стратегия (b, b) означает намерение бомбить и в случае поворота на Нью-
Йорк (первая компонента вектора (b, b)), и в противоположном случае. Все страте- гии террориста, кроме последней (p, p), выглядят глупо с точки зрения его целей, но они физически возможны, поэтому вносятся в матрицу. Важно заметить: стратеги- ей является не ход, а полная инструкция себе — как ходить в ответ на каждый ход противника, то есть в каждом информационном множестве (исторической позиции).
36

Pilot
Terr-st
Terr-st
*
j
*
z
1
q
0, 0 2, 1 0, 0 1, 2
N-York
Cuba bomb peace peace bomb
0, 0 0, 0 0, 0 2, 1*
N-York Cuba
Pilot:
Ter-st:
j
¼
1, 2*
0, 0 1, 2*
2, 1
(b,b)
(b,p)
(p,b)
(p,p)
(N,C)
6 6
Рис. 3: Игра “Террорист-Н” — с наблюдаемостью хода. Развернутая (слева) и нормаль- ная (справа) формы.
Поэтому, в отличие от случая “Б” с несовершенной информации о сделанных ходах
(который можно интерпретировать и как игру с одновременными ходами) матрица нормальной формы соответствующая новому дереву оказывается размером не 2 × 2, а
2 × 4 — матрица стратегий уже обширнее матрицы выигрышей (возможных исходов).
Более того, в отличие от случая “Б”, по ней уже нельзя однозначно восстановить дере- во из которого она построена, часть информации утеряна. В этом смысле развернутая форма записи игр более информативна, чем нормальная.
Итак,
каждая последовательная игра, заданная графом, одно- значно может быть представлена и в нормальной форме (свер- нута). Но обратное действие - восстановление развернутой формы по нормальной - может быть неоднозначно, поскольку свертывание теряет информацию о последовательности ходов.
2.2
Стратегии нормальные и пошаговые, мультиперсонная фор- ма игры и SPNE
Что есть стратегия? Абстрактно, "полная” или нормальная стратегия — это план-предписание своего поведения в любой ситуации.
В данном же контек- сте, в терминах графа, можно сказать, что полная стратегия есть вектор, описыва- ющий избранные ходы в каждой возможной информационной позиции. Формально,
если мы обозначим последовательные исторические позиции (historical nodes) игро- ка А символами h
1A
, h
2A
, h
3A
, ..., а переменные ходов в этих позициях x
1A
, x
2A
, x
3A
, ...
(каждая переменная может принимать столько значений, сколько выходов из этой позиции), то нормальная стратегия s
A
есть набор s
A
= (x
1A
, x
2A
, x
3A
, ...) описываю- щий поведение в каждой позиции. Соответственно, выписав по ходам все возможные стратегии и приписав выигрыши всем профилям стратегий, развернутую игру можно свести к нормальной.
Достаточно ли этого свернутого ("нормального”) представления динамической иг- ры и введенных ранее концепция решений (NE, IND), чтобы предсказывать ее исходы,
или нужно пользоваться графом и вводить новые идеи? Несколько последующих раз- делов убеждают во втором мнении.
Например, в матрице стратегий примера “Террорист-Н” можно заметить целых
37
три Нэшевских равновесия, и одно из них ((b, p),(Cuba)) соответствует простой по- слушной реакции пилота на объявленную на словах стратегию террориста (b, p). Но это равновесие и еще одно ((p, b),(N-York)) – кажутся неправдоподобными с точки зрения содержательного описания игры, и с точки зрения дерева игры. Разве мож- но поверить, что жизнелюбивый террорист действительно взорвет бомбу после того как увидит, что его не послушались? Эти стратегии слабо доминируются стратегией
“peace” в любой ситуации: (p, p). Кроме того, и это важнее, они сильно доминируют- ся стратегией “peace” как в подыгре исходящей из узла N-York, так и в “подыгре”
исходящей из узла Cuba.
Определение 2.2.1
Подыгрой называют подграф исходной игры, связный от некоторого узла — корня подграфа — до его финальных вершин, и изолированный, то есть не имеющий ни физических ни информационных
(через информационные множества) связей с другими подграфами игры,
кроме дуги входящей в его корень.
В нашем примере правдоподобным в смысле рациональности поведения в подыграх представляется только одно из трех Нэшевских равновесий ((N-York),(p, p)). То есть,
террорист, если он рационален, остановится на стратегии “не бомбить ни в каком случае”, как в подыгре, возинкающей после хода (N-York), так и в другой. А пилот,
понимая это, полетит в Нью-Йорк.
Итак, в примере “Террорист” мы выделили среди нескольких NE равновесий одно правдоподобное, с учетом складывающихся по ходу игры ситуаций. Эту идею сужения множества потенциальных исходов благодаря рациональности поведения не только в
начальной точке, но и позже, можно задать так.
Определение 2.2.2
Назовем совершенными в подыграх (Нэшевскими) рав-
новесиями (SPE = SPNE= Subgame Perfect (Nash) Equilibrium) Нэшев- ские равновесия, являющиеся Нэшевскими равновесиями во всех поды- грах (в том смысле, что сужения равновесных стратегий на подыгры яв- ляются равновесиями в них).
Заметим, что эту общую идею рациональности поведения "по ситауции"можно отразить и через другую форму стратегического представления исходной игры, назы- ваемую мультиперсонной. Это означает, что один и тот же игрок, в разных ситуациях
(узлах дерева) представлен разными (“условно-ситуационными”) игроками. У каждого условного игрока стратегия тогда не вектор, а скаляр – один ход. Эти стратегии ино- гда называют поведенческими (behavioral) или пошаговыми, ситуативными. В этой форме игра "Террорист” представлена в Таблице 13.
Pilot↓ \ N-Y-Terr-st
bomb peace
N-Y
0, 0, 0 2, 1, 1
Cuba
0, 0, 0 1, 2, 2
Pilot↓ \ Cuba-Terr-st
bomb peace
N-Y
0, 0, 0 2, 1, 1
Cuba
0, 0, 0 1, 2, 2
Таблица 13: Мультиперсонное представление игры “Террорист”.
В данном примере, при мультиперсонном представлении Террорист превратится в двух лиц – Террориста в Нью-Йорке, и Террориста на Кубе. Естественно, выигрыши
38
обоих Террористов в образующейся при этом игре трех лиц (Пилота и двух разных террористов) совпадают, но действуют они каждый за себя. Это соответствует ги- потезе действия “по ситуации”, в противоположность действию по заранее объявлен- ному плану. Тем самым, при мультиперсонном представлении используется гипотеза
отсутствия возможности “creadible commitment”, то есть “обязательства, вызыва- ющего доверие”.
Обозначим через NE
mult
множество Нэшевских равновесий в мультиперсонном стратегическом представлении игры.
В этом примере единственное NE
mult
, а именно, (x
P
= N − Y, x
T N
= p, x
T C
= p).
Это же, по сути, решение является и единственным SPNE: (x
P
= N − Y, x
T N
= (p, p)).
Мы предполагаем, что пилот верит в поведение партнера “по ситуации”, а не в обяза- тельство бомбить в Нью-Йорке. Выражая это в мультиперсонных терминах, он просто выбирает, с кем из “условно-ситуационных” Террористов столкнуться. (Если бы летчик верил в обещание Террориста бомбить в Нью-Йорке, игру следовало бы представлять другим деревом, или вместо SPE применять другую концепцию решения.)
На первый взгляд, правдоподобно следующее утверждение:
“Некоторый профиль стратегия является совершенным в подыграх решением (SPE)
тогда и только тогда, когда это есть Нэшевское равновесие, являющееся Нэшевским равновесием и в мультиперсонном (пошаговом) представлении игры.”
Однако, оно опровергается примером “решения с дискоординацией” ниже.
Пока мы всюду старались вести рассуждения в общей форме, пригодной для при- менения и к исходной, конечной или бесконечной игре, и к расширенной (смешанной)
игре (правда, смешивания стратегий бесконечных игр мы не касаемся). Теперь заме- тим, что стратегии или ходы в динамические игры могут быть не только целыми, но и
смешанными, как и в статических (одновременных) играх. Здесь отличие пошаговых стратегий от "полных” становится важным:
Выгодно ли для игрока смешивать полные стратегии вида s
A
= (x
1A
, x
2A
, x
3A
, ...),
или выгоднее сначала смешивать отдельные ходы, а потом объединять их в полную смешанную стратегию, или это все равно? Одинаково ли множество NE
m

в том и другом случае?
Условия эквивалентности того и другого типа поведения определяются теоремой
(см. В.И.Данилов, 2001): Для конечной игры с полной информацией и рацио- нальностью оба способа смешивания эквивалентны.
2.3
SPNE и обратная индукция
Во многих динамических играх, довольно естественно решения типа SPE (=SPNE)
искать алгоритмом обратной индукции, то есть “алгоритмом Куна”, по сути эквива- лентным определению SPE (проверьте это самостоятельно). При полной информации о сделанных ходах, он описывается так:
1. Отбрасываем (вычеркиваем) сильно доминируемые стратегии во всех финальных подыграх (содержащих только вершины и предвершинные узлы).
2. Невычеркнутые значения выигрышей переносим на предвершинные узлы. Если невычеркнутых значений несколько – то переносим все эти варианты, или, что то же, создаем несколько вариантов дерева игры.
39

3. Редуцируем каждую игру (каждый из вариантов дерева), удаляя уже рассмотрен- ные вершины, то есть считаем бывшие предвершинные узлы новыми финальны- ми вершинами. Если остался не только корневой узел, то повторяем операции
1–3, уже над редуцированной игрой.
END: В конце останутся возможные значения выигрышей в корневом узле и цепочки,
которые их породили — каждая из них означает одно из равновесий SPE, и включает нереализовавшиеся, но подразумеваемые ветви дерева (ожидания).
В случаях со скрытой информацией, нужно рассматривать соответствующие поды- гры как одновременные игры. Их NE считать исходом этих подыгр и использовать далее в редукции дерева игры.
Проще всего этот алгоритм срабатывает, когда (в отличие от примера “Террорист”)
информация полная и каждый игрок имеет различные выигрыши в различных вер- шинах.
20
Тогда результат алгоритма (то есть SPE) единственен. По сути дела, понятие
SP E включает идею оставить итерационно-сильно-недоминируемые стратегии, толь- ко порядок отбрасывания доминируемых стратегий изменяется. Оно проводится по подыграм и порядок определен деревом игры Γ, а не требованием одновременности как в INDS. Если отображать эти операции с игрой на "шахматке” ее нормальной формы, то на любом примере можно заметить, что отбрасывание одной ветви дерева по сильному доминированию соответствует отбрасыванию соответствующей СЛАБО
доминируемой стратегии шахматки, или нескольких таких стратегий (отбрасываются не все доминируемые). Эта разница может иметь значение: например, в игре “Тер- рорист” INDS
Γ
не совпадает с INDS игры в нормальной форме, а только с INDS
мультиперсонной формы игры.
Итак, пользуясь обратной индукцией и отбрасывая СИЛЬНО доминируемые в подыграх стратегии, мы по сути отбрасываем некоторые (возможно, не все!) СЛАБО
доминируемые стратегии нормального представления этой игры, причем в определен- ном порядке, заданном графом.
Из этого следует некоторые соображения. Во первых SPNE NE не только по определению, но и опираясь на выше-доказанное утверждение, о том, что отбрасыва- ние доминируемых стратегий не расширяет множество NE.
Второе - что любое INDW
Γ
окажется SPE, т.е. INDW
Γ
⊂ SP E = INDS
Γ
6= IN DS
(под IND
Γ
имея в виду итеративно-недоминируемое решение нормальной формы этой игры, образованное по порядку отбрасывания графа).
Третье, менее тривиальное - это выделение случаев, когда порядок не важен, и
SPE можно находить через INDW произвольного порядка отбрасывания в нормальной форме, не обращаясь к графу (см. теорему Куна ниже).
2.3.1
“Дискоординация” в мультиперсонном представлении игры и “обя- зательство” (commitment)
На первый взгляд, можно определить SPE через пересечение NE в нормальной форме и NE в мультиперсонной. Но отметим, что решение Нэша в мультиперсонном пред- ставлении может быть шире чем NE в нормальном. Рассмотрим соответствующий пример “дискоординации”.
20
К однозначности выигрышей игру иногда можно привести, объединяя вполне эквивалентные вершины графа в одну. Тогда, скажем, шахматы имеют всего три финальные вершины, только до- стигаемые многими путями: выигрыш, проигрыш, или ничья белых.
40

Суть “дискоординации” в том, что в решении NE
mul
благодаря неадекватным и несогласованным верам, я завтрашний поступаю несогласованно со мной сегодняш- ним, возможно упуская часть выгоды от координации. Поэтому NE
mul
неадекватно для описания полной рациональности. Напротив, SPE свободно от этого недостат- ка. Но в некоторых играх оно обладает другим недостатком этого типа, называемом проблемой “невозможности обязательств” (lack of credible commitment). Скажем, в разобранной игре “Террорист”, если бы Террорист на предварительной стадии, до иг- ры, мог связать себя обещанием автоматически взорвать бомбу при посадке в Нью-
Йорке, то он выиграл бы больше! Это парадоксальное на первый взгляд связывание себя
21
, то есть ограничение своих последующих возможностей, часто приносит выго- ду. А обратное – невозможность связать себя обязательством – воспринимается как обидная неэффективность, препятствующая взаимовыгодным сделкам. (См. также в задачнике примеры: Мосты Цезаря, Веревки Одиссея, Цена репутации при кредите.)
С точки зрения моделирования всех таких ситуаций, появление возможности обя- зательства (commitment) должна изображаться на дереве игры дополнительной вет-
кой, не имеющей последующих разветвлений для игрока, дающего обязательство. В
примере Террорист это выглядело бы так:
Таким образом, возможность связать себя есть дополнительная возможность, это новая игра, и получение большего выигрыша в равновесии при возможности обяза- тельств (commitment) не так уж парадоксально.
2.3.2
О существовании решений SPE, единственности и совпадении кон- цепций
Утверждение 2.3.1 В развернутой форме конечной игры с совершенной инфор-
мацией (о ходах) сущестование и обычных и совершенных решений Нэша гаранти-
ровано: SP E 6= ∅ (следовательно и NE 6= ∅).
Действительно, существование решений очевидно из алгоритма Куна. Он по суще- ству лишь задает (конечный) алгоритм отбрасывания сильно доминируемых в по- диграх стратегий; но отбрасывая одну стратегию, мы всегда сохраняем в множестве допустимых стратегий ту, что ее продоминировала, так что множество SP E не мо- жет остаться пустым. Включение NE ⊃ SP E следует из определения SP E и влечет
NE 6= .
[[[]]]]
Существование же решений для игр с несовершенной информацией (нетривиаль- ными информационными множествами) не гарантировано, как мы видели в разделе статических (одновременных) игр.
В динамической игре (на дереве Γ) можно рассматривать и итерационное сла- бое доминирование, то есть понятие IN DW
Γ
. В нем порядок отбрасывания стратегий задается деревом игры Г, а не одновременен, как в обычном INDW . Это иногда суще- ственно, а иногда - нет. Скажем, в игре “Террорист” порядок слабого доминирования не важен: решение INDW = INDW
Γ
оказалось одно и то же. Это не всегда так, как мы увидим в примере (Табл. 16). Итак, в общем случае совпадение INDW
Γ
= SP E
или INDW
Γ
= INDW не обязательно, можно гарантировать только INDW
Γ
⊂ SP E,
21
Сравн. пример “веревки Одиссея” в задачнике.
41
и вообще, вложение итерационно-слабо-недоминируемых решений в сильные при сов- падении порядка отбрасывания. Это вложение можно доказать (проверьте это само- стоятельно), поскольку “слабое” доминирование вычеркивает больше стратегий, чем
“сильное”, принятое для SP E.
Частное достаточное условие единственности и, следовательно, совпадения реше- ний INDW
Γ
=SP E есть “отсутствие неполного совпадения выигрышей в исходах”.
Здесь это утверждение распространено на фундированные графы, что упрощает фор- мулировку (это позволяет пару вполне эквивалентных по выигрышам вершин объеди- нить в графе, и считать одной вершиной). Заодно мы сформулируем теорему Куна:
Теорема 3 Пусть в динамической конечной игре с совершенной информацией,
описанной фундированным графом, каждый игрок имеет различные выигрыши в раз-
ных вершинах (нет пары вершин с одинаковыми для него выигрышами).
22
Тогда
1) Решения SP E = INDW
Γ
совпадают между собой и с результатом алгоритма
обратной индукции, причем результат существует и единственен по выигрышам.
2) [ Кун ] Эти решения совпадают с решением SoE (исходом при одновременном
порядке слабого итерационного доминированию в стратегическом представлении иг-
ры).
Доказательство пункта (1) о существовании (см. Мулен-1985) — довольно очевидно из алгоритма. Действительно, каждый шаг отсечения вершин в алгоритме Куна даст при принятых гипотезах единственный вектор выигрышей. По индукции получаем единственное решение алгоритма. Легко проверить, что это и есть SP E= INDW
Γ
, и что других равновесий SP E, INDW
Γ
нет.
Доказательство пункта (2) – теоремы Куна – нетривиально и опускается (см. Му- лен, 1985).
[[[]]]]
Отсюда следует, что если игра в стратегической форме представима фундирован- ным графом с различными в указанном смысле исходами, то SoE существует и един- ственно по выигрышам. Отсюда следует, в частности, существование решения SoE
в шахматах (теорема Цермело), в шашках, и всех конечных настольных играх с совершенной информацией. Но этого нельзя сказать о карточных играх, где инфор- мация о текущем положении игры обычно скрыта (несовершенна), и решение в чистых стратегиях может отсутствовать.
Упражнения:
Пример 2.2 “Пираты”. (Мулен, 1985). Пусть на пиратском корабле 50 разного старшинства пиратов делят 100 кусков золота по следующему обычаю. Старший пред- лагает дележ – кому сколько. Если половина команды (включая его) согласна, то так и будет, иначе его выбросят за борт, а оставшийся старшим предложит дележ, и так далее.
Предскажите, кто сколько получит, вплоть до младшего юнги (SPE = INDW
Γ
?).
22
Здесь подразумевается, что в исследуемой игре любые вершины, совпадающие по выигрышам для всех игроков, можно объединить в одну вершину, и применить эту теорему к этой новой игре.
Тем самым, приведенный здесь вариант эквивалентен другому варианту теоремы, где разрешается совпадение выигрышей в некоторых вершинах, но тогда уж выигрыши должны совпадать для всех участников.
42

Пример 2.3 “Камешки”. Пусть Андрей и Борис договорились, что из лежащих перед ними n=10 камешков Андрей возьмет 1 или 2, по желанию. Потом Борис 1 или
2, и так далее, а взявший последний камень проиграл.
Кто выиграет при идеальной игре обоих, первый или второй? Сохранится ли ре- зультат, если можно брать 1 или 2 или 3? Каков общий метод решения всех таких задач ∀n? (SPE = INDW
Γ
?)
2.4
Решение SPE в непрерывной игре
В непрерывных (по стратегиям и/или времени) играх применение тех же идей и алго- ритма обратной индукции аналогично. Только вместо дерева нужно представлять себе
(даже если не удается нарисовать) некоторый граф с бесконечными разветвлениями
(типа секторов круга).
Пример 2.4 (“Последовательный торг по Рубинштейну”) (Дележ убывающе-
го пирога= дележ выгоды при инфляции).
(A.Rubinstein, 1959, see also H.Varian “Microec.Analysis”)
Уезжая из дома, мать оставила двум жадным детям пирог, с таким условием. Сна- чала Анна предложит дележ ¯a
1
[0, 1] (свою долю), если Виктор согласен, то так и будет, иначе через час Виктор предложит дележ ¯
v
2
[0, 1] (свою долю). Если Анна не согласна, она через час сделает третье предложение дележа ¯a
3
[0, 1], и так далее. С
каждым часом полезность пирога убывает некоторым темпом (возможно, от нетерпе- ния, или от засыхания пирога, когда α = β). Конкретнее, через час остается α ∈ (0, 1)
исходной полезности для Анны и β ∈ (0, 1) полезности Виктора. Если, скажем, на k-й итерации они согласились на дележ (¯a
k
, ¯
v
k
); ¯a
k
+ ¯
v
k
= 1, то полезность Анны от него будет A
v
k
) = a
k
= α
k
¯a
k
, полезность Виктора — V
v
k
) = v
k
= β
k
¯
v
k
. Зная конечный период T , в течение которого пирог остается съедобен, нужно предсказать, на какой итерации и как (рациональные и жадные) дети поделятся (подобная игра очень ти- пична в ситуации, когда две фирмы способны осуществить взаимовыгодный проект,
но надо договориться о разделе прибыли, а время переговоров означает упущенную прибыль).
Анализируя эту игру торга, для простоты будем считать α = β = 1/2, Т=4, и нарисуем дерево (если можно так выразиться) этой непрерывной по стратегиям игры:
6
-
1 8
1 4
1 1
a
t
v
t
*
q
)
*
q
)
*
q
)
*
q
)
a
1
v
2
a
3
v
4 0
0 0
0 1
1 2
1 2
1/4 1/8
^
^
6
^
^
-
ref use
A5
agree
V 2
a
1 1 − a
1 1 − v
2
v
2
a
3 1 − a
3 1 − v
4
v
4 0,
0
A
1
agree
A5
agree
A3
agree
V 4
SP E
(
3 8
,
5 8
)
Рис. 4: Игра: дележ убывающего пирога по Рубинштейну (последовательный торг).
43

Решение игры в изображенном простом случае (общий случай, и бесконечный вари- ант игры рассмотрите самостоятельно) легко найти с помощью ступенчатой диграммы уровней полезностей, алгоритмом обратной индукции. Действительно, решим игру с конца: предположим она дошла до последнего, четвертого периода, где Виктор пред- лагает дележ. Если Анна откажется, то оба получат 0, поэтому она согласится на дележ a
4
> 0 сколь угодно близкий к нулю, что изображено нижним концом пунк- тира. Виктор же тогда получит почти все от оставшегося пирога, то есть почти 1/8.
Зная это, на третьем шаге Анна должна предложить партнеру полезность не менее
v
3
= 1/8, тогда пунктирная линия дает точку 2, где оба имеют примерно по 1/8. Зная это, Виктор на втором шаге предложит партнеру примерно a
2
= 1/8, а сам получит остальные 3/8. Аналогично мы получаем SPE: дележ первого шага a
1
= 5/8, v
1
= 3/8,
который и случится, при принятой гипотезе полной рациональности.
Упражнение. Предположите, что дисконты (“кофициенты терпения”) Анны α и
Виктора β разные, как и в чью пользу (терпеливого ли) изменится решение? Обобщите решение для произвольного числа периодов Т, и для бесконечного T = , например,
переходом к пределу. (Проверьте A = (1 − β)/(1 − αβ), V = (1 − α)β/(1 − αβ).)
Пример 2.5 Упражнение: Игра входа в отрасль.
Пусть есть отрасль с функцией обратного спроса (ценой от суммарного объема)
вида p(Y ) = 9 − Y и монополистом - старожилом в этой отрасли, с постоянными пре- дельными издержками ˙c
1
(y
1
) = 1 (проверьте, что монопольная цена p
M
= 5). Пусть потенциальный новичок, входя в отрасль, должен сделать невозвратные начальные капиталовложения K = 1 и ожидает предельные издержки ˙c
2
(y
2
) = 2. Пусть отрасль может просуществовать два периода (можно обобщить на n) и дисконта нет: прибыли сегодня и завтра равноценны, альтернативное вложение капитала K - с нулевым про- центом. Старожил обещает новичку в случае входа добиться (повышением выпуска)
снижения цены достаточно низко (< 2), чтобы заставить новичка прекратить произ- водство, предполагая, что после этого новичок банкрот и во втором периоде можно сохранять монополию. Если же новичок войдет, то ожидается решение Штакельберга
(т.е. SP E
Old,N ew
): лидер- старожил установит выпуск раньше). Стоит ли верить этой угрозе или он блефует и можно входить? Обобщите задачу для различных данных
˙c
2
(y
2
) 6= 2, K 6= 1.
2.5
SPE и INDW
Γ
при равновыгодных исходах или несовер- шенстве информации
Теперь рассмотрим SPE и INDW
Γ
в более сложном случае: при совпадении некото- рых значений выигрышей и/или при неполной информации о сделанных ходах. Легко увидеть, что здесь, в отличие от случая предыдущей теоремы, решений может быть множество. Но с существованием решений проблемы могут возникать только при несо- вершенстве информации.
Пример 2.6 Случай “С” описанной на (Рис. 5) игры возможен, если террорист —
психически особенный человек (это с ними бывает): ему все равно, жить или нет, но приятнее умереть или жить на Кубе. Летчику же смерть в Нью-Йорке предпочтитель- нее смерти на Кубе, а где быть живым - все равно. Тогда возникает много равновесий
SP E (3 исхода, исключая (Cuba,Bomb)). Но ни одного SoE
Γ
, поскольку вектор вы- игрышей пилота при курсе Нью-Йорк (2,1) слабо доминирует над альтернативным, и
44
множество IN DW
Γ
итерационно (слабо) недоминируемых стратегий состоит из двух неэквивалентных исходов: IN DW
Γ
= {(N −Y, P eace) (2, 1); (N −Y, Bomb) (0, 1)}.
Итак, IN DW 6= INDW
Γ
6= SP E.
Pilot
Terr-st
Terr-st
*
j
*
z
1
q
1, 1 2, 1 0, 2 2, 2
N-York
Cuba
Bomb
Peace
Peace
Bomb
Pilot
Terr-st
Terr-st
*
j
*
z
1
q
1, 1 2, 1/2 0, 0 2, 2
N-York
Cuba
Bomb
Peace
Peace
Bomb
Case C: full information, but equal payoffs
Case D: imperfect information
Рис. 5: Игра “Террорист - камикадзе”: много решений SPE 6= SoE
Γ
В варианте “D” игры “Террорист” похожее несовпадение. Здесь выигрыши раз- личны, но неинформированность террориста о ходе летчика (не видно, куда летим)
позволяет ожидать от него любых ходов. В результате опять неединственно равно- весие SP E (поскольку собственных подыгр нету, то оно равно NE={ (N-Y,Bomb),
(Cuba,Peace)} ), но одно INDW
Γ
В подобной игре, которая эквивалентна одновременной, иногда ни Нэшевского,
ни тем более совершенного в подыграх решения не существует (мы видели это при некоторых вариантах выигрышей, скажем, в игре "Монетки": ((1,0),(0,1),(0,1),(0,1)) ).
Упражнение. Формализуйте графом игру “Выбери масть и картинку” (см. Табли- цу 2.7 ниже) и сравните SPE и INDW.???
2.6
Неполная информация о типе партнеров: Байесовское рав- новесие
Ранее мы предполагали, что игроки либо ничего не знают о целях партнеров (концеп- ции MM, DE), либо знают их точно (SoE,SPE). Теперь рассмотрим случай, когда игрок имеет представление о нескольких типах возможных партнеров с известными целями и гипотезу о вероятности встретить каждого из них (Байесовское равновесие). Для этого мы используем общее представление о выборе в условиях риска, разработанное
Нейманом и Моргенштерном - максимизацию ожидаемой полезности (см. микроэко- номику).
Чтобы ввести понятие Байесовского равновесия, рассмотрим пример “Инспекция”.
По сути, это описание равновесия в некоторой популяции инспекторов и нарушителей,
но отдельный эпизод встречи такой пары - есть двухшаговая игра. Сначала ходит природа (случай), выбирая типы, которые встретились, а затем одновременно (не видя типа партнера) ходят настоящие игроки.
45

Пример 2.7 Нарушитель и инспектор. Рассмотрим игру, где две роли: потен- циальный нарушитель и инспектор. Например, нарушение состоит в том, чтобы вы- пить садясь за руль, а инспектор — сотрудник ГАИ. Предположим, в первой роли бывает по два подтипа: “наглый” водитель, который не очень боится штрафов, или
“робкий” водитель. Также и инспектор может быть “старательный”, или “ленивый” —
то есть сильно недовольный, когда проверит зря. Эти гипотезы отражены в следую- щей матрице - Таблице 14.
Таблица 14:
Инспекторы:
Стара- тельный
Лени- вый
Контр-ть Лениться Контр-ть Лениться
Наглый: Пить
3 0
1 0
-1 2
-1 2
Наглый: Не пить
-1 0
-4 0
1 0
1 0
Робкий: Пить
3 0
1 0
-3 1
-3 1
Робкий: Не пить
-1 0
-4 0
1 0
1 0
Чтобы предсказать, какая обстановка сложится на этом посту ГАИ: часто ли во- дители станут проезжать его с нарушением, и часто ли их будут проверять (что,
очевидно, связано), нужно задать гипотезы о частоте, с которой встречаются в при- роде типы. Пусть “наглым” водитель бывает с частотой ν ∈ [0, 1], а робким — (ν − t),
а инспектор бывает старательным с частотой µ ∈ [0, 1]. Зададим концепцию решения.
Определение 2.6.1 Рассмотрим игру, где имеется n игроков (ролей) i = 1, .., n и каждый из них может оказаться одним из нескольких (T ) типов t = 1, .., T , (для про- стоты записи пусть T одинаково во всех ролях) различающихся целевыми функция- ми, но не возможностями ходов. Пусть каждый игрок/тип (jt) знает “объективные”,
то есть известные всем вероятности (µ
i1
, .., µ
iT
)
∀i
появления типов и максимизирует матожидание своей полезности U
jt

x), зависящее от матрицы ¯
x := (x
it
)
t=1,..,T
i=1,..,n
текущих стратегий выбранных всеми игроками/типами.
23
Тогда Байесовское равновесие BE есть такой набор ¯
x стратегий (возможно, сме- шанных) что ни одному игроку/типу нет выгоды отступать от текущей стратегии при знании частоты типов и гипотезе, что все остальные не отступают от своих. Равнове- сие называют “вполне разделяющим” (separating equilibrium), если разные типы всех ролей действуют в нем по-разному, его называют “вполне объединяющим” (pooling equilibrium), если разные типы действуют в нем одинаково в своих ролях. В других случаях говорят о частично разделяющем (объединяющем) решении.
Легко заметить, что BE есть (смешанное) SPE в двухшаговой игре, или просто Нэ- шевское равновесие в подходящим образом заданной игре, а именно в такой, где до-
23
Зависимость от ходов игроков той же роли и своего хода практически не используется, но фор- мально удобнее аргументом считать всю матрицу.
46
полнительный игрок – природа – задал раз и навсегда свои смешанные стратегии
µ
i1
, .., µ
iT
∀i.
24
Чтобы найти BE в примере “инспектор/нарушитель”, будем проверять все ва- рианты. Проверим сначала “разделяющее” равновесие вида (N
nagl
, N
robk
, I
star
, I
leni
=
(Пить,Непить, Проверять, Непр.). Запишем условие, необходимое, чтобы “Наглый” не отступил в этой ситуации от стратегии Пить:
U
nagl
(Пить, Непить, Контр., Лень)= 1ν +2(1−ν) ≥ U
nagl
(Непить, Непить, Контр.,
Лень)= 1ν + 0(1 − ν) 2 4ν ⇔ 1/2 ≥ ν.
Аналогично, чтобы “Робкий” не отступил в этой ситуации от стратегии Непить:
U
robk
(Непить, Непить, Контр., Лень)= 1ν + 0(1 − ν) ≥ U
robk
(Пить, Непить, Контр.,
Лень)= 3ν + 1(1 − ν) ⇔ ν ≥ 1/5.
Так же проверяя совместимость стратегий Проверять для Старательного и Непро- верять для Ленивого с текущими стратегиями Наглого и Робкого, найдем, что огрни- чения на вероятность µ = t, при которой обсуждаемое “вполне разделяющее” равно- весие возможно, должна лежать в пределах ... ≤ t ≤ ..., ... ≤ ν ≤ ....
Могут ли в этой игре быть “объединяющие” или “частично объединяющие” рав- новесия, то есть такие, где типы в одной из ролей ведут себя одинаково? Рассмотрев матрицу выинрышей, легко установить, что это невозможно. Например, если оба ин- спектора “Ленятся”, тогда оба водителя начинают “Пить”. После этого оба инспектора начнут проверять, и так далее, так или иначе, игра не стабилизируется в этом “объеди- няющем” состоянии. Аналогично проверяется и неравновесность остальных объединя- ющих состояний. Поэтому решения могут быть только среди “вполне разделяющих”
вариантов.
Что же тогда произойдет, когда ν, t не попадают в пределы, при которых возможно
“разделяющее” равновесие? Очевидно, Байесовского равновесия в чистых стратегиях тогда нет, игра раскачивается, и нужно обсуждать Байесовское равновесие в смешан- ных стратегиях, подобное NE
m
. Впрочем, легко догадаться, что это и есть NE
m
в подходящим образом сформулированной игре описанных игроков; игре между собой и с природой.
Упражнение: найти такое решение.
2.7
Совершенное Байесовское или слабое секвенциальное рав- новесие
Теперь рассмотрим более сложную концепцию, совмещающую вероятностный подход
Байесовского равновесия и смешанные стратегии с развернутой (динамической) фор- мой игры.
Пример 2.8 (“Вор на базаре”) На Рис.6 представлена игра с несовершенной ин- формация о ходах: второй и третий игроки не способны различать, какой ход сделан первым. Подразумевается популяция трех ролей: Воров, Торговок, Полисменов. Ба- зарный вор может или отдыхать (быть честным), или воровать просто, или воровать с оружием. Торговка может кричать или молчать, когда у нее с лотка тянут товар.
Полисмен может или бежать на крик и ловить, или лениться (отдыхать). Записанные на рисунке выигрыши берут за точку отсчета (0,0,0) вариант, когда Вор отдыхает, и остальные - тоже. Когда торговка что-то теряет, ей неприятно, но неприятно вдвойне,
24
Подобного игрока с фиксированной стратегией называют “болваном” (“dummy”).
47

Thief
Seller
Seller
*
j
*
z
1
q

1, -3, 0 0, 0, 0 1, -1, 0
stole stole armed silence shout silence shout
Police
Police j
1
-
- rest
1, -2, 0
-2, 1, 2
-5, 1, -3
be honest
1, -2, 0
catch catch
Рис. 6: Игра “Базар”: решения SBE.
если она еще и кричит при этом зря (еще, она побаивается кричать, когда вор воору- жен, а не кричать о безоружном считает стыдным, это отражает выигрыш -2 в этом варианте). Если же ее врага-вора поймают - она довольна. О Полисмене, предполага- ется, что он любит премии за поимку воров, но не любит риска с вооруженными, хотя справится и с таким. О Воре - что он больше отсидит, если пойман с оружием.
Будем рассматривать смешанные стратегии игроков (σ
thief
[0, 1]
3
, σ
seller
[0, 1]
2
, σ
police

[0, 1]
2
) как вероятности, с которыми эти ходы в среднем встречаются на описанном ба- заре. Разыскивая равновесие (то есть стабильное поведение каждого типа), предполо- жим, что ОЖИДАНИЯ всех игроков (предполагаемые вероятности ходов партнеров),
а именно: ожидания вора, ожидания торговки, ожидания полисмена — соответствуют наблюдаемым частотам делаемых ходов. Но этого мало, поскольку нужно еще и вне пути игры задать так называемые ВЕРЫ, то есть ожидаемые вероятности нахожде- ния в том или ином узле информационного множества, если игра вдруг, каким-нибудь чудом, туда попадет. Скажем, если все Воры обычно отдыхают, то Торговке, а еще более - Полисмену, все же любопытно знать, с ножом ли тот, кто стащил у нее вещь с лотка, если это случится. Это и есть их (Торговки и Полисмена) априорные, не прове- ренные жизнью, веры, которые между собой могут не совпадать. Например, Торговка может предполагать частоты верхнего и нижнего узлов графа типа (0.2, 0.8), а Полис- мен - (0.9, 0.1), и каждый объявлять свою (возможно, ненаблюдаемую, но известную партнерам) стратегию, исходя из этих априорных вер.
Определение 2.7.1 Смешанная стратегия или "ход" σ
ih
игрока i из информацион- ного множества h секвенциально-рационален при верах ¯
µ, при заданных смешанных стратегиях партнеров ¯
σ
j
и ходах этого же участника в других позициях, если он яв- ляется лучшим ответом (откликом) на эти веры и стратегии, то есть максимизирует по σ
ih
матожидание E{u
i
(σ
ih
, ¯
σ
ik
, ¯
σ
j
, ¯
µ)}.
Определение 2.7.2 (Сильное) Совершенное Байесовское равновесие (PBE), или, ина- че, слабое секвенциальное равновесие в игре n лиц есть профиль (σ, µ) смешанных по- шаговых (поведенческих) стратегий σ = (σ
1
, ..., σ
n
) X и вер µ = (µ
1
, ..., µ
n
) M
всех игроков,
25
таких что
1) это равновесие Нэша.
26 25
Множество вероятностных пошаговых стратегий ∆X есть смешанное расширение чистых стра- тегий - ходов X. Ожидания любого игрока о себе считаем равными его стратегии: µ
ii
= σ
i
26
Без этого последнего требования это понятие допускало бы "дискоординацию".
48

2) стратегии σ являются секвенциально-рациональными при данных стратегиях парт- неров и верах µ;
3) веры µ слабо (только на пути игры) согласованы со стратегиям σ, в смысле Байе- совского правила условных вероятностей.
27
Проверим, может ли быть решением (Отдыхать,[Кричать,Ловить]) (в квадратных скобках, как обычно, ходы вне пути игры) хоть при каких-либо верах. Заметим, что стратегия торговки КРИЧАТЬ лучше противоположной при ее ожидании от Полис- мена хода "Ловить". Полисмен же может продолжать объявлять (только на словах,
пока Вор не ворует) стратегию Ловить, только если он верит, что если уж Вор сво- рует, то без оружия. Если же с вероятностью более 2/5 он верит в противоположное,
то отступит от Ловить. Иначе, проверяемое решение может оставаться SBE (а также
SPE, NE) при вере более 3/5 в безоружность, и при любых верах Торговки, возможно и отличающихся от вер Полисмена!
Анализируя эту игру, можно найти, что в ней есть и другие Совершенные Байе- совские равновесия, но несовпадение вер торговки и Полисмена в становится невоз- можным, если Вор хоть иногда ворует: определение PBE не позволяет несоответствие вер практике на пути игры.
Упражнение. Пример “Масти и Картинки”.
Масти:
Крас-
ные
Чер-
ные
Черви
Бубны
Крести Пики
8 0
2 0
Старшие: Туз
1 3
5 1
6 0
4 2
Старшие: Король
7 1
5 3
2 6
8 0
Младшие: Дама
3 9
3 1
0 4
4 0
Младшие: Валет
3 7
9 1
Таблица 15: Пример “Масти и Картинки”.
Здесь предполагается, что строчный игрок выберет: Старшие или Младшие, потом столбцовый - Красные или Черные, потом строчный - конкретную картинку из уже названной группы (из Старших или из Младших), потом столбцовый - конкретную масть из уже названного цвета. Найти SPE, INDW.
Вариант 2: Усложнение задачи - найти SPE, INDW, PBE если последний ход ре- шается жребием - подбрасыванием монетки.
Вариант 3: То же, но результат подбрасывания известен до ходов второму игроку,
и только ему.
Вариант 4: Найти SPE, INDW, PBE если первый ход решается жребием - подбра- сыванием монетки, и никто не видит его.
27
В частности, если все ходы из некоторого узла оканчиваются в одном последующем информаци- онном множестве, то веры в нем должны совпадать с вероятностями ходов: µ
h
= σ
h−1
. Для случая сильного согласования вер ниже введено понятие SeqE.
49

Пример “Trivial quize” (упрощенный покер)?? Поставив на кон 1 рубль, Анна тянет карту из колоды, где карты от 10-ки включительно до Туза. Смотрит карту, и не показывая Борису (у которого открыт Валет), или удваивает ставку, или пасует и имеет -1, а Борис 1. Если удвоено, то Борис или пасует и имеет -2, а Анна 2, или удваивает, и карта открывется. Если она больше, чем Валет, то Анна выиграла 4 у
Бориса, иначе проигрывает 4. Найти SBE (частоты ходов при каждой карте).
2.8
P BE(ε), секвенциальное равновесие (SeqE), T HP E
В примере “Базар” проявилась логическая неясность понятия P BE: в нем разные игроки могут иметь разные ожидания об одном и том же партнере вне пути игры.
Реалистично ли это? И вообще, как обосновать ожидания игроков о тех ветках игры,
которые никогда не реализуются? Это важно, поскольку от этих ожиданий зависят решения, и они могут оказаться логически сомнительными. Устранению этой неясно- сти и сужению множество возможных решений служат понятие P BE(ε) и понятие
(сильного) секвенциального равновесия SeqE.
Определение 2.8.1 Для заданного малого ε > 0 назовем ε-совершенным равновеси-
ем (P BE(ε)) - такой набор смешанных мультиперсонных стратегий (σ
1
, ..., σ
n
) и вер
(µ
1
, ..., µ
n
), что веры слабо согласованы со стратегиями, а все стратегии секвенциально-
рациональны при дополнительном ограничении: ни один ход не может иметь веро-
ятность применения меньше ε.
По сути, это определение модифицирует PBE, вводя возможность не-рациональных ходов игроков: у любого может "рука дрогнуть", можно ошибиться. То есть, предпо- лагается, что есть случайности, и вероятность всякого хода не менее ε > 0. Важность этой гипотезы видна из примера.
Пример 2.9 Игра “Возьми или оставь” (“сороконожка”):
V
1
s
A
2
A
1
V
2
A
3
V
3
s s
s s
s
-
-
-
-
-
-
4, 1 2, 8 16, 4 8, 32 64, 16 32, 128 256, 64
l
A1
l
V 1
l
A2
l
V 2
l
A3
l
V 3
t
A1
t
V 1
t
A2
t
V 2
t
A3
t
V 3
Рис. 7: Игра “Возьми или оставь” (Rosental, 1956?).
Пусть первый из двух игроков (Анна) может взять 4/5 общей прибыли (то есть
$4 из $5 на ветви take
A1
) на шаге 1, тогда игра закончится, а второму - Виктору
- останется $1. Либо можно оставить банк на столе (leave
A1
). На шаге 2 прибыль удваивается (например, ведущим), и черед 2-го выбирать: взять ли 4/5 прибыли (то есть $8 из $10-и) и закончить тем самым игру, или оставить, и т.д. Предсказывая исход для конечной (скажем, по 3 хода каждого) игры по принципу SP E, P BE, или
T HP E (определено ниже) мы увидим, что игра тривиально закончится на 1-м шаге
take
A1
с выигрышами (4,1). А по принципу решения P BE(ε) она может дойти до конца с большой суммой прибыли. (Здесь ε– вероятность не ниже которой ожидается от любого хода, благодаря случайному поведению – иррациональности).
50

Покажите, что ε > 1/7 достаточно для ходов типа leave
i
и продолжения игры до счастливого конца (или хотя бы для продолжения рациональных ходов до узла V
3
).
Какое ε необходимо для рациональности ходов типа leave
i

1   2   3   4   5   6   7   8


написать администратору сайта