Решение матричных игр. Антагонистическими играми

Название	Антагонистическими играми
Анкор	Решение матричных игр
Дата	27.11.2019
Размер	160.21 Kb.
Формат файла
Имя файла	lr5.pdf
Тип	Документы #97210

Рассмотрим игру двух лиц, интересы которых противоположны. Такие игры называют антагонистическими играми двух лиц. В этом случае выигрыш одного игрока равен проигрышу второго, и можно описать только одного из игроков.
Предполагается, что каждый игрок может выбрать только одно из конечного множества своих действий. Выбор действия называют выбором стратегии игрока.
Если каждый из игроков выбрал свою стратегию, то эту пару стратегий называют
ситуацией игры. Следует заметить, каждый игрок знает, какую стратегию выбрал его противник, т.е. имеет полную информацию о результате выбора противника.
Чистой стратегией игрока I является выбор одной из n строк матрицы выигрышей А, а чистой стратегией игрока II является выбор одного из столбцов этой же матрицы.
1. Проверяем, имеет ли платежная матрица седловую точку. Если да, то выписываем решение игры в чистых стратегиях.
Считаем, что игрок I выбирает свою стратегию так, чтобы получить максимальный свой выигрыш, а игрок II выбирает свою стратегию так, чтобы минимизировать выигрыш игрока I.
Игро ки
B
1
B
2
B
3
B
4
a = min(
A
i
)
A
1 3
4 2
1 1
A
2 5
-1 1
3
-1
A
3 5
2
-4 0
-4 b = max(
B
i
)
5 4
2 3
Находим гарантированный выигрыш, определяемый нижней ценой игры a = max(a i
) =
1, которая указывает на максимальную чистую стратегию A
1
Верхняя цена игры b = min(b j
) = 2.
Что свидетельствует об отсутствии седловой точки, так как a ≠ b, тогда цена игры находится в пределах 1 ≤ y ≤ 2. Находим решение игры в смешанных стратегиях.
Объясняется это тем, что игроки не могут объявить противнику свои чистые стратегии: им следует скрывать свои действия. Игру можно решить, если позволить игрокам выбирать свои стратегии случайным образом (смешивать чистые стратегии).
2. Проверяем платежную матрицу на доминирующие строки и доминирующие
столбцы.
Иногда на основании простого рассмотрения матрицы игры можно сказать, что некоторые чистые стратегии могут войти в оптимальную смешанную стратегию лишь с нулевой вероятностью.
Говорят, что i-я стратегия 1-го игрока доминирует его k-ю стратегию, если a ij
≥ a kj для всех j Э N и хотя бы для одного j a ij
> a kj
. В этом случае говорят также, что i-я стратегия (или строка) – доминирующая, k-я – доминируемая.
Говорят, что j-я стратегия 2-го игрока доминирует его l-ю стратегию, если для всех j Э
M a ij
≤ a il и хотя бы для одного i a ij
< a il
. В этом случае j-ю стратегию (столбец) называют доминирующей, l-ю – доминируемой.
С позиции проигрышей игрока В стратегия B
3
доминирует над стратегией B
1
(все элементы столбца 3 меньше элементов столбца 1), следовательно, исключаем 1-й столбец матрицы. Вероятность q
1
= 0.
4 2
1
-1 1
3 2
-4 0
Стратегия A
1
доминирует над стратегией A
3
(все элементы строки 1 больше или равны значениям 3-ой строки), следовательно, исключаем 3-ую строку матрицы.

Вероятность p
3
= 0.
4 2
1
-1 1
3
Мы свели игру 3 x 4 к игре 2 x 3.
Так как игроки выбирают свои чистые стратегии случайным образом, то выигрыш игрока I будет случайной величиной. В этом случае игрок I должен выбрать свои смешанные стратегии так, чтобы получить максимальный средний выигрыш.
Аналогично, игрок II должен выбрать свои смешанные стратегии так, чтобы минимизировать математическое ожидание игрока I.
Пусть игра задана матрицей A размерности m x n. Каждое разыгрывание игры в чистых стратегиях будет далее называться партией. Метод Брауна-Робинсон — это итеративная процедура построения последовательности пар смешанных стратегий игроков, сходящейся к решению матричной игры.
В 1-ой партии оба игрока выбирают произвольную чистую стратегию. Пусть сыграно k партий, причем выбор стратегии в каждой партии запоминается. В (k + 1)-ой партии каждый игрок выбирает ту чистую стратегию, которая максимизирует его ожидаемый выигрыш, если противник играет в соответствии с эмпирическим вероятностным распределением, сформировавшимся за k партий. Оценивается интервал для цены игры и, если он достаточно мал, процесс останавливается. Полученные при этом вероятностные распределения определяют смешанные стратегии игроков.
Пусть на первом этапе выбрана стратегия №2
Итерация №1. Минимальный элемент для нее равен -1 и находится под номером j=1.
Следовательно, игрок II выбирает стратегию №1
Максимальный элемент равен 4 и находится под номером j=1. Следовательно, игрок I выбирает стратегию №1
Итерация №2. Минимальный элемент для нее равен 3 и находится под номером j=1.
Следовательно, игрок II выбирает стратегию №1
Максимальный элемент равен 8 и находится под номером j=1. Следовательно, игрок I выбирает стратегию №1
Остальное решение сведем в таблицу. k i
B
1
B
2
B
3
j
A
1
A
2
V
min
V
max
V
ср
1 2
-1 1
3 1
4
-1
-1 4
3
/
2 2
1 3
3 4
1 8
-2 3
/
2 4
11
/
4 3
1 7
5 5
2 10
-1 5
/
3 10
/
3 5
/
2 4
1 11 7
6 3
11 2
3
/
2 11
/
4 17
/
8 5
1 15 9
7 3
12 5
7
/
5 12
/
5 19
/
10 6
1 19 11 8
3 13 8
4
/
3 13
/
6 7
/
4 7
1 23 13 9
3 14 11 9
/
7 2
23
/
14 8
1 27 15 10 3
15 14 5
/
4 15
/
8 25
/
16 9
1 31 17 11 3
16 17 11
/
9 17
/
9 14
/
9 10 2
30 18 14 3
17 20 7
/
5 2
17
/
10 11 2
29 19 17 3
18 23 17
/
11 23
/
11 20
/
11 12 2
28 20 20 2
20 24 5
/
3 2
11
/
6 13 2
27 21 23 2
22 25 21
/
13 25
/
13 23
/
13 14 2
26 22 26 2
24 26 11
/
7 13
/
7 12
/
7 15 2
25 23 29 2
26 27 23
/
15 9
/
5 5
/
3 16 2
24 24 32 1
30 26 3
/
2 15
/
8 27
/
16 17 1
28 26 33 2
32 27 26
/
17 32
/
17 29
/
17 18 1
32 28 34 2
34 28 14
/
9 17
/
9 31
/
18 19 1
36 30 35 2
36 29 30
/
19 36
/
19 33
/
19 20 1
40 32 36 2
38 30 8
/
5 19
/
10 7
/
4

здесь: k - номер партии. i - номер стратегии, выбираемой игроком A. j - номер стратегии, выбираемой игроком В.
B
i
- накопленный игроком А выигрыш за k партий, при условии, что в данной партии
B выбирает стратегию B
i
А
j
- накопленный игроком В проигрыш за k партий, при условии, что в данной партии
A выбирает стратегию А
j
V
min
- нижняя оценка игры = min (накопленный выигрыш)/k.
V
max
- верхняя оценка игры = max (накопленный проигрыш)/k.
Доказано, что:
W=(V
min
+V
max
)/2, при k → ∞ и p
i
= N
i
/k q
j
= N
j
/k
N
i
- сколько раз выбирается Аi стратегия.
N
j
- сколько раз выбирается Bj стратегия.
N
A1
= 12
P(A
1
) = 12/20 =
3
/
5
N
A2
= 8
P(A
2
) = 8/20 =
2
/
5
N
B1
= 3
P(B
3
) = 3/20 =
3
/
20
N
B2
= 9
P(B
3
) = 9/20 =
9
/
20
N
B3
= 8
P(B
3
) = 8/20 =
2
/
5
Цена игры, W =
7
/
4
Стратегия игрока I: p = (
3
/
5
,
2
/
5
)
Стратегия игрока II: q = (
3
/
20
,
9
/
20
,
2
/
5
)
Решение было получено и оформлено с помощью сервиса:
Решение матричных игр
Вместе с этой задачей решают также:
Игры с природой: критерии Вальда, Сэвиджа, Гурвица
Динамическое программирование
Теория массового обслуживания