Теоретико-игровые методы принятия решений (Еремеев А. П.). Теоретико-игровые методы принятия решений (Еремеев А. П. Учебное пособие по курсам Теория игр и исследование операций, Теория принятия решений
Скачать 1.18 Mb.
|
3.3.Методы решения матричных игр |
Bj Ai | B1 | B2 | B3 | B4 | B5 |
A1 | 4 | 7 | 2 | 3 | 4 |
A2 | 3 | 5 | 6 | 8 | 9 |
A3 | 4 | 4 | 2 | 2 | 8 |
A4 | 3 | 6 | 1 | 2 | 4 |
A5 | 3 | 5 | 6 | 8 | 9 |
Так как справедливы соотношения , , , , , то удалим доминируемые и дублируемые стратегии A4,A5,B2,B4,B5.
В полученной матрице снова проведём удаление, так как . Получим упрощенную игру G(22), представленную табл. 3.8.
Таблица 3.9
-
Bj
Ai
B1
B3
A1
4
2
A2
3
6
Нетрудно убедиться, что данная игра не имеет седловой точки и необходимо искать решение в смешанных стратегиях.
После упрощения игры следующим (основным) этапом является поиск оптимального решения в виде смешанных стратегий (SA, SB), применяя точные или приближенные методы.
3.3.2.Метод Лагранжа
Метод Лагранжа относится к точным методам решения матричных игр G(mm), т.е. имеющим квадратные матрицы (или приведенные к такому виду после упрощения).
Допустим, что игрок A использует смешанную стратегию SA=(p1, …, pm), а игрок B отвечает своей чистой стратегией Bi (i=1, 2, …, m). Цена игры в таком случае равна . Если же игрок B также будет применять смешанную стратегию SB=(q1, …, qm), то итоговая цена игры будет равна
. (3.1)
Для нахождения оптимального решения необходимо максимизировать значение Vпри ограничениях .
Составим функцию Лагранжа L = V + 1(p1 + … + pm – 1) + 2(q1 + … + qm – 1) и приравняем к нулю частные производные по всем аргументам: .
В результате получим следующую систему из (2m+ 2)уравнений с (2m + 2) неизвестными:
Решение этой системы и даёт смешанные стратегии для обоих игроков.
Нетрудно заметить, что исходная система уравнений включает две независимые подсистемы (для pi,i=1, …, m, 1 и qj,j=1, …, m, 2 соответственно), состоящие из (m + 1)уравнений с (m + 1)неизвестными, решение которых и даст искомые вероятности pi и qj, а также после подстановки этих вероятностей в формулу (3.1) цену игры V.
В качестве примера рассмотрим игру G(22), представленную в общем виде табл. 3.9.
Таблица 3.10
-
Bj
Ai
B1
B2
A1
a11
a12
A2
a21
a22
V1 = a11p1 + a21p2, V2 = a12p1 + a22p2,
V = V1q1 + V2q2 = (a11p1 + a21p2)q1 + (a12p1 + a22p2)q2.
L = V + 1(p1 + p2 – 1) + 2(q1 + q2 – 1).
Приравняв к нулю частные производные функции Лагранжа по всем аргументам, получим следующую систему уравнений:
Решив данную систему получим следующие значения вероятностей:
.
Подставив полученные значения в выражение для V, получим цену игры.
Например, для игры G(22), представленной табл. 3.8, получим:
p1=0,6;p2=0,4;q1=0,8;q3=0,2;V=3,6.
Можно также найти решение в общем виде для игры G(33)и т.д.
Приведем более универсальный и достаточно легко компьютеризируемый способ решения матричных игр методом Лагранжа.
Рассмотрим игру игры G(33) в общем виде, представленную табл. 3.10.
Таблица 3.11
-
Bj
Ai
B1
B2
B3
A1
a11
a12
a13
A2
a21
a22
a23
A3
a31
a32
a33
Для нахождения решения в смешанных стратегиях необходимо решить следующую систему уравнений:
Эту систему можно представить следующим образом:
.
Решением в общем виде представляется системой
Более конкретно:
Обозначив
k = – a11a22 + a11a32 + a11a23 – a11a33 + a21a12 – a21a32 –
– a21a13 + a21a33 – a31a12 + a31a22 + a31a13 – a31a23 –
– a12a23 + a12a33 + a22a13 – a22a33 – a32a13 + a32a23,
получим итоговое решение:
p1 = (– a21a32 + a21a33 + a31a22 – a31a23 – a22a33 + a32a23) / k
p2 = ( a11a32 – a11a33 – a31a12 + a31a13 + a12a33 – a32a13) / k
p3 = (– a11a22 + a11a23 + a21a12 – a21a13 – a12a23 + a22a13) / k
q1 = (– a12a23 + a12a33 + a22a13 – a22a33 – a32a13 + a32a23) / k
q2 = ( a11a23 – a11a33 – a21a13 + a21a33 + a31a13 – a31a23) / k
q3 = (– a11a22 + a11a32 + a21a12 – a21a32 – a31a12 + a31a22) / k
V= – |A| / |A1|,
где А — исходная матрица игры.
Данный подход легко применим для произвольной игры G(mm): строится матрица A1, далее, используя определители, записываются выражения для pi и qj, множитель знака для них будет равен (–1)m + i+ 1.
3.3.3.Метод линейного программирования
Данный метод также относится к точным методам решения матричных игр и применим к игре G(mn)при условии, что все элементы матрицы игрыaij,i=1, …,m,j=1, …, n, положительны (этого легко добиться прибавлением ко всем элементам матрицы положительной константы, большей, чем модуль наименьшего отрицательного элемента или нуля, если отрицательных элементов нет).
Рассмотрим ситуацию, когда игрок A применяет свою оптимальную смешанную стратегию, а игрок B последовательно отвечает своими чистыми стратегиями B1, …, Bn. Поскольку оптимальные стратегии обладают свойством устойчивости, то справедлива следующая система неравенств:
(3.2)
Введем новые переменные:
.
Система неравенств (3.2) теперь примет вид:
(3.3)
Так целью игры для игрока A является максимизация цены игры V, то получаем задачу линейного программирования:
при системе ограничений (3.3).
Решив эту задачу, найдем цену игры V и вероятности pi в оптимальной смешанной стратегии SA=(pi),i=1,…,m,игрока A:
.
Аналогичные построения проводятся и для игрока B, учитывая, что целью игрока B является минимизация цены игры V.
В итоге получим следующую задачу линейного программирования:
при системе ограничений
.
Решив данную задачу, найдем вероятности qj в оптимальной смешанной стратегии SB=(qj),j=1, …, n,игрока B.
В [5] доказано, что сформулированные задачи являются двойственными задачами линейного программирования, т.е. минимум линейной формы для одной из них совпадает с максимумом для другой. Для решения данных задач можно использовать, например, симплекс-метод.
3.3.4.Итерационный метод Брауна-Робинсона
Также универсальным, но менее трудоемким по сравнению с методом линейного программирования в плане затрат вычислительных ресурсов является приближенный метод Брауна-Робинсона. Данный итерационный метод предназначен для решения любой игры G(mn), не требуя никаких ограничений на элементы матрицы игры.
Метод базируется на многократном разыгрывании игры и подсчете верхней и нижней оценок цены игры с занесением результатов в таблицу специального вида (табл. 3.11):
Таблица 3.12
k | i | B1 | … | Bn | j | A1 | … | Am | V | | V* |
| | | | | | | | | | | |
Каждая строка таблицы соответствует однократному розыгрышу игры (партии игры).
Поясним записи в соответствующих позициях:
k — номер партии (итерации);
i и j — номера стратегий, выбранных соответственно игроками Aи B в данной партии;
B1, …,Bn — накопленный за k партий выигрыш игрока A при выборе им стратегии Aiв данной партии и ответе игроком B соответственно стратегиями B1, …,Bn;
A1, …,Am — накопленный за k партий выигрыш игрока A при выборе игроком B стратегии Bjв данной партии и ответе игроком A соответственно стратегиями A1, …,Am;
V —нижняя оценка цены игры (минимальный накопленный выигрыш, поделенный на k);
— верхняя оценка цены игры (максимальный накопленный выигрыш, поделенный на k);
.
В [6] доказано, что при k : V* V, , ,
где V – цена игры, Niи Nj – число применений соответственно стратегий Аiи Bjзаk партий, piи qj– значения вероятностей в оптимальных стратегиях SA=(pi),i=1, …, m,SB=(qj),j=1, …, n,игроков A и Bсоответственно.
Проиллюстрируем метод на примере игры G(33), представленной табл. 3.12.
Таблица 3.13
-
Bj
Ai
B1
B2
B3
A1
7
2
9
A2
2
9
0
A3
9
0
11
Требуется найти решение – пару оптимальных смешанных стратегий (SA,SB), SA=(p1, p2, p3),SB=(q1, q2, q3), и цену игры V.
Будем искать пару смешанных стратегий SA=(p1, p2, p3),p1 + p2 + p3 = 1,SB=(q1, q2, q3),q1 + q2 + q3 = 1 и цену игры V.
Построим табл. 3.13 для первых десяти итераций.
Таблица 3.14
k | i | B1 | B2 | B3 | j | A1 | A2 | A3 | V | V | V* |
1 | 3 | 9 | 0 | 11 | 2 | 2 | 9 | 0 | 0 | 9 | 4,5 |
2 | 2 | 11 | 9 | 11 | 2 | 4 | 18 | 0 | 4,5 | 9 | 6,75 |
3 | 2 | 13 | 18 | 11 | 3 | 13 | 18 | 11 | 3,67 | 6 | 4,84 |
4 | 2 | 15 | 27 | 11 | 4 | 22 | 18 | 22 | 2,75 | 5,5 | 4,13 |
5 | 1 | 22 | 29 | 20 | 3 | 31 | 18 | 33 | 4,0 | 6,6 | 5,3 |
6 | 3 | 31 | 29 | 31 | 2 | 33 | 27 | 33 | 4,84 | 5,5 | 5,17 |
7 | 1 | 38 | 31 | 40 | 2 | 35 | 36 | 33 | 4,43 | 5,14 | 4,79 |
8 | 2 | 40 | 40 | 40 | 2 | 37 | 45 | 33 | 5,0 | 5,61 | 5,30 |
9 | 2 | 42 | 49 | 40 | 3 | 46 | 45 | 44 | 4,45 | 5,11 | 4,78 |
10 | 1 | 49 | 51 | 49 | 1 | 53 | 47 | 53 | 4,90 | 5,30 | 5,1 |
Поясним процесс заполнения табл. 3.13.
Пусть начинает (k=1) игрок A и выбирает на первом шаге стратегию А1. Его выигрыш в зависимости от выбора игрока B может равняться 9 (при выборе стратегии B1), 0 (при выборе B2) или 11 (при выборе B3). Поскольку теперь выбор за игроком B (а он заинтересован в минимизации выигрыша игрока A), то выделим (жирным шрифтом) минимальный выигрыш 0, соответствующий стратегии B2. Следовательно игроку B выгоднее всего ответить стратегией B2, что, в свою очередь, может привести к выигрышу игрока A при его ответе в следующей партии, равному 2 (при выборе стратегии A1), 9 (A2) или 0 (A3). Так как игрок A заинтересован в максимизации выигрыша, то выделим максимальный выигрыш 9 (для A2). Соответствующие значения V, и V* равны 0; 9 и 4,5.
Во второй партии (k=2) игроку A,следовательно,выгодно выбратьстратегиюA2,которая позволит ему накопить выигрыш, равный соответственно 11 (для B1), 9 (для B2) или 11 (для B3) и т.д. Заметим, что для k=4в столбцах А1и А3 получаются одинаковые накопленные выигрыши (22), поэтому игрок Aв пятой партии может выбрать как стратегию А1, так и А3.
К сожалению (что видно и по табл. 3.12), сходимость данного метода довольно слабая, но существуют методы ее ускорения. Критерием останова можно выбрать достаточную стабильность величины V* при увеличении числа итераций.
Для рассматриваемого примера в итоге получим:
и , что соответствует точному решению, полученному, например, методом Лагранжа.
Как уже отмечалось, сравнительно невысокая трудоемкость данного метода часто делает его более предпочтительным по сравнению с методом линейного программирования (например, симплекс-методом) при решении задач линейного программирования (после их сведения к соответствующей теоретико-игровой задачи) большой размерности.