Главная страница
Навигация по странице:

  • Определение 3.3: стратегия A i предпочтительнее

  • Лемма 3.2.

  • Теоретико-игровые методы принятия решений (Еремеев А. П.). Теоретико-игровые методы принятия решений (Еремеев А. П. Учебное пособие по курсам Теория игр и исследование операций, Теория принятия решений


    Скачать 1.18 Mb.
    НазваниеУчебное пособие по курсам Теория игр и исследование операций, Теория принятия решений
    АнкорТеоретико-игровые методы принятия решений (Еремеев А. П.).doc
    Дата27.03.2018
    Размер1.18 Mb.
    Формат файлаdoc
    Имя файлаТеоретико-игровые методы принятия решений (Еремеев А. П.).doc
    ТипУчебное пособие
    #17282
    КатегорияМатематика
    страница6 из 15
    1   2   3   4   5   6   7   8   9   ...   15

    3.3.Методы решения матричных игр
    при отсутствии седловой точки

    3.3.1.Смешанные стратегии


    В случае отсутствия седловой точки, в качестве решения игры используются так называемые смешанные стратегии

    ,

    где piиqj – вероятности выбора стратегий AiиBj игроками A и Bсоответственно. Решением игры в данном случае является пара оптимальных смешанных стратегий (SA*,SB*), максимизирующих математическое ожидание цены игры (средний выигрыш).

    Теорема 3.2 [6]. Любая антагонистическая игра имеет хотя бы одно оптимальное решение, т.е., пару в общем случае смешанных стратегий (SA*,SB*), дающих игроку А устойчивый выигрыш, равный цене игры V ≤ V ≤ β.

    Чистую стратегию можно рассматривать как частный случай смешанной стратегии, когда одна вероятность имеет единичное значение, а все остальные – нулевое.

    Рассмотрим матричную игру G(mn), не имеющую седловой точки, для которой необходимо найти решение – пару оптимальных смешанных стратегий SA=(p1p2pmSB=(q1,q2qn) и соответствующую цену игры V.

    Предварительно следует попытаться упростить матрицу игры. Для этого вводятся отношения предпочтения (доминирования) и безразличия (дублирования) на множестве стратегий.

    Определение 3.3:

    • стратегия Ai предпочтительнее стратегии Ak (доминирует Ak) (обозначается ), если все выигрыши, указанные в iстроке матрицы игры, не меньше соответствующих выигрышей k-й строки, или формально ;

    • стратегии Ai и Ak находятся в отношении безразличия (дублирования) (обозначается AiAk), если все выигрыши, указанные в i-й строке матрицы игры, совпадают с соответствующими выигрышами k-й строки, или формально ;

    • стратегия Bj предпочтительнее стратегии Br (доминирует Br) (обозначается ), если все выигрыши, указанные в j-м столбце матрицы игры, не меньше соответствующих выигрышей r-го столбца, или формально ;

    • отношение безразличия для стратегий игрока B вводится аналогично игроку A, т.е. .

    Можно доказать следующую лемму [5].

    Лемма 3.2. Для игры G(mn)число активных стратегий игроков равно min{m,n}. Другими словами, если, например, m>n, то в оптимальной стратегии SA=(p1p2pm) игрока A будет не более n отличных от нуля вероятностей pi.

    Таким образом, предварительным этапом решения матричной игры является ее упрощение, т.е. удаление из матрицы доминируемых и дублируемых стратегий.

    Рассмотрим данный этап на примере матричной игры G(55), представленной табл. 3.7.

    Таблица 3.8

    Bj

    Ai

    B1

    B2

    B3

    B4

    B5

    A1

    4

    7

    2

    3

    4

    A2

    3

    5

    6

    8

    9

    A3

    4

    4

    2

    2

    8

    A4

    3

    6

    1

    2

    4

    A5

    3

    5

    6

    8

    9


    Так как справедливы соотношения , , , , , то удалим доминируемые и дублируемые стратегии A4,A5,B2,B4,B5.

    В полученной матрице снова проведём удаление, так как . Получим упрощенную игру G(22), представленную табл. 3.8.

    Таблица 3.9

    Bj

    Ai

    B1

    B3

    A1

    4

    2

    A2

    3

    6


    Нетрудно убедиться, что данная игра не имеет седловой точки и необходимо искать решение в смешанных стратегиях.

    После упрощения игры следующим (основным) этапом является поиск оптимального решения в виде смешанных стратегий (SASB), применяя точные или приближенные методы.

    3.3.2.Метод Лагранжа


    Метод Лагранжа относится к точным методам решения матричных игр G(mm), т.е. имеющим квадратные матрицы (или приведенные к такому виду после упрощения).

    Допустим, что игрок A использует смешанную стратегию SA=(p1, …pm), а игрок B отвечает своей чистой стратегией Bi (i=1, 2, m). Цена игры в таком случае равна . Если же игрок B также будет применять смешанную стратегию SB=(q1, …qm), то итоговая цена игры будет равна

    . (3.1)

    Для нахождения оптимального решения необходимо максимизировать значение Vпри ограничениях .

    Составим функцию Лагранжа L = V + 1(p1 + … + pm – 1) + 2(q1 + … + qm – 1) и приравняем к нулю частные производные по всем аргументам: .

    В результате получим следующую систему из (2m+ 2)уравнений с (2m + 2) неизвестными:



    Решение этой системы и даёт смешанные стратегии для обоих игроков.

    Нетрудно заметить, что исходная система уравнений включает две независимые подсистемы (для pi,i=1, …m, 1 и qj,j=1, …m, 2 соответственно), состоящие из (m + 1)уравнений с (m + 1)неизвестными, решение которых и даст искомые вероятности pi и qj, а также после подстановки этих вероятностей в формулу (3.1) цену игры V.

    В качестве примера рассмотрим игру G(22), представленную в общем виде табл. 3.9.

    Таблица 3.10

    Bj

    Ai

    B1

    B2

    A1

    a11

    a12

    A2

    a21

    a22


    V1 = a11p1 + a21p2, V2 = a12p1 + a22p2,

    V = V1q1 + V2q2 = (a11p1 + a21p2)q1 + (a12p1 + a22p2)q2.

    L = V + 1(p1 + p2 – 1) + 2(q1 + q2 – 1).

    Приравняв к нулю частные производные функции Лагранжа по всем аргументам, получим следующую систему уравнений:



    Решив данную систему получим следующие значения вероятностей:

    .

    Подставив полученные значения в выражение для V, получим цену игры.

    Например, для игры G(22), представленной табл. 3.8, получим:

    p1=0,6;p2=0,4;q1=0,8;q3=0,2;V=3,6.

    Можно также найти решение в общем виде для игры G(33)и т.д.

    Приведем более универсальный и достаточно легко компьютеризируемый способ решения матричных игр методом Лагранжа.

    Рассмотрим игру игры G(33) в общем виде, представленную табл. 3.10.

    Таблица 3.11

    Bj

    Ai

    B1

    B2

    B3

    A1

    a11

    a12

    a13

    A2

    a21

    a22

    a23

    A3

    a31

    a32

    a33


    Для нахождения решения в смешанных стратегиях необходимо решить следующую систему уравнений:



    Эту систему можно представить следующим образом:



    .

    Решением в общем виде представляется системой



    Более конкретно:


    Обозначив

    k = – a11a22 + a11a32 + a11a23a11a33 + a21a12a21a32

    a21a13 + a21a33a31a12 + a31a22 + a31a13a31a23

    a12a23 + a12a33 + a22a13a22a33a32a13 + a32a23,

    получим итоговое решение:

    p1 = (– a21a32 + a21a33 + a31a22a31a23a22a33 + a32a23) / k

    p2 = ( a11a32a11a33a31a12 + a31a13 + a12a33a32a13) / k

    p3 = (– a11a22 + a11a23 + a21a12a21a13a12a23 + a22a13) / k

    q1 = (– a12a23 + a12a33 + a22a13a22a33a32a13 + a32a23) / k

    q2 = ( a11a23a11a33a21a13 + a21a33 + a31a13a31a23) / k

    q3 = (– a11a22 + a11a32 + a21a12a21a32a31a12 + a31a22) / k

    V= – |A| / |A1|,

    где А — исходная матрица игры.

    Данный подход легко применим для произвольной игры G(mm): строится матрица A1, далее, используя определители, записываются выражения для pi и qj, множитель знака для них будет равен (1)m + i+ 1.

    3.3.3.Метод линейного программирования


    Данный метод также относится к точным методам решения матричных игр и применим к игре G(mn)при условии, что все элементы матрицы игрыaij,i=1, …,m,j=1, n, положительны (этого легко добиться прибавлением ко всем элементам матрицы положительной константы, большей, чем модуль наименьшего отрицательного элемента или нуля, если отрицательных элементов нет).

    Рассмотрим ситуацию, когда игрок A применяет свою оптимальную смешанную стратегию, а игрок B последовательно отвечает своими чистыми стратегиями B1, …, Bn. Поскольку оптимальные стратегии обладают свойством устойчивости, то справедлива следующая система неравенств:

    (3.2)

    Введем новые переменные:

    .

    Система неравенств (3.2) теперь примет вид:

    (3.3)

    Так целью игры для игрока A является максимизация цены игры V, то получаем задачу линейного программирования:



    при системе ограничений (3.3).

    Решив эту задачу, найдем цену игры V и вероятности pi в оптимальной смешанной стратегии SA=(pi),i=1,,m,игрока A:

    .

    Аналогичные построения проводятся и для игрока B, учитывая, что целью игрока B является минимизация цены игры V.

    В итоге получим следующую задачу линейного программирования:



    при системе ограничений

    .

    Решив данную задачу, найдем вероятности qj в оптимальной смешанной стратегии SB=(qj),j=1, …n,игрока B.

    В [5] доказано, что сформулированные задачи являются двойственными задачами линейного программирования, т.е. минимум линейной формы для одной из них совпадает с максимумом для другой. Для решения данных задач можно использовать, например, симплекс-метод.

    3.3.4.Итерационный метод Брауна-Робинсона


    Также универсальным, но менее трудоемким по сравнению с методом линейного программирования в плане затрат вычислительных ресурсов является приближенный метод Брауна-Робинсона. Данный итерационный метод предназначен для решения любой игры G(mn), не требуя никаких ограничений на элементы матрицы игры.

    Метод базируется на многократном разыгрывании игры и подсчете верхней и нижней оценок цены игры с занесением результатов в таблицу специального вида (табл. 3.11):

    Таблица 3.12

    k

    i

    B1



    Bn

    j

    A1



    Am

    V



    V*






































    Каждая строка таблицы соответствует однократному розыгрышу игры (партии игры).

    Поясним записи в соответствующих позициях:

    • k — номер партии (итерации);

    • i и j — номера стратегий, выбранных соответственно игроками Aи B в данной партии;

    • B1, …,Bn — накопленный за k партий выигрыш игрока A при выборе им стратегии Aiв данной партии и ответе игроком B соответственно стратегиями B1, …,Bn;

    • A1, …,Am — накопленный за k партий выигрыш игрока A при выборе игроком B стратегии Bjв данной партии и ответе игроком A соответственно стратегиями A1, …,Am;

    • V —нижняя оценка цены игры (минимальный накопленный выигрыш, поделенный на k);

    • — верхняя оценка цены игры (максимальный накопленный выигрыш, поделенный на k);

    • .

    В [6] доказано, что при k  : V* V, , ,

    где V – цена игры, Niи Nj число применений соответственно стратегий Аiи Bjзаk партий, piи qj– значения вероятностей в оптимальных стратегиях SA=(pi),i=1, …m,SB=(qj),j=1, n,игроков A и Bсоответственно.

    Проиллюстрируем метод на примере игры G(33), представленной табл. 3.12.

    Таблица 3.13

    Bj

    Ai

    B1

    B2

    B3

    A1

    7

    2

    9

    A2

    2

    9

    0

    A3

    9

    0

    11

    Требуется найти решение – пару оптимальных смешанных стратегий (SA,SB), SA=(p1p2p3),SB=(q1q2q3), и цену игры V.

    Будем искать пару смешанных стратегий SA=(p1p2p3),p1 + p2 + p3 = 1,SB=(q1q2q3),q1 + q2 + q3 = 1 и цену игры V.

    Построим табл. 3.13 для первых десяти итераций.

    Таблица 3.14

    k

    i

    B1

    B2

    B3

    j

    A1

    A2

    A3

    V

    V

    V*

    1

    3

    9

    0

    11

    2

    2

    9

    0

    0

    9

    4,5

    2

    2

    11

    9

    11

    2

    4

    18

    0

    4,5

    9

    6,75

    3

    2

    13

    18

    11

    3

    13

    18

    11

    3,67

    6

    4,84

    4

    2

    15

    27

    11

    4

    22

    18

    22

    2,75

    5,5

    4,13

    5

    1

    22

    29

    20

    3

    31

    18

    33

    4,0

    6,6

    5,3

    6

    3

    31

    29

    31

    2

    33

    27

    33

    4,84

    5,5

    5,17

    7

    1

    38

    31

    40

    2

    35

    36

    33

    4,43

    5,14

    4,79

    8

    2

    40

    40

    40

    2

    37

    45

    33

    5,0

    5,61

    5,30

    9

    2

    42

    49

    40

    3

    46

    45

    44

    4,45

    5,11

    4,78

    10

    1

    49

    51

    49

    1

    53

    47

    53

    4,90

    5,30

    5,1


    Поясним процесс заполнения табл. 3.13.

    Пусть начинает (k=1) игрок A и выбирает на первом шаге стратегию А1. Его выигрыш в зависимости от выбора игрока B может равняться 9 (при выборе стратегии B1), 0 (при выборе B2) или 11 (при выборе B3). Поскольку теперь выбор за игроком B (а он заинтересован в минимизации выигрыша игрока A), то выделим (жирным шрифтом) минимальный выигрыш 0, соответствующий стратегии B2. Следовательно игроку B выгоднее всего ответить стратегией B2, что, в свою очередь, может привести к выигрышу игрока A при его ответе в следующей партии, равному 2 (при выборе стратегии A1), 9 (A2) или 0 (A3). Так как игрок A заинтересован в максимизации выигрыша, то выделим максимальный выигрыш 9 (для A2). Соответствующие значения V, и V* равны 0; 9 и 4,5.

    Во второй партии (k=2) игроку A,следовательно,выгодно выбратьстратегиюA2,которая позволит ему накопить выигрыш, равный соответственно 11 (для B1), 9 (для B2) или 11 (для B3) и т.д. Заметим, что для k=4в столбцах А1и А3 получаются одинаковые накопленные выигрыши (22), поэтому игрок Aв пятой партии может выбрать как стратегию А1, так и А3.

    К сожалению (что видно и по табл. 3.12), сходимость данного метода довольно слабая, но существуют методы ее ускорения. Критерием останова можно выбрать достаточную стабильность величины V* при увеличении числа итераций.

    Для рассматриваемого примера в итоге получим:

    и , что соответствует точному решению, полученному, например, методом Лагранжа.

    Как уже отмечалось, сравнительно невысокая трудоемкость данного метода часто делает его более предпочтительным по сравнению с методом линейного программирования (например, симплекс-методом) при решении задач линейного программирования (после их сведения к соответствующей теоретико-игровой задачи) большой размерности.
    1   2   3   4   5   6   7   8   9   ...   15


    написать администратору сайта