Главная страница

Элементы теории игр. Лекция Элементы теории игр


Скачать 192.5 Kb.
НазваниеЛекция Элементы теории игр
АнкорЭлементы теории игр
Дата12.03.2022
Размер192.5 Kb.
Формат файлаdoc
Имя файлаElementy_teorii_igr_lektsia.doc
ТипЛекция
#392751

\


Лекция «Элементы теории игр»

Рассмотрим задачу.

Предприятие может выпускать три вида продукции – A1, A2 и A3, получая при этом прибыль, зависящую от спроса, который может быть в одном из четырех состояний – B1, B2, B3, B4. Дана матрица, ее элементы aij характеризуют прибыль, которую получит предприятие при выпуске i-й продукции при j-м состоянии спроса.

Продукция

Состояние спроса

B1

B2

B3

B4

A1

3

3

6

8

A2

9

10

4

2

A3

7

7

5

4


Определить оптимальные объемы выпускаемой продукции, гаранти­рующие среднюю величину прибыли при любом состоянии спроса, считая его неопределенным.

Ознакомимся с основными понятиями теории игр.

Математическая модель конфликтной ситуации называется игрой, стороны, участвующие в конфликте, – игроками, а исход конфликта – выигрышем.

Для каждой формализованной игры вводятся правила, т.е. система условий, опреде­ляющая:

1) варианты действий игроков;

2) объем информации о поведении партнеров, которой владеет каждый игрок;

3) выигрыш, к которому при­водит каждая совокупность действий. Как правило, выигрыш (или проиг­рыш) может быть задан количественно.

Игра называется парной, если в ней участвуют два игрока, и множе­ственной, если число игроков больше двух. Мы будем рассматривать толь­ко парные игры. В них участвуют два игрока: А и В, интересы которых противоположны, а под игрой будем понимать ряд действий со стороны игроков А и В.

Игра называется игрой с нулевой суммой или антагонистической, если выигрыш одного из игроков равен проигрышу другого, т.е. для полного "задания" игры достаточно указать величину выигрыша первого игрока. Выбор и осуществление одного из предусмотренных правилами действий называется ходом игрока.

Стратегией игрока называется совокупность принципов, определяю­щих выбор его действий при каждом личном ходе в зависимости от сло­жившейся ситуации. Игра называется конечной, если у каждого игрока имеется конечное число шагов.

Для того чтобы найти решение игры, следует для каждого игрока вы­брать стратегию, которая удовлетворяет условию оптимальности, т.е. один из игроков должен получать максимальный выигрыш, когда второй игрок придерживается своей стратегии. В то же время второй игрок должен иметь минимальный проигрыш, если первый придерживается своей страте­гии. Такие стратегии называются оптимальными. Оптимальные стратегии должны также удовлетворять условию устойчивости, т.е. любому из игро­ков должно быть невыгодно отказаться от своей стратегии в этой игре.

Целью теории игр является определение оптимальной стратегии для каждого игрока. При выборе оптимальной стратегии естественно пола­гать, что оба игрока ведут себя разумно с точки зрения своих интересов.

Матрица, элементы которой характеризуют прибыль первого игрока при всех возможных стратегиях, называется платежной матрицей игры.

Рассматриваемая задача сводится к игровой модели, в которой игра предприятия А против спроса В задана платежной матрицей





B1

B2

B3

B4

αi

A1

3

6

8

8

3

A2

9

4

2

2

2

A3

7

5

4

4

4

βj

9

6

8

8





Обозначим через ai наименьший выигрыш игрока А при выборе им стратегии А. для всех возможных стратегий игрока В (наименьшее число в i-й строке платежной матрицы), т.е. ai = min aij.

Среди всех чисел ai (i = 1, 2, ..., m) Выберем наибольшее: α = max αi. Назовем α нижней ценой игры или максимальным выигрышем (максими-ном). Это гарантированный выигрыш игрока А при любой стратегии игрока В. Следовательно, α = max min aij.

Стратегия, соответствующая максимину, называется максиминной стратегией. Игрок В заинтересован в том, чтобы уменьшить выигрыш игрока А. Выбирая стратегию Bj, он учитывает максимально возможный при этом выигрыш для игрока А. Обозначим βj = max aij

Среди всех чисел βj выберем наименьшее: β = min βj и назовем β верх­ней ценой игры или минимаксным выигрышем. Это гарантированный проигрыш игрока В.

Следовательно, β = min max aij. Стратегия, соответствующая минимаксу, называется минимаксной стратегией.

Принцип, диктующий игрокам выбор наиболее "осторожных" мини­максной и максиминной стратегий, называется принципом минимакса. Этот принцип следует из разумного предположения, что каждый игрок стремится достичь цели, противоположной цели противника. Определим нижнюю и верхнюю цену игры и соответствующие стратегии в задаче: α = 4, β = 6. Так как , то седловая точка отсутствует и оптимальное решение следует искать в смешанных стратегиях игроков.

Смешанной стратегией SA игрока А называется применение чистых
стратегий A1, A2, …, Ai, …, Am c вероятностями p1, p2, …, pi, …, pm, причем
сумма вероятностей равна 1: . Смешанные стратеги игрок А запи-­
сываются в виде строки SA = (p1, p2, …, pi, …, pm).

Аналогичн смешанные
стратегии игрока В обозначаются в виде строки SB = (q1, q2, …, qi, …, qm),
где сумма вероятностей появления стратегий равна 1: .
Итак, SA* = (p1, p2, p3) и SB*= (q1, q2, q3, q4).

Обозначив xi = pi /v, i= 1, 2, 3, 4 и yj = pj,/v, j = 1, 2, 3, 4, составим пару двойственных задач линейного программирования, затем приведем математическую модель задачи к каноническому (стандартному) виду и решим симплексным методом .Из симплексной таблицы с оптимальным решением возмем значения параметров (-Z), xi и вычислим цену игры v, и вероятности применения стратегий pi. Сделать анализ решения.

прямая задача



двойственная задача



Игры с « природой».

Для того чтобы можно сделать вывод о том какую именно стратегию выбирать игроку, необходимо использовать критерии Вальда, Гурвица, Сэвиджа, Лапласа, Байеса.
1. Критерий Вальда. Рекомендуется применять максиминную стратегию. Она достигается из условия maxminαij и совпадает с нижней ценой игры.

ji

Критерий является пессимистическим, считается, что природа будет действовать наихудшим для человека образом, агрессивно, делать все, чтобы помешать нам достигнуть успеха.
Рассмотрим задачу.

Ежедневный спрос на булочки в продовольственном магазине может принимать следующие значения

1

2

3

4

5

100

150

200

250

300

Если булочка не продана днем, то она м.б. реализована за 15 центов к концу дня. Свежие булочки продаются по 49 центов за штуку. Затраты магазина на одну булочку 25 центов.

Используя игровой подход, определить, какое число булочек надо заказывать ежедневно.

Составим платежную матрицу. Сначала вычислим прибыль (49-25=24) и убыток (15-25=-10).




100

150

200

250

300

100

100*24

100*24

100*24

100*24

100*24

150

100*24-50*10

150*24

150*24

150*24

150*24

200

100*24-100*10

150*24-50*10

200*24

200*24

200*24

250

100*24-150*10

150*24-100*10

200*24-50*10

250*24

250*24

300

100*24-200*10

150*24-150*10

200*24-100*10

250*24-50*10

300*24


Платежная матрица примет вид




100

150

200

250

300

100

2400

2400

2400

2400

2400

150

1900

3600

3600

3600

3600

200

1400

3100

4800

4800

4800

250

900

2600

4300

6000

6000

300

400

2100

3800

5500

7200



Вычислим критерий Вальда - максиминный. Он отражает принцип гарантированного результата:

Олицетворяет позицию крайнего пессимизма: надо ориентироваться всегда на худшие условия, зная наверняка, что хуже этого не будет. Этот перестраховочный подход для того, кто очень боится проиграть.

Оптимальной считается стратегия, при которой гарантируется выигрыш в любом случае, не меньший, чем нижняя цена игры с природой:
Н = max minαij

j i

Подсчитать min по строкам и выбрать ту стратегию, при которой минимум строки максимален.

А1

2400

А2

1900

А3

1400

А4

900

А5

400

Критерий Вальда рекомендует выбирать стратегию А1.
2. Критерий Гурвица (оптимизма - пессимизма). Критерий рекомендует при выборе решения не руководствоваться ни крайним пессимизмом (всегда рассчитывай на худшее), ни крайним легкомысленным оптимизмом (авось кривая выведет). Критерий рекомендует стратегию, определяемую по формуле

H = Max {γmin aij + (1- γ)max aij}

j i i

где γ - степень оптимизма - изменяется в диапазоне [0, 1].

Критерий придерживается некоторой промежуточной позиции, учитывающей возможность как наихудшего, так и наилучшего поведения природы. При γ = 1 критерий превращается в критерий Вальда, при γ = 0 - в критерий максимума. На γ оказывает влияние степень ответственности лица, принимающего решение по выбору стратегии. Чем хуже последствия ошибочных решений, больше желания застраховаться, тем γ ближе к единице.

Рассмотрим платежную матрицу.

Параметр Гурвица возьмем равным 0,6.




min

max

γmin aij + (1- γ)max aij

А1

2400

2400

2400*0.6+0.4*2400=2400

А2

1900

3600

1900*0.6+3600*0.4=2580

А3

1400

4800

1400*0.6+4800*0.4=2760

А4

900

6000

900*0.6+6000*0.4=2940

А5

400

7200

400*0.6+7200*0.4=3120


Критерий Гурвица рекомендует стратегию А5.
3. Критерий Сэвиджа. Суть критерия состоит в выборе такой стратегии, чтобы не допустить чрезмерно высоких потерь, к которым она может привести. Находится матрица рисков, элементы которой показывают, какой убыток понесет человек (фирма), если для каждого состояния природы он не выберет наилучшей стратегии.

Элементы матрицы рисков находится по формуле (rij):

rij = max aij - aij

где max aij - максимальный элемент в столбце исходной матрицы. j

Оптимальная стратегия находится из выражения

H = Min {max(max aij - aij)}

j i j

Составим матрицу риска, (maxaij- aij).

Выберем максимальный элемент в столбце и вычитаем из него остальные элементы столбца, получим max(max aij - aij).




100

150

200

250

300

Мax

А1

0

1200

2400

3600

4800

4800

А2

500

0

1200

2400

3600

3600

А3

1000

500

0

1200

2400

2400

А4

1500

1000

500

0

1200

1500

А5

2000

1500

1000

500

0

2000


Из максимальных значений последнего столбца выбираем минимальную величину, получим Min {max(max aij - aij)}.

Критерий Сэвиджа рекомендует стратегию А4.
4. Критерий Лапласа. Этот критерий основывается на принципе недостаточного обоснования. Поскольку вероятности состояния не известны, необходимая информация для вывода, что эти вероятности различны, отсутствует. Поэтому можно предположить, что они равны. Выбор стратегии осуществляется по формуле

H = Max {1/n·∑ aij}

где 1/n вероятность реализации одного из состояний р = 1/n.

А1

(2400+2400+2400+2400+2400)/5=2400

А2

(1900+3600+3600+3600+3600)/5=3260

А3

(1400+3100+4800+4800+4800)/5=3780

А4

(900+2600+4300+6000+6000)/5=3960

А5

(400+2100+3800+5500+7200)/5=3800


Критерий Лапласа рекомендует нам стратегию А4.

Таким образом, рассмотрев одну платежную матрицу, мы получили, что критерии Лапласа и Сэвиджа рекомендует стратегию А4. То есть необходимый заказ булочек составит 250 единиц ежедневно.

5. Критерий Байеса. Принятие решения в условиях риска.

Если в рассмотренных выше критериях, необходимая информация о вероятностях какого-либо состояния отсутствовала, то критерий Байеса действует в условиях не полной информации, т.е. в условиях риска (имеется информация о вероятностях применения стратегий второй стороной). Эти вероятности называются априорными вероятностями.

Выбор стратегии осуществляется по формуле

H = Max {∑pi aij}


Ежедневный спрос на булочки в продовольственном магазине задается следующим распределением вероятностей

1

2

3

4

5

100

150

200

250

300

0,2

0,25

0,3

0,15

0,1

Поставив значение aij и pi в формулу, получим:


А1

2400*0,2+2400*0,25+2400*0,3+2400*0,15+2400*0,1=2400

А2

1900*0,2+3600*0,25+3600*0,3+3600*0,15+3600*0,1=3260

А3

1400*0,2+3100*0,25+4800*0,3+4800*0,15+4800*0,1=3695

А4

900*0,2+2600*0,25+4300*0,3+6000*0,15+6000*0,1=3620

А5

400*0,2+2100*0,25+3800*0,3+5500*0,15+7200*0,1=3290


Критерий Байеса рекомендует стратегию А3
В условиях полной неопределенности теория не дает однозначных принципов выбора того или иного критерия.

Оптимальные стратегии, выбранные по различным критериям, различны.

Таким образом, окончательный вывод зависит от предпочтений человека, который принимает решение.
ПРИМЕР №1
Найти оптимальные стратегии 1-го игрока, исходя из различных критериев, в игре с полной неопределенностью относительно второго игрока, заданной платежной матрицей:
а11 а12 а13 а14 5 10 18 25

а21 а22 а23 а24 8 7 8 23

А = а31 а32 а33 а34 ; А = 21 18 12 21

а41 а42 а43 а44 20 22 19 15

Решение.

1. Максиминный критерий Вальда.Н = maxmin аij

ji

Вычислим минимальные значения по строкам min аij, а далее из них выберем максимальное.



5 10 18 25 5

А = 8 7 8 23 7

21 18 12 21 12

20 22 19 15 15
Таким образом, получаем Н = maxmin аij = 15 при применении стратегии А4.

ij

Ответ: оптимальной стратегией 1-го игрока А является

стратегия А4.
2. Критерий Гурвица.

Параметр Гурвица возьмем равным γ=0,6: H = Max {γmin aij + (1- γ)max aij}

j i i





5 10 18 25 5 25 5*0,6+0,4*25=13

А = 8 7 8 23 7 23 7*0,6+0,4*23=13,4

21 18 12 21 12 18 12*0,6+0,4*18=14,4

20 22 19 15 15 22 15*0,6+0,4*22=17,8

Получаем H = max[0.6 min аij+(1-0.6) max аij]=17.8

jii

Ответ: оптимальной стратегией первого игрока является

стратегия А4.
3. Критерий Сэвиджа (критерий минимаксного риска).
Необходимо построить матрицу рисков.

Для этого:

1) вычислить максимальные значения по столбцам




5 10 18 25

А = 8 7 8 23

21 18 12 21

20 22 19 15

21 22 19 25

2) вычислить матрицу рисков: rij= max аij- аij




21-5 22-10 19-18 25-25 16 12 1 0

rij= 21-8 22-7 19-8 25-23 = 13 15 11 2

21-21 22-18 19-12 25-21 0 4 7 4

21-20 22-22 19-19 25-15 1 0 0 10

3) вычислить максимальные значения по строкам и из них выберем строку с минимальным значением:

16 12 1 0 16

13 15 11 2 15

rij= 0 4 7 4 7

1 0 0 10 10
Получаем H = min maxrij = 7 при применении стратегии А3.

ij

Ответ: оптимальной стратегией первого игрока является

стратегия А3.
4. Критерий Лапласа. n

Вычислить средние арифметические по строкам [1/n ∑ аij]

5 10 18 25 0.25 (5+10+18+25)=14.5 j=1

A = 8 7 8 23 0.25 (8+7+8+23)=11.5

21 18 12 21 0.25 (21+18+12+21)=18

20 22 19 15 0.25 (20+22+19+15)=19

n

Получаем H = max[1/n ∑ аij] =19 при применении стратегии А4.

i j=1

Ответ: оптимальной стратегией первого игрока является

стратегия А4.
Выбор стратегии в условиях риска (при наличии вероятностной информации).

В1 В2 В3 В4 n

А1 5 10 18 25 H = maxPj аij

А2 8 7 8 23 j j=1

А3 21 18 12 21

А4 20 22 19 15

Вероятности стратегий второго игрока.

В1

В2

В3

В4

0.2

0.15

0.35

0.3


5*0.2+10*0.15+18*0.35+25*0.3=16.30

8*0.2+7*0.15+8*0.35+23*0.3=12.35

21*0.2+18*0.15+12*0.35+21*0.3=17.40

20*0.2+22*0.15+19*0.35+15*0.3=18.45

Получаем Н = 18,45 при применении стратегии А4.

Ответ: оптимальной стратегией первого игрока является

стратегия А4.


ПРИМЕР №2
Предприятие имеет возможность самостоятельно планировать объемы выпуска сезонной продукции А1, А2, А3. Не проданная в течении сезона продукция позже реализуется по сниженной цене. Данные о себестоимости продукции, отпускных ценах и объемах реализации в зависимости от уровня спроса приведены в таблице:


Вид продукции


Себесто-имость

Цена единицы

Продукции

Объем реализации

При уровне спроса

В

течение

сезона

После

уценки

Повы-шенном

среднем

Пони-

женном

a1

d1

р1

q1

a1

b1

c1

a2

d2

р2

q2

a2

b2

c2

a3

d3

р3

q3

а3

b3

c3

Требуется:

1) придать описанной ситуации игровую схему, указать допустимые стратегии сторон, составить платежную матрицу

2) дать рекомендации об объемах выпуска продукции по видам, обеспечивающих предприятию наивысшую прибыль.

Указание. Для уменьшения размерности платежной матрицы считать, что одновременно на все три вида продукции уровень спроса одинаков:

повышенный, средний или пониженный.




Вид продукции


Себесто-имость

Цена единицы

Продукции

Объем реализации

При уровне спроса

В

течение

сезона

После

уценки

Повы-шенном

среднем

Пони-

женном

а1

2,6

3,4

2,8

14

8

5

а2

3,7

4,2

3,2

38

22

9

а3

1,5

2,8

1,7

24

13

7


Решение.
В игре участвуют 2 игрока: А - производитель, В - потребитель.

Игрок А стремится реализовать свою продукцию так, чтобы получить максимальную прибыль. Стратегиями игрока А являются:

А1 - продавать продукцию при повышенном состоянии спроса (a1= 14 , a2 =38 , a3 =24),

А2 - продавать продукцию при среднем состоянии спроса (a1= 8 , a2 =22 , a3 =13),

А3 - продавать продукцию при пониженном состоянии спроса (a1= 5 , a2 =9 , a3 =7),

Игрок В стремится приобрести продукцию с минимальными затратами. Стратегиями игрока В являются:

В1 - покупать продукцию при повышенном состоянии спроса (14 +38+24),

В2 - покупать продукцию при среднем состоянии спроса (8+22+13),

В3 - покупать продукцию при пониженном состоянии спроса (5+9+7).

Интересы игроков А и В - противоположны.

Определим цену продукции в течение сезона и после уценки:

Вид продукции

себестоимость

Цена в течение сезона

Цена после уценки

a1

2,6

3,4-2,6=0,2

2,8-2,6=0,2

a2

3,7

4,2-3,7=0,5

3,2-3,7= -5

a3

1,5

2,8-1,5=1,3

1,7-1,5=0,2


Рассчитаем элементы платежной матрицы

Предложение

Спрос

Стратегии

Aj

Повышенный спрос

14+38+24

Средний спрос

8+22+13

Пониженный спрос

5+9+7

Повышенный спрос

14+38+24

A1

14*0,8+38*0,5+

24*1,3=61,4

8*0,8+(14-8) *0,2+ 22*0,5+(38-22)*(-5) +13*1,3+(24-13)*0,2 =29,7

5*0,8+(14-5)*0,2+

9*0,5+(38-9)*(-5)+

7*1,3+(24-7)=8,3

Средний спрос

8+22+13

A2

8*0,8+22*0,5+

13*1,3=34,3

8*0,8+22*0,5+

13*1,3=34,3

5*0,8+(8-5)*0,2+

9*0,5+(22-9)*(-5)+

7*1,3+(13-7)*0,2 =12,9

Пониженный спрос

5+9+7

A3

5*0,8+9*0,5+7*1,3

=17,6

5*0,8+9*0,5+

7*1,3=17,6

5*0,8+9*0,5+

7*1,3=17,6


Платежная матрица примет вид

Стратегии

В1

В2

В3

αi=min аij

j

А1

61.4

29.7

8.3

8.3

А2

34.3

34.3

12.9

12.9

А3

17.6

17.6

17.6

17.6

βj=max аij

i

61.4

34.3

17.6






α = max αi = 17.6 β = min βj = 17.6

Так как α = β = ν = 17,6, то найдена седловая точка. Значит оптимальное решение: А3; В3

Производитель (игрок А) получит гарантированную прибыль в размере 17,6 ден.ед., если будет реализовывать свою продукцию при пониженном уровне спроса в объеме 5,9 и 7 ед. соответственно продукции а1, а2 и а3


написать администратору сайта