完全信息静态博弈(static games of complete information
)。其中假设参与人是理性的(Rationality
),也就是参与人的目的是使得自己收益最大化,参与人是完美的计算者。并且参与人知道其它参与人是理性的。
Prisoners’ Dilemma
上述例子就是完全信息静态博弈的例子。同时行动(simultaneous move
)指的是每个参与人在选择他的策略时不知道其他参与人的选择。完全信息(complete information
)指的是每个参与人的策略和收益函数都是所有参与人的共同知识(common konwledge
)。
Normal-form (or strategic-form) representation
一个博弈G GG的标准式(或策略式)包括:
2-player game
如只有两个player
,且每个player
的策略有限,则可以用双变量矩阵来表示这个博弈:
行和列表示策略可选策略,矩阵中的单元格表示策略组合。
Prisoners’ Dilemma
在囚徒困境这个例子中参与人集合可表示为:{ P r i s o n e r 1 , P r i s o n e r 2 } ,策略集合S 1 = S 2 = { M u m , C o n f e s s } 收益函数可表示为:
那么其双变量矩阵可表示为:
Iterated elimination of strictly dominated strategies
Nash equilibrium
纳什均衡是一个策略组合。其中,每个参与人选择的策略都是针对其他参与人选择策略的最优反应。
更一般地考虑2-player game with strategies
。S 1 = { s 11 , s 12 , s 13 } ,S 2 = { s 21 , s 22 },如果u 1 ( s 11 , s 21 ) ≥ u 1 ( s 12 , s 21 ) ,且u 1 ( s 11 , s 21 ) ≥ u 1 ( s 13 , s 21 )。那么player1
的策略s 11 是他对player2
策略s 21 的最优反应。
在一个两个参与人的博弈中,当且仅当两个参与人所选策略都为对方所选策略的最优反应时,那么这个策略是一个纳什均衡。
在一个纳什均衡的策略组合上,每个参与人给定对方策略选择时最大化自己的收益了,不会有任何动机偏离当前的策略选择。
再看一个纳什均衡解的问题:
Best Response Function
最优反应(Best Response Function
)定义:在标准式博弈(normal-form game
) { S 1 , S 2 , ⋯ , S n , u 1 , u 2 , ⋯ , u n } 中,如果其它玩家1 , 2 , ⋯ , i − 1 , i + 1 , ⋯ , n 选择策略s 1 , ⋯ , s i − 1 , s i + 1 , ⋯ , s n ,对于参与人i 来说,如果策略s i s_{i}si带给他的收益不小于他在任何其它策略带给他的收益,那么这个策略s i 就是对于其他参与人所选策略的最优反应:
或者定义为一个最大化问题:
依据最优反应定义纳什均衡
Applications of Nash equilibrium
最优反应求解纯策略纳什均衡
严格剔除劣策略纳什均衡
Mixed strategy Nash equilibrium
混合策略是指定一个实际行动,它是从纯策略集中以某些指定的概率被随机选择出来的。伴随着策略选择的随机化是参与人收益的随机化。因此需要引入期望收益(expected payoff
)