现代的博弈论快速与人工智能进行结合,形成了以数据驱动的博弈论新的框架。博弈论与计算机科学的交叉领域非常多,有以下几个方面:
- 理论计算机科学:算法博弈论
- 人工智能:多智能体系统、AI游戏、人机交互、机器学习、广告推荐等。
- 互联网:互联网经济、共享经济。
- 分布式系统:区块链。
人工智能与博弈论结合,形成了两个主要研究方向:1. 博弈策略的求解;2. 博弈规则的设计。
博弈论提供了许多问题的数学模型。纳什定理确定了博弈过程问题存在解。人工智能的方法可以用来求解均衡局面或者最优策略。
主要研究的问题就是:如何高效求解博弈参与者的策略以及博弈的均衡局势。
其应用领域主要有:
- 大规模搜索空间的问题求解:围棋。
- 非完美信息博弈问题求解:德州扑克。
- 网络对战游戏智能:Dota、星球大战。
- 动态博弈的均衡解:厂家竞争、信息安全。
遗憾最小化算法(Regret Minimization):
我们对遗憾最优化算法(RM)中符号做若干定义:
最佳反应策略与纳什均衡
我们来看一下遗憾最小化算法下的最佳反应策略和纳什均衡。
即玩家i ii采用其它策略获得的收益小于采用最佳策略所能获得的收益。(这里其它玩家策略保持不变。)
在策略组σ 中,如果每个玩家的策略相对于其他玩家的策略而言都是最佳反应策略,那么策略组σ就是一个纳什均衡(Nash equilibrium)策略。
ε-纳什均衡与平均遗憾值
- ε -纳什均衡:
对于给定的正实数ε ,策略组σ 是ε 纳什均衡当且仅当对于每个玩家i ∈ N,满足如下条件:
- 平均遗憾值(average overall regret):假设博弈能够重复地进行(如围棋等),令第t 次博弈时的策略组为σ t,若博弈已经进行了M 次,则这M 次博弈对于玩家i ∈ N的平均遗憾值定义为:
策略选择
- 遗憾最小化算法是一种根据过去博弈中的遗憾程度来决定将来动作选择的方法
- 在博弈中,玩家i 在第T 轮次(每一轮表示一次博弈完成)采取策略σ i 的遗憾值定义如下(累加遗憾):
- 通常遗憾值为负数的策略被认定为不能提升下一时刻收益,所以这里考虑的遗憾值均为正数或0;
- 计算得到玩家i 在第T 轮次采取策略σ i的遗憾值后,在第T + 1轮次玩家i 选择策略a 的概率如下(悔值越大、越选择,即亡羊补牢):
Rock-Paper-Scissors,RPS 例子
- 假设两个玩家A 和B 进行石头-剪刀-布(Rock-Paper-Scissors,RPS)的游戏,获胜玩家收益为1分,失败玩家收益为-1分,平局则两个玩家收益均为零分。
- 第一局时,若玩家A 出石头(R ),玩家B 出布(P ),则此时玩家A 的收益μ A ( R , P ) = − 1 ,玩家B BB的收益为μ B ( P , R ) = 1
- 对于玩家A 来说,在玩家B 出布(P )这个策略情况下,如果玩家A AA选择出布(P PP)或者剪刀(S ),则玩家A 对应的收益值μ A ( P , P ) = 0 或者μ A ( S , P ) = 1
- 所以第一局之后,玩家A 没有出布的遗憾值为:
没有出剪刀的遗憾值为:
- 所以在第二局中,玩家A 选择石头、剪刀和布这三个策略的概率分别为0、2/3、1/3。因此,玩家A 趋向于在第二局中选择出剪刀这个策略。
- 在第一轮中,玩家A 选择石头和玩家B 选择布、在第二局中玩家A 选择剪刀和玩家B 选择石头情况下,则玩家A每一轮遗憾值及第二轮后的累加遗憾取值如下:
- 从上表可知,在第三局时,玩家A 选择石头、剪刀和布的概率分别为1/6、2/6、3/6
- 在实际使用中,可以通过多次模拟迭代累加遗憾值找到每个玩家在每一轮次的最优策略。
- 但是当博弈状态空间呈指数增长时,对一个规模巨大的博弈树无法采用最小遗憾算法。