机器博弈 (二) 遗憾最小化算法

简介: 机器博弈 (二) 遗憾最小化算法

现代的博弈论快速与人工智能进行结合,形成了以数据驱动的博弈论新的框架。博弈论与计算机科学的交叉领域非常多,有以下几个方面:

  • 理论计算机科学:算法博弈论
  • 人工智能:多智能体系统、AI游戏、人机交互、机器学习、广告推荐等。
  • 互联网:互联网经济、共享经济。
  • 分布式系统:区块链。

  人工智能与博弈论结合,形成了两个主要研究方向:1. 博弈策略的求解;2. 博弈规则的设计。

  博弈论提供了许多问题的数学模型。纳什定理确定了博弈过程问题存在解。人工智能的方法可以用来求解均衡局面或者最优策略。

  主要研究的问题就是:如何高效求解博弈参与者的策略以及博弈的均衡局势。

  其应用领域主要有:

  • 大规模搜索空间的问题求解:围棋。
  • 非完美信息博弈问题求解:德州扑克。
  • 网络对战游戏智能:Dota、星球大战。
  • 动态博弈的均衡解:厂家竞争、信息安全。


遗憾最小化算法(Regret Minimization):


  我们对遗憾最优化算法(RM)中符号做若干定义:

image.png

最佳反应策略与纳什均衡


  我们来看一下遗憾最小化算法下的最佳反应策略和纳什均衡。

image.png

  即玩家i ii采用其它策略获得的收益小于采用最佳策略所能获得的收益。(这里其它玩家策略保持不变。)


  在策略组σ 中,如果每个玩家的策略相对于其他玩家的策略而言都是最佳反应策略,那么策略组σ就是一个纳什均衡(Nash equilibrium)策略。

image.png

ε-纳什均衡与平均遗憾值


  • ε -纳什均衡


对于给定的正实数ε ,策略组σ ε 纳什均衡当且仅当对于每个玩家i ∈ N,满足如下条件:

image.png

  • 平均遗憾值(average overall regret):假设博弈能够重复地进行(如围棋等),令第t 次博弈时的策略组为σ t,若博弈已经进行了M 次,则这M 次博弈对于玩家i ∈ N的平均遗憾值定义为:


image.png

策略选择


  • 遗憾最小化算法是一种根据过去博弈中的遗憾程度来决定将来动作选择的方法
  • 在博弈中,玩家i 在第T 轮次(每一轮表示一次博弈完成)采取策略σ i 的遗憾值定义如下(累加遗憾):

image.png

  • 通常遗憾值为负数的策略被认定为不能提升下一时刻收益,所以这里考虑的遗憾值均为正数或0;
  • 计算得到玩家i 在第T 轮次采取策略σ i的遗憾值后,在第T + 1轮次玩家i 选择策略a 的概率如下(悔值越大、越选择,即亡羊补牢):


image.png

Rock-Paper-Scissors,RPS 例子


  • 假设两个玩家A B 进行石头-剪刀-布(Rock-Paper-Scissors,RPS)的游戏,获胜玩家收益为1分,失败玩家收益为-1分,平局则两个玩家收益均为零分。
  • 第一局时,若玩家A 出石头(R ),玩家B 出布(P ),则此时玩家A 的收益μ A ( R , P ) = − 1 ,玩家B BB的收益为μ B ( P , R ) = 1
  • 对于玩家A 来说,在玩家B 出布(P )这个策略情况下,如果玩家A AA选择出布(P PP)或者剪刀(S ),则玩家A 对应的收益值μ A ( P , P ) = 0 或者μ A ( S , P ) = 1
  • 所以第一局之后,玩家A 没有出布的遗憾值为:

image.png


  没有出剪刀的遗憾值为:

image.png

  • 所以在第二局中,玩家A 选择石头、剪刀和布这三个策略的概率分别为0、2/3、1/3。因此,玩家A 趋向于在第二局中选择出剪刀这个策略
  • 在第一轮中,玩家A 选择石头和玩家B 选择布、在第二局中玩家A 选择剪刀和玩家B 选择石头情况下,则玩家A每一轮遗憾值及第二轮后的累加遗憾取值如下:



  • 从上表可知,在第三局时,玩家A 选择石头、剪刀和布的概率分别为1/6、2/6、3/6
  • 在实际使用中,可以通过多次模拟迭代累加遗憾值找到每个玩家在每一轮次的最优策略。
  • 但是当博弈状态空间呈指数增长时,对一个规模巨大的博弈树无法采用最小遗憾算法
相关文章
|
8月前
|
机器学习/深度学习 算法 搜索推荐
【解密算法:时间与空间的博弈】(中)
【解密算法:时间与空间的博弈】
|
8月前
|
存储 算法
【解密算法:时间与空间的博弈】(上)
【解密算法:时间与空间的博弈】
|
3月前
|
存储 算法 决策智能
【算法】博弈论(C/C++)
【算法】博弈论(C/C++)
|
5月前
|
存储 算法 调度
基于和声搜索算法(Harmony Search,HS)的机器设备工作最优调度方案求解matlab仿真
通过和声搜索算法(HS)实现多机器并行工作调度,以最小化任务完成时间。在MATLAB2022a环境下,不仅输出了工作调度甘特图,还展示了算法适应度值的收敛曲线。HS算法模拟音乐家即兴创作过程,随机生成初始解(和声库),并通过选择、微调生成新解,不断迭代直至获得最优调度方案。参数包括和声库大小、记忆考虑率、音调微调率及带宽。编码策略将任务与设备分配映射为和声,目标是最小化完成时间,同时确保满足各种约束条件。
|
7月前
|
机器学习/深度学习 人工智能 算法
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
367 6
|
7月前
|
机器学习/深度学习 算法 BI
机器学习笔记(一) 感知机算法 之 原理篇
机器学习笔记(一) 感知机算法 之 原理篇
|
7月前
|
算法 调度
基于变异混合蛙跳算法的车间调度最优化matlab仿真,可以任意调整工件数和机器数,输出甘特图
**摘要:** 实现变异混合蛙跳算法的MATLAB2022a版车间调度优化程序,支持动态调整工件和机器数,输出甘特图。核心算法结合SFLA与变异策略,解决Job-Shop Scheduling Problem,最小化总完成时间。SFLA模拟蛙群行为,分组进行局部搜索和全局信息交换。变异策略增强全局探索,避免局部最优。程序初始化随机解,按规则更新,经多次迭代和信息交换后终止。
|
6月前
|
机器学习/深度学习 数据采集 算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
|
8月前
|
算法 调度 决策智能
基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理(matlab代码)
基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理(matlab代码)
|
8月前
|
算法
数学算法总结(面积、博弈)
数学算法总结(面积、博弈)

热门文章

最新文章