产品
解决方案
文档与社区
权益中心
定价
云市场
合作伙伴
支持与服务
了解阿里云
备案
控制台
开发者社区
首页
探索云世界
探索云世界
云上快速入门,热门云上应用快速查找
了解更多
问产品
动手实践
考认证
TIANCHI大赛
活动广场
活动广场
丰富的线上&线下活动,深入探索云世界
任务中心
做任务,得社区积分和周边
高校计划
让每位学生受益于普惠算力
训练营
资深技术专家手把手带教
话题
畅聊无限,分享你的技术见解
开发者评测
最真实的开发者用云体验
乘风者计划
让创作激发创新
阿里云MVP
遇见技术追梦人
直播
技术交流,直击现场
下载
下载
海量开发者使用工具、手册,免费下载
镜像站
极速、全面、稳定、安全的开源镜像
技术资料
开发手册、白皮书、案例集等实战精华
插件
为开发者定制的Chrome浏览器插件
探索云世界
新手上云
云上应用构建
云上数据管理
云上探索人工智能
云计算
弹性计算
无影
存储
网络
倚天
云原生
容器
serverless
中间件
微服务
可观测
消息队列
数据库
关系型数据库
NoSQL数据库
数据仓库
数据管理工具
PolarDB开源
向量数据库
热门
Modelscope模型即服务
弹性计算
云原生
数据库
物联网
云效DevOps
龙蜥操作系统
平头哥
钉钉开放平台
大数据
大数据计算
实时数仓Hologres
实时计算Flink
E-MapReduce
DataWorks
Elasticsearch
机器学习平台PAI
智能搜索推荐
人工智能
机器学习平台PAI
视觉智能开放平台
智能语音交互
自然语言处理
多模态模型
pythonsdk
通用模型
开发与运维
云效DevOps
钉钉宜搭
支持服务
镜像站
码上公益
开发者社区
机器之心
文章
正文
用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类
2023-05-18
70
版权
版权声明:
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《
阿里云开发者社区用户服务协议
》和 《
阿里云开发者社区知识产权保护指引
》。如果您发现本社区中有涉嫌抄袭的内容,填写
侵权投诉表单
进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
简介:
用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类
AI:「我能战胜顶级人类玩家。」另一个 AI:「我玩不过人类,但我能战胜你。」
近几年,自我博弈中的强化学习已经在围棋、国际象棋等一系列游戏中取得了超人的表现。此外,自我博弈的理想化版本还收敛于纳什均衡。纳什均衡在博弈论中非常著名,该理论是由博弈论创始人,诺贝尔奖获得者约翰 · 纳什提出,即在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下,其选择的策略是最优的,那么这个组合就被定义为纳什均衡。
之前就有研究表明,自我博弈中看似有效的连续控制策略也可以被对抗策略利用,这表明自我博弈可能并不像之前认为的那样强大。这就引出一个问题:对抗策略是攻克自我博弈的方法,还是自我博弈策略本身就能力不足?
为了回答这个问题,来自 MIT、 UC 伯克利等机构的研究者进行了一番研究,他们选择自我博弈比较擅长的领域进行,即围棋(Go)。具体而言,他们对公开可用的最强围棋 AI 系统 KataGo 进行攻击。针对一个固定的网络(冻结 KataGo),他们训练了一个端到端的对抗策略,仅用了训练 KataGo 时 0.3% 的计算,他们就获得了一个对抗性策略,并用该策略攻击 KataGo,在没有搜索的情况下,他们的策略对 KataGo 的攻击达到了 99% 的胜率,这与欧洲前 100 名围棋选手实力相当。而当 KataGo 使用足够的搜索接近超人的水平时,他们的胜率达到了 50%。至关重要的是,攻击者(本文指该研究学到的策略)并不能通过学习通用的围棋策略来取胜。
这里我们有必要说一下 KataGo,正如本文所说的,他们在撰写本文时,KataGo 还是最强大的公开围棋 AI 系统。在搜索的加持下,可以说 KataGo 非常强大,战胜了本身就是超人类的 ELF OpenGo 和 Leela Zero。现在该研究的攻击者战胜 KataGo,可以说是非常厉害了。
图 1:对抗策略打败了 KataGo 受害者。
论文地址:
https://arxiv.org/pdf/2211.00241.pdf
研究主页:
https://goattack.alignmentfund.org/adversarial-policy-katago?row=0#no_search-board
有趣的是,该研究提出的对抗策略无法战胜人类玩家,即使是业余选手也能大幅胜过所提模型。
攻击方法
KataGo、AlphaZero 等之前的方法通常是训练智能体自己玩游戏,游戏对手是智能体自己。而在 MIT、UC 伯克利等机构的这项研究中,攻击者(adversary)和固定受害者(victim)智能体之间进行博弈,利用这种方式训练攻击者。该研究希望训练攻击者利用与受害者智能体的博弈交互,而不只是模仿博弈对手。这个过程被称为「victim-play」。
在常规的自我博弈中,智能体通过从自己的策略网络中采样来建模对手的动作,这种方法的确适用于自我博弈。但在 victim-play 中,从攻击者的策略网络中建模受害者的方法就是错误的。为了解决这个问题,该研究提出了两类对抗型 MCTS(A-MCTS),包括:
A-MCTS-S:在 A-MCTS-S 中,研究者将攻击者的搜索过程设置如下:当受害者移动棋子时,从受害者策略网络中采样;当轮到攻击者移动棋子时,从攻击者策略网络中采样。
A-MCTS-R:由于 A-MCTS-S 低估了受害者的能力,该研究又提出了 A-MCTS-R,在 A-MCTS-R 树中的每个受害者节点上为受害者运行 MCTS。然而,这种变化增加了攻击者训练和推理的计算复杂性。
在训练过程中,该研究针对与 frozen KataGo 受害者的博弈来训练对抗策略。在没有搜索的情况下,攻击者与 KataGo 受害者的博弈可以实现 >99% 的胜率,这与欧洲前 100 名围棋选手的实力相当。此外,经过训练的攻击者在与受害者智能体博弈的 64 个回合中实现了超过 80% 的胜率,研究者估计其实力与最优秀的人类围棋棋手相当。
值得注意的是,这些游戏表明,该研究提出的对抗策略并不是完全在做博弈,而是通过欺骗 KataGo 在对攻击者有利的位置落子,以过早地结束游戏。事实上,尽管攻击者能够利用与最佳人类围棋选手相当的博弈策略,但它却很容易被人类业余爱好者击败。
为了测试攻击者与人类对弈的水平,该研究让论文一作 Tony Tong Wang 与攻击者模型实际对弈了一番。Wang 在该研究项目之前从未学习过围棋,但他还是以巨大的优势赢了攻击者模型。这表明该研究提出的对抗性策略虽然可以击败能战胜人类顶级玩家的 AI 模型,但它却无法击败人类玩家。这或许可以说明一些 AI 围棋模型是存在 bug 的。
评估结果
攻击受害者策略网络
首先,研究者对自身攻击方法对 KataGo (Wu, 2019) 的表现进行了评估,结果发现 A-MCTS-S 算法针对无搜索的 Latest(KataGo 的最新网络)实现了 99% 以上的胜率。
如下图 3 所示,研究者评估了自身对抗策略对 Initial 和 Latest 策略网络的表现。他们发现在大部分训练过程中,自身攻击者对两个受害者均取得很高的胜率(高于 90%)。但是随着时间推移,攻击者对 Latest 过拟合,对 Initial 的胜率也下降到 20% 左右。
研究者还评估了对 Latest 的最佳对抗策略检查点,取得了超过 99% 的胜率。并且,如此高的胜率是在对抗策略仅训练 3.4 × 10^7 个时间步长的情况下实现的,这一数据是受害者时间步长的 0.3%。
迁移到有搜索的受害者
研究者将对抗策略成功地迁移到了低搜索机制上,并评估了上一节训练的对抗策略对有搜索 Latest 的能力。如下图 4a 所示,他们发现在 32 个受害者回合时,A-MCTS-S 对受害者的胜率下降到了 80%。但这里,受害者在训练与推理时都没有搜索。
此外,研究者还测试了 A-MCTS-R,并发现它的表现更好,在 32 个受害者回合时对 Latest 取得了超过 99% 的胜率,但在 128 个回合时胜率下降到 10% 以下。
在图 4b 中,研究者展示了当攻击者来到 4096 个回合时,A-MCTS-S 对 Latest 最高取得了 54% 的胜率。这与 A-MCTS-R 在 200 个回合时的表现非常相似,后者取得了 49% 的胜率。
其他评估
如下图 9 所示,研究者发现,尽管 Latest 是一个更强大的智能体,但针对 Latest 训练的攻击者在对抗 Latest 时要比 Initial 表现更好。
最后,研究者探讨了攻击原理,包括受害者的 value 预测和硬编码防御评估。如下图 5 所示,所有的基线攻击都要比他们训练的对抗策略表现差得多。
更多技术细节请参阅原论文。
文章标签:
Go
机器学习/深度学习
决策智能
人工智能
Web App开发
算法
关键词:
打败AI
围棋AI
-开发达人-
目录
相关文章
技术小达人
|
机器学习/深度学习
人工智能
算法
00 后清华学霸用 AI 打败大气层「魔法攻击」,还原宇宙真面貌
00 后清华学霸用 AI 打败大气层「魔法攻击」,还原宇宙真面貌
技术小达人
97
0
0
-开发达人-
|
机器学习/深度学习
人工智能
算法
人工智能战胜欧洲围棋冠军,看看这些AI顶级专家们怎么说
DeepMind开发的AlphaGo击败了欧洲围棋冠军。在本文中,FLI采访了多位著名的AI研究者对谷歌围棋AI的看法,包括《人工智能:一种现代方法》的作者Stuart Russell。
-开发达人-
224
0
0
头条资讯
Facebook首次开源超级围棋AI,复现AI高手AlphaZero
Facebook AI团队在论文中详细披露了围棋AI的训练数据。
头条资讯
565
0
0
雷锋网
|
机器学习/深度学习
人工智能
算法
围棋 AI ELF OpenGo 迎来更新,另有田渊栋呈上开源项目的详细解读
并一同发布了新的研究成果以及可在 Windows 上运行的机器人版本。
雷锋网
225
0
0
技术小能手
|
人工智能
算法
11连胜!绝艺横扫中美日韩对手,称霸围棋AI世界大战
历时一个多月的艰苦鏖战,来自中国、日本、韩国、比利时、美国等国的11个顶级围棋AI,捉对厮杀、层层晋级,王者争霸战今日落幕。
技术小能手
1813
0
0
技术小能手
|
机器学习/深度学习
人工智能
算法
【柯洁泪洒乌镇一周年】AI已重写围棋江湖
技术小能手
1280
0
0
云栖大讲堂
|
人工智能
算法
机器人
德州扑克算法幕后研发者CMU博士Brown专访:AI如何打败顶级人类牌手?
云栖大讲堂
2018
0
0
开发者小达人
|
机器学习/深度学习
人工智能
自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
开发者小达人
1062
0
0
-开发达人-
|
机器学习/深度学习
人工智能
自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
-开发达人-
1543
0
0
玩SAP的苏州BOY
|
人工智能
自动驾驶
2019年上半年收集到的中国人工智能发展详情文章
2019年上半年收集到的中国人工智能发展详情文章
玩SAP的苏州BOY
626
0
0
热门文章
最新文章
1
如何用MongoDB Atlas和大语言模型,高效构建企业级AI应用?
2
AIGC创作活动 | 跟着UP主秋葉一起部署AI视频生成应用!
3
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
4
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
5
fast.ai 深度学习笔记(五)(3)
6
fast.ai 机器学习笔记(四)(2)
7
fast.ai 深度学习笔记(二)(3)
8
fast.ai 深度学习笔记(七)(4)
9
fast.ai 深度学习笔记(六)(3)
10
fast.ai 机器学习笔记(一)(4)
1
OpenAI与法国和西班牙媒体巨头合作:利用内容进行训练AI
24
2
一个接口白嫖四个AI平台, 五个翻译平台
68
3
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
28
4
F5怎么样?保障AI服务的安全性和交付
25
5
【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“
107
6
Google Gemma 模型服务:开放的生成式 AI 模型服务
111
7
悦数图数据库推出 AI 知识图谱构建器及图语言生成助手
42
8
C++ 实现对战AI五子棋
102
9
智领,万象新生:智谱AI推动大模型商业化迈向新阶段
24
10
哲学家解析Sora本质,AI视频离世界模拟器还有多远?
25
相关课程
更多
AI开发者的Docker实践
AI社区开源学习实践
趣味视觉AI应用入门与实战
AI数学基础
相关电子书
更多
释放算力潜能,加速 AI 应用构建
网易游戏机器学习云平台助力AI应用落地实践
智算时代,基于 ACK 落地云原生AI
相关实验场景
更多
基于函数计算实现AI推理
函数计算实战-云开发创建视觉AI应用
基于函数计算一键部署掌上游戏机
一键创建和部署高分电影推荐语音技能
部署Stable Diffusion玩转AI绘画(GPU云服务器)
下一篇
部署LAMP环境(Alibaba Cloud Linux 3)