AlphaZero完胜三大世界冠军棋类程序:5000个TPU、自学一天

简介:
本文来自AI新媒体量子位(QbitAI)

昨天,DeepMind团队又在arXiv上扔了个重磅炸弹,新一代AlphaZero在用了强劲的计算资源(5000个一代TPU和64个二代TPU)之后,用不到24小时的时间自我对弈(tabula rasa,也叫白板)强化学习,接连击败了三个世界冠军级的程序 (国际象棋、将棋、围棋)。


 AlphaZero和国际象棋冠军程序对弈

其中包括上一代冠军围棋程序AlphaGo Zero,这个程序发布还不到两个月,DeepMind就又把自己颠覆了(所以谷歌团队自我进化速度的时间单位都是按天计,可怕)。

AlphaZero的百局战绩

  • 对弈国际象棋程序Stockfish:28胜,72平;
  • 对弈将棋程序 Elmo:90胜,2平,8负;
  • 对弈围棋程序AlphaGo Zero:60胜,40负。

AlphaZero自我对弈的训练时间

  • 训练次数 | 训练时间 | 对弈冠军棋类程序
  • 30万,2小时,击败将棋Elmo
  • 11万,4小时,击败国际象棋Stockfish
  • 16.5万,8小时,击败围棋AlphaGo

把Go去掉,意味着AlphaZero ,已经是比AlphaGo Zero更通用的程序。

一直以来,尽管众多顶尖的AI的程序都超过了人类世界冠军的水平,但它们都只能在单一的领域执行单一的任务,并不能把这种击败人类的超能力泛化到其他任务中。

而DeepMind的野心可不仅仅是在棋类游戏上超越人类,这次他们研究出了这个更通用的程序AlphaZero,将会马上投入到蛋白折叠的应用上

官方称,他们不久就会发表相关论文,通过检测出蛋白错误折叠来快速诊断神经退行性疾病,比如阿尔茨海默症,帕金森,囊状纤维化。

期待AlphaZero在医疗健康领域的表现。

更多棋技的讨论,可以参看知乎上的PENG Bo的评价:https://zhuanlan.zhihu.com/p/31749249

原论文链接:https://arxiv.org/pdf/1712.01815.pdf

本文作者:Root 
原文发布时间:2017-12-07
相关文章
|
3月前
|
人工智能 运维 安全
阿里云GPU服务器全解析:租赁价格、GPU卡规格及问题解答FAQ
阿里云GPU云服务器(EGS)依托高性能GPU芯片与神龙架构,提供弹性灵活、安全稳定的算力支持,广泛适用于AI训练推理、图形渲染、科学仿真等场景。支持多种计费模式与丰富GPU规格,兼顾成本与性能,并集成机密计算、自动运维、生态兼容等核心优势,助力企业高效构建高性能计算环境。
2035 1
|
消息中间件 边缘计算 物联网
物联网络管理平台(LoRaWAN)介绍|学习笔记
快速学习物联网络管理平台(LoRaWAN)介绍
1291 5
物联网络管理平台(LoRaWAN)介绍|学习笔记
|
2月前
|
人工智能 Linux API
保姆级教程:OpenClaw(Clawdbot)阿里云及本地部署+集成小红书自动发图文指南
2026年,内容创作进入“自动化生产”新纪元,OpenClaw(原Clawdbot)凭借“插件化拓展、全流程闭环、多平台适配”的核心优势,成为小红书博主、自媒体人、内容团队的效率神器。它可实现从选题抓取、图文生成、排版优化到自动发布的全链路自动化,无需手动排版、无需来回复制粘贴,仅通过自然语言指令,就能快速产出标准化小红书图文笔记,彻底解放创作生产力。
2993 7
|
10月前
|
数据采集 Web App开发 JavaScript
无头浏览器技术:Python爬虫如何精准模拟搜索点击
无头浏览器技术:Python爬虫如何精准模拟搜索点击
|
负载均衡 安全 调度
Docker Swarm集群架构
【10月更文挑战第8天】
498 1
|
存储 数据可视化 数据处理
`geopandas`是一个开源项目,它为Python提供了地理空间数据处理的能力。它基于`pandas`库,并扩展了其对地理空间数据(如点、线、多边形等)的支持。`GeoDataFrame`是`geopandas`中的核心数据结构,它类似于`pandas`的`DataFrame`,但包含了一个额外的地理列(通常是`geometry`列),用于存储地理空间数据。
`geopandas`是一个开源项目,它为Python提供了地理空间数据处理的能力。它基于`pandas`库,并扩展了其对地理空间数据(如点、线、多边形等)的支持。`GeoDataFrame`是`geopandas`中的核心数据结构,它类似于`pandas`的`DataFrame`,但包含了一个额外的地理列(通常是`geometry`列),用于存储地理空间数据。
|
算法 JavaScript 前端开发
游戏物理系统 - 如何在JavaScript中实现基本的碰撞检测算法?
在JavaScript中实现2D矩形碰撞检测,常用AABB方法,适合简单游戏。创建Rectangle类,包含位置和尺寸属性,并定义`collidesWith`方法检查两矩形是否相交。通过比较边界位置判断碰撞,当四条边界条件均满足时,认定发生碰撞。基础算法适用于初级需求,复杂场景可采用更高级的碰撞检测库。
666 1
|
运维 Java 程序员
Spring5深入浅出篇:AOP底层实现原理
该文档介绍了Spring AOP的底层实现原理,核心问题包括动态代理类的创建。JDK动态代理通过`Proxy.newProxyInstance()`创建接口的实现类,而CGlib则是通过子类继承父类的方式生成代理对象。文中还提供了JDK和CGlib动态代理的代码示例。最后总结,JDK代理基于接口,CGlib则基于继承父类来实现。
计算机网络——物理层-信道的极限容量(奈奎斯特公式、香农公式)
计算机网络——物理层-信道的极限容量(奈奎斯特公式、香农公式)
1043 0
|
移动开发 数据可视化 算法
贝叶斯优化实战(二)(3)
贝叶斯优化实战(二)
499 0