【Nature论文浅析】基于模型的AlphaGo Zero

简介: 【Nature论文浅析】基于模型的AlphaGo Zero
  • 论文题目:Mastering Atari, Go, chess and shogi by planning with a learned model


所解决的问题?


  规划planning一直都是人工智能研究领域中,人们追逐的一个比较难的研究点,基于树的规划算法,像AlphaGo这类算法已经取得了巨大的成功,然而基于树模型的规划算法需要一个完美的环境模型,这个条件在真实的世界中是很难被满足的。


背景


  基于模型的强化学习方法先学一个环境模型,然后基于所学的这个环境模型去规划能够解决无法在真实环境交互过多的问题。以往的经典的规划算法往往都会依赖被控对象的模型,这样对于实际地落地就存在很大的阻碍。现在做的比较好的基于模型的强化学习算法,都不会聚焦在重建整个的环境,也就是说一般不会重构整个的观测序列。像abstract mdplatent space这类方法都能够比较高效地做值函数的估计。


所采用的方法?


  MuZero是基于AlphaZero的改进版本。MuZero扩展AlphaZero到单个智能体领域以及非终止奖励的控制对象上。

  算法主要的思想是预测未来,主要是预测那些可以直接用来规划未来的数据,比如预测未来的值函数。之后就可以基于预测数据进行规划。

  • MuZero算法

  具体做法是:模型接收一个观测数据(比如游戏的一帧像素),然后将其编码到隐藏状态空间。在隐藏状态空间可以通过给定动作和自回归的方式进行学习和训练。在每一步,模型需要产生(或者说去预测)一个策略,一个值函数(预测的累计奖励),和一个即时奖励的预测(当前步的奖励预测)。模型端到端直接训练好,并且作者这里并不采用dreamerplanet学习环境模型的方法,认为模型没有必要具有从隐状态复原到原像素这种能力。隐状态只要能够去正确地估计策略、值函数和即时奖励即可


image.png

其中u 是真实地观测奖励,π 是策略,γ 是折扣因子。


  说白了就是拿到过去的观测数据,编码到当前的隐藏状态,然后再给定未来的动作,就可以在隐藏状态空间中进行规划了


  1. 想要实现上述功能,与基于模型的算法一样,两部走;学环境模型和策略规划。

  环境模型需要提供的是:1. 状态转移;2. 每个节点允许搜索的动作(减少搜索空间);3. 终止节点。用神经网络来做就好了,环境模型其实是由两部分组成,表示模型和动态模型g θ

image.png

取得的效果?


  • 实验结果总之就是很厉害啦!

所出版信息?作者信息?

  Julian Schrittwieser谷歌大脑软件工程师!AlphaGoAlphaZero的项目组成员。

相关文章
|
小程序 Shell 网络安全
【微信小程序】-- 使用 Git 管理项目(五十)
【微信小程序】-- 使用 Git 管理项目(五十)
|
算法 Python
Python算法——广度优先搜索
Python算法——广度优先搜索
638 0
|
2月前
|
机器学习/深度学习 弹性计算 负载均衡
阿里云新用户购买云产品主要优惠政策讲解,最新试用、优惠券、云服务器活动价格参考
阿里云针对新用户购买云服务器推出了一系列优惠政策,涵盖免费试用、轻量应用服务器抢购、优惠券等多个方面,为新用户提供了丰富多样的选择和实惠,让用户在试用和购买过程中都能享受到不同的优惠政策,本文为大家介绍目前新用户的主要优惠政策以及云服务器活动价格情况,以供参考。
|
11月前
|
存储 Docker 容器
Docker Volumes卷详解及时区、时间同步设置技巧
总的来说,Docker卷是一种强大的数据持久化和数据共享工具,而Docker的时区和时间同步设置则可以帮助你更好地管理和使用你的容器。希望这些信息能够帮助你更好地理解和使用Docker。
466 75
|
6月前
|
传感器 边缘计算 人工智能
2025大模型应用平台选型指南:从个人助手到企业级智能体,5大平台场景化拆解
本文深度评测五大主流大模型平台,结合金融、医疗、制造实战案例,解析Open WebUI、Dify、Ragflow、FastGPT与n8n的定位与优势,提供选型决策树与混合架构实例,助你精准匹配业务需求,避开“全能平台”陷阱,实现高效智能化落地。
|
存储 关系型数据库 数据库
极简开发,极速上线:构建端到端大模型应用
本文将以一个经典的 RAG(检索增强生成)知识问答系统为例,详细介绍从智能体设计到最终应用部署的全流程。
1837 82
|
Java 程序员 Linux
Maven的基本安装与使用
Maven的基本安装与使用
468 6
|
人工智能 测试技术
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
Valley 是字节跳动推出的多模态大模型,能够处理文本、图像和视频数据,在电子商务和短视频领域表现优异,并在 OpenCompass 测试中排名第二。
701 10
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
|
机器学习/深度学习 并行计算 PyTorch
如何搭建深度学习的多 GPU 服务器
如何搭建深度学习的多 GPU 服务器
如何搭建深度学习的多 GPU 服务器
|
前端开发 JavaScript 开发工具
使用jsDelivr和GitHub,上传本地静态资源到免费CDN
本文介绍了一种将本地图片和静态资源(如 js、css、文档等)上传至免费CDN的方法,便于随时调用。具体步骤包括:在GitHub创建仓库`resources`存放资源;通过上传或Git命令同步文件;在仓库中创建新版本并发布。之后即可通过指定格式的URL访问这些CDN资源。此方法简单高效,适合开发者快速部署和共享静态内容。
1335 5
使用jsDelivr和GitHub,上传本地静态资源到免费CDN

热门文章

最新文章