文档备案控制台

开发者社区人工智能文章正文

清华本科生开发强化学习平台「天授」：千行代码实现，性能吊打国外成熟平台，刚刚开源

2020-04-02 1430

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！江山代有才人出，开源一波更比一波强。就在最近，一个简洁、轻巧、快速的深度强化学习平台，完全基于Pytorch，在Github上开源。

云栖号资讯：【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！

江山代有才人出，开源一波更比一波强。

就在最近，一个简洁、轻巧、快速的深度强化学习平台，完全基于Pytorch，在Github上开源。

如果你也是强化学习方面的同仁，走过路过不要错过。

而且作者，还是一枚清华大学的本科生——翁家翌，他开发了”天授（Tianshou）“平台。

没错，名字就叫“天授”。

Why 天授？

主要有四大优点：

1、速度快，整个平台只用1500行左右代码实现，在已有的toy scenarios上面完胜所有其他平台，比如3秒训练一个倒立摆（CartPole）。

2、模块化，把所有policy都拆成4个模块：

init：策略初始化。
process_fn：处理函数，从回放缓存中处理数据。
call：根据观测值计算操作
learn：从给定数据包中学习

只要完善了这些给定的接口就能在100行之内完整实现一个强化学习算法。

3、天授平台目前支持的算法有：

随着项目的开发，会有更多的强化学习算法加入天授。

4、接口灵活：用户可以定制各种各样的训练方法，只用少量代码就能实现。

如何使用天授

以DQN（Deep-Q-Network）算法为例，我们在天授平台上使用CartPole小游戏，对它的agent进行训练。

配置环境

习惯上使用OpenAI Gym，如果使用Python代码，只需要简单的调用Tianshou即可。

CartPole-v0是一个可应用DQN算法的简单环境，它拥有离散操作空间。配置环境时，你需要注意它的操作空间是连续还是离散的，以此选择适用的算法。

设置多环境层

你可以使用现成的gym.Env：

也可以选择天授提供的三种向量环境层：VectorEnv、SubprocVectorEnv和RayVectorEnv，如下所示：

示例中分别设置了8层和100层环境。

建立网络

天授支持任意用户自主定义的网络或优化器，但有接口限制。

以下是一个正确的示例：

设置策略

我们使用已定义的net和optim（有额外的策略超参数）来定义一个策略。下方我们用一个目标网络来定义DQN算法策略。

设置收集器

收集器是天授的关键概念，它使得策略能够高效的与不同环境交互。每一步，收集器都会将该策略的操作数据记录在一个回放缓存中。

训练

天授提供了训练函数onpolicy_trainer和offpolicy_trainer。当策略达到终止条件时，他们会自动停止训练。由于DQN是无策略算法，我们使用offpolicy_trainer。

训练器支持TensorBoard记录，方法如下：

将参数writer输入训练器中，训练结果会被记录在TensorBoard中。

记录显示，我们在几乎4秒的时间内完成了对DQN的训练。

保存/加载策略

因为我们的策略沿袭自torch.nn.Module，所以保存/加载策略方法与torch模块相同。

观察模型表现

收集器支持呈现功能，以35帧率观察模型方法如下：

用你自己的代码训练策略

如果你不想用天授提供的训练器也没问题，以下是使用自定义训练器的方法。

上手体验

天授需要Python3环境。以CartPole训练DQN模型为例，输入test_dqn.py代码进行训练，其结果统计如下：

可以看出整个训练过程用时7.36秒，与开发者给出的训练时间符合。

模型训练结果如下：

作者介绍

天授的开发者：翁家翌，清华大学的在读大四本科生。

高中毕业于福州一中，前NOI选手。

大二时作就作为团队主要贡献者获得了强化学习国际比赛vizdoom的冠军。他希望能将天授平台深入开发，成为强化学习平台的标杆。开源也是希望有更多的小伙伴加入这个项目。

【云栖号在线课堂】每天都有产品技术专家分享！
课程地址：https://yqh.aliyun.com/zhibo

立即加入社群，与专家面对面，及时了解课程最新动态！
【云栖号在线课堂社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-04-01
本文作者：贾浩楠
本文来自：“量子位”，了解相关信息可以关注“公众号 QbitAI”

文章标签：

Python

机器学习/深度学习

算法框架/工具

PyTorch

算法

缓存

开发者

云栖号资讯小哥

目录

相关文章

东方睿赢

|

数据采集监控

如何检测和应对网站的反爬虫机制？

如何检测和应对网站的反爬虫机制？

东方睿赢

2169 3 3

阿里云开发者

|

5月前

|

存储缓存调度

阿里云Tair KVCache仿真分析：高精度的计算和缓存模拟设计与实现

在大模型推理迈向“智能体时代”的今天，KVCache 已从性能优化手段升级为系统级基础设施，“显存内缓存”模式在长上下文、多轮交互等场景下难以为继，而“以存代算”的多级 KVCache 架构虽突破了容量瓶颈，却引入了一个由模型结构、硬件平台、推理引擎与缓存策略等因素交织而成的高维配置空间。如何在满足 SLO（如延迟、吞吐等服务等级目标）的前提下，找到“时延–吞吐–成本”的最优平衡点，成为规模化部署的核心挑战。

阿里云开发者

1596 40 48

阿里云Tair KVCache仿真分析：高精度的计算和缓存模拟设计与实现

阮颖松-31785

|

搜索推荐前端开发数据可视化

【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统，django框架+bootstrap前端+echarts可视化，有后台有爬虫

本文介绍了一个基于Django框架、协同过滤算法、ECharts数据可视化以及Bootstrap前端技术的酒店推荐系统，该系统通过用户行为分析和推荐算法优化，提供个性化的酒店推荐和直观的数据展示，以提升用户体验。

阮颖松-31785

1048 1 1

【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统，django框架+bootstrap前端+echarts可视化，有后台有爬虫

Deephub

|

机器学习/深度学习算法 PyTorch

深度强化学习中SAC算法：数学原理、网络架构及其PyTorch实现

软演员-评论家算法（Soft Actor-Critic, SAC）是深度强化学习领域的重要进展，基于最大熵框架优化策略，在探索与利用之间实现动态平衡。SAC通过双Q网络设计和自适应温度参数，提升了训练稳定性和样本效率。本文详细解析了SAC的数学原理、网络架构及PyTorch实现，涵盖演员网络的动作采样与对数概率计算、评论家网络的Q值估计及其损失函数，并介绍了完整的SAC智能体实现流程。SAC在连续动作空间中表现出色，具有高样本效率和稳定的训练过程，适合实际应用场景。

Deephub

5943 7 7

深度强化学习中SAC算法：数学原理、网络架构及其PyTorch实现

其名美曰

|

计算机视觉

YOLOv11改进策略【损失函数篇】| 利用MPDIoU，加强边界框回归的准确性

YOLOv11改进策略【损失函数篇】| 利用MPDIoU，加强边界框回归的准确性

其名美曰

978 0 0

YOLOv11改进策略【损失函数篇】| 利用MPDIoU，加强边界框回归的准确性

软件求生

|

NoSQL Shell Redis

Redis热升级秘诀：保证高可用性的技术方案

Redis热升级方案允许在不中断业务的情况下，实现数千级别Redis的无缝更新。通过构建Redis Shell程序保存数据库状态，封装动态连接库，以及在运行时加载新版本库，保持客户端连接，该方法确保了业务连续性和高可用性，且升级仅需几毫秒，显著提升了系统效率。

软件求生

1156 6 6

请回答1024

|

存储关系型数据库索引

平衡二叉树，红黑树，B树和B+树的区别及其应用场景

平衡二叉树，红黑树，B树和B+树的区别及其应用场景

请回答1024

909 0 0

最好zzz

|

存储缓存监控

Elasticsearch Filter 缓存加速检索的细节，你知道吗？

【8月更文挑战第15天】在大数据与搜索引擎的广阔天地里，Elasticsearch 凭借其强大的全文搜索能力和可扩展性，成为了众多企业和开发者的首选。而在Elasticsearch的性能优化中，Filter缓存（也称为Filter Cache，自Elasticsearch 7.x版本后更名为Query Cache的一部分）扮演着至关重要的角色。今天，我们就来深入探讨一下Elasticsearch Filter缓存如何加速检索过程，以及在日常工作学习中如何有效利用这一特性。

最好zzz

428 0 0

热烈的马

|

机器学习/深度学习算法关系型数据库

【PyTorch深度强化学习】DDPG算法的讲解及实战（超详细附源码）

【PyTorch深度强化学习】DDPG算法的讲解及实战（超详细附源码）

热烈的马

6649 1 1

热门文章

最新文章

windows虚拟机关闭自动分配IPV4地址

阿里云——Java实现手机短信验证码功能

Hermes Agent 一键部署指南：阿里云 3 种极简方案

MyBatis【问题 01】mapper传入array\collection\list类型的参数时报BindingException:Parameter ‘xx‘ not found问题复现及解决

公网使用SSH远程登录macOS服务器【内网穿透】

我不是九爷带你了解 CloudStack+XenServer详细部署方案（3）：CloudStack管理节点的安装和配置

一些有用的Exadata诊断命令

传夏普将获鸿海精密59亿美元投资

转载RabbitMQ入门（5）--主题

阿里云主机优惠券发放贴 [持续更新...]

Windows Docker Desktop 环境下 RabbitMQ 生产级部署完整指南

【Azure Function App】升级 Python 运行时 3.9 到3.10 后遇见的问题

阿里云Token Plan团队版产品介绍、核心功能、套餐价格、便宜购买方法参考

为什么很多 AI Agent 一上线就开始烧钱？我在这个开源项目里看到了答案

2026年阿里云服务器选型与网站部署全攻略：从服务器选型、配置到上线一站式指南

阿里云百炼 Coding Plan 深度解析：核心功能、接入配置与省钱订阅指南

大模型参数反向拆解：解锁模型能力与参数的底层关联，实现精准按需调参.151

阿里云千问大模型全解析：核心功能、配置与高性价比订阅指南

【AgentScope Java新手村系列】（13）工具分组

Electron桌面应用监控全解：阿里云@arms/rum-electron SDK完整实操指南

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！