文档备案控制台

开发者社区量子位文章正文

Caffe2推出强化学习库，包含多个基于Caffe2的RL实现

2018-01-09 1473

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文来自AI新媒体量子位（QbitAI）

今年4月，Facebook正式发布了轻量化和模块化的深度学习框架Caffe2。将近5个月后今天，Caffe2又推出了一组强化学习库RL_Caffe2。

强化学习（Reinforcement learning,RL）是机器学习的一个领域，它想教会智能体动作和行为的关系，并在环境中持续一段时间后将奖励最大化。

智能体可以是游戏代理、推荐系统、通知机器人或其他的决策系统。奖励可以是游戏中的点数、或者是网站上更多的参与度。

这个开源的Caffe2 RL框架中包含了一些在OpenAI Gym环境下基于Caffe2的RL实现：

1.DQN

一种Deep Q Learning网络的实现：

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf.

2.SARSA

这是假设输入是既定策略（on-policy）的简化的DQN:

生成数据的策略是实时更新的。SARSA的优点是在训练过程中，我们无需了解可能的动作，只需知道采取了行动就好了。

3.Actor-Critic

Actor Critic模型的实现：

https://arxiv.org/pdf/1509.02971.pdf

RL_Caffe2 GitHub地址：

https://github.com/caffe2/reinforcement-learning-models

无独有偶，几日前谷歌TensorFlow中构建并行强化学习算法的基础架构范例TensorFlow Agents也开源了。

TensorFlow Agents将OpenAI Gym的接口扩展到多个并行环境，用户可在TensorFlow中训练智能体并执行批量运算。此外，研究人员还提供了近端策略优化（Proximal Policy Optimization，PPO）中的实现BatchPPO。

TensorFlow Agents GitHub 地址：

https://github.com/tensorflow/agents

相关论文：

https://arxiv.org/abs/1709.02878

— 完 —

本文作者：安妮

原文发布时间：2017-09-15

文章标签：

机器学习/深度学习

算法

算法框架/工具

TensorFlow

行者武松

目录

相关文章

阿里云安全_

|

1天前

|

云安全人工智能运维

阿里云SecOps Agent，全新安全跨产品执行体验

自然语言驱动云安全中心/WAF/CFW/ 等多款安全产品联动

阿里云安全_

1566 0 0

游客37x5chh37o32g

|

11天前

|

缓存测试技术 API

Qwen 3.7 Plus 与 Max 实测：性价比与多模态能力差异解析（2026）

2026 年 6 月 1 日，阿里悄无声息地发布了 Qwen 3.7 Plus，距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文，同样的 35 小时自治上限。但价格才是头条：Plus 是 0.40/M输入，Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”，而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。

游客37x5chh37o32g

751 12 22

顾念a

|

12天前

|

JavaScript 定位技术 API

CodeGraph 爆火：编程 Agent 需要的不是更多上下文，而是一张提前画好的代码地图

CodeGraph 是一款爆火的本地代码智能工具，通过 tree-sitter 解析 AST 构建结构化知识图谱（存于 SQLite），为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%，支持19+语言及主流框架路由识别，完全离线、无需 API Key。

顾念a

854 11 44

CodeGraph 爆火：编程 Agent 需要的不是更多上下文，而是一张提前画好的代码地图

问号云

|

12天前

|

人工智能运维 JavaScript

阿里云Qoder CN（原通义灵码）全解析产品形态、版本划分与技术适配说明

在AI辅助开发与智能办公工具持续普及的当下，阿里云旗下原通义灵码正式更名为Qoder CN，同时延伸出QoderWork CN、Qoder CN CLI、Qoder CN Mobile等多款配套产品，形成覆盖代码开发、日常办公、终端交互、移动端使用的完整工具矩阵。Qoder CN核心定位为AI智能编码助手，深度适配主流代码编辑器、集成开发环境以及终端场景；QoderWork CN则偏向桌面端综合办公辅助，二者面向不同使用场景，划分了多个版本档位，搭配差异化资源配额、功能权限与计费规则，同时兼容多款主流大模型。

问号云

881 8 15

bailiantest1

|

1天前

|

机器学习/深度学习人工智能调度

🐴 HappyHorse 1.1 现已上线阿里云百炼！快来查收模型使用指南，现在调用享 6 折～

HappyHorse 1.1 是新一代视频生成大模型，全面升级动态表现力、角色一致性、指令遵循、视觉质感与音画协同能力。支持I2V/T2V/R2V三类生成，适配短剧、电商广告、品牌营销等场景，提供高质、流畅、可控的AI视频生产力。

bailiantest1

351 2 2

🐴 HappyHorse 1.1 现已上线阿里云百炼！快来查收模型使用指南，现在调用享 6 折～

Artisaner

|

12天前

|

JSON 缓存安全

通过 CC Switch 本地路由让 Codex CLI 接入 DeepSeek 等第三方模型

CC Switch 通过本地路由（`127.0.0.1:15721`）实现协议转换：将 Codex 的 Responses API 请求自动映射为 DeepSeek 等厂商的 Chat Completions 接口，兼容流式响应与工具调用，无需修改 Codex 源码，安全隔离 API Key。（239字）

Artisaner

2414 7 20

通过 CC Switch 本地路由让 Codex CLI 接入 DeepSeek 等第三方模型

阿里云云原生

|

12天前

|

存储安全 Java

AgentScope Java 2.0：打造分布式、企业级智能体底座

AgentScope 2.0 面向分布式部署、稳定运行、权限安全等企业级需求全面升级，打造支持多租户隔离与长期稳定运行的企业级智能体底座。

阿里云云原生

762 9 13

问号云

|

8天前

|

人工智能自然语言处理算法

阿里云百炼Qwen 3.7 Plus与Max实测全解：性价比与多模态能力、成本深度对比

2026年，阿里云百炼平台推出的Qwen 3.7系列成为企业与开发者落地AI应用的核心选择，其中Qwen 3.7 Max与Plus作为两大旗舰版本，定位差异显著：Max是纯文本推理旗舰，专注高强度智能体与复杂逻辑任务；Plus则是多模态全能版，在保留强大文本能力的同时，补齐图像、视频理解能力，且价格大幅降低。本文基于2026年最新实测数据，从核心参数、文本能力、多模态能力、智能体表现、性价比与场景选型六大维度，全面解析两款模型的差异，为用户提供精准选型参考。

问号云

429 0 1

量子位

热门文章

最新文章

【AD速成】半小时入门AltiumDesigner之绘制原理图(四)

为什么文件名要小写？

【校招面经】“学完C语言” · 这些高频面试考点你都掌握了吧~

死锁问题的描述和代码体现

Java 多线程：线程池实现原理

无密码登陆

在自己的豆瓣首页上增加最近的博客内容

开源框架:SDWebImage

字典树专题【完结】

WinForm企业应用框架设计【三】框架窗体设计；动态创建菜单；

【剪映小助手】音频时间线计算接口（Audio Timelines）

水下目标检测数据集：11类海洋渔具及垃圾 | 目标检测

构建全栈技术思维：从底层原理到 AI 工程化的实战演进

阿里云Linux云服务器部署Go项目：从环境配置到生产级服务全流程指南

微调LocateAnything-3B 实现超高密度的目标检测

给 AI Agent 加记忆之前，先决定它到底允许记住什么

阿里云OSS从零到一完全对接指南：开通、配置、SDK集成与成本优化

阿里云宜搭对接使用完全指南：从连接到集成的全方位解析

阿里云RDS读写分离深度解析：从原理到性能优化的完整实践指南

阿里云智能接入网关对接使用完全指南：从硬件部署到混合云互联

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

小红书笔记详情API深度解析与实战指南（2025年最新版）