备案控制台

开发者社区人工智能文章正文

【5分钟Paper】Fast强化学习和Slow强化学习

2023-08-05 70

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5分钟Paper】Fast强化学习和Slow强化学习

论文标题：Fast Reinforcement Learning Via Slow Reinforcement Learning

所解决的问题

让RL学地更快一点。

背景

动物可以很快学习一些事情，而强化学习需要大量的试错实验。贝叶斯强化学习算法可以引入先验知识，但是在稍微复杂一点的情况下的更新是很困难的。

所采用的方法？

将学习过程中的智能体作为一个优化目标，然后用一个标准的强化学习算法对其优化。就是用强化学习学一个强化学习算法。

智能体与环境的交互如下图所示：

用n表示特殊的MDP中包含的epsiode数，上图中n = 2 。next states t + 1 ，actiona t ，rewardr t 和终止信号d t (episode 终止为1，非终止为0)组成策略的输入，在隐状态h t + 1 的条件下，生成下一个隐状态h t + 2 和动作a t + 1。episode的隐状态可以用于下一个episode，但是不会用于不同的trail。

智能体的目标是最大化累计折扣奖励(一个trial，而不是一个episode)。这种做法使得智能体是在考虑整体，而非局部。最后查ICLR2017的审稿意见，说最外层的智能体优化里层智能体RNN的参数，大概就是这么个思想吧。

取得的效果？

所出版信息？作者信息？

这篇文章并没有中，伯克利和OpenAI著作。

文章标签：

机器学习/深度学习

算法

小小何先生

目录

相关文章

龙腾九州

|

7月前

FAST特征检测

FAST特征检测。

龙腾九州

65 2 2

米果粒

|

6月前

FAST关键点检测

【6月更文挑战第5天】FAST关键点检测。

米果粒

36 4 4

clichong

|

机器学习/深度学习存储缓存

YOLOv5的Tricks | 【Trick9】模型剪枝处理与Pytorch实现的剪枝策略

在yolov5项目中的torch_utils.py文件下，有prune这个函数，用来实现模型的剪枝处理。对模型裁剪，模型剪枝这方面之前没有接触到，这里用这篇笔记来学习记录一下这方面内容。

clichong

2260 0 0

YOLOv5的Tricks | 【Trick9】模型剪枝处理与Pytorch实现的剪枝策略

汀丶人工智能

|

机器学习/深度学习人工智能算法

强化学习从基础到进阶--案例与实践[8]：近端策略优化（proximal policy optimization，PPO）算法

强化学习从基础到进阶--案例与实践[8]：近端策略优化（proximal policy optimization，PPO）算法

汀丶人工智能

287 0 0

强化学习从基础到进阶--案例与实践[8]：近端策略优化（proximal policy optimization，PPO）算法

5i77ajz5u7ji6

|

机器学习/深度学习算法计算机视觉

【检测|RCNN系列-2】目标检测算法Fast RCNN（附论文获取方式）

【检测|RCNN系列-2】目标检测算法Fast RCNN（附论文获取方式）

5i77ajz5u7ji6

194 0 0

【检测|RCNN系列-2】目标检测算法Fast RCNN（附论文获取方式）

AiCharm

|

机器学习/深度学习算法数据挖掘

深度学习论文阅读目标检测篇（二）：Fast R-CNN《Fast R-CNN》

本文提出了一种快速的基于区域的卷积网络方法（fast R-CNN）用于目标检测。Fast R-CNN 建立在以前使用的深卷积网络有效地分类目标的成果上。相比于之前的研究工作，Fast R-CNN 采用了多项创新提高了训练和测试速度，同时也提高了检测准确度。

AiCharm

216 0 0

strongnine

|

机器学习/深度学习人工智能算法

目标检测技术演进：Fast R-CNN、Faster R-CNN

我讲了 RCNN 算法，似乎它的表现不太好，所以这次我们讲讲它的进化版 —— Fast RCNN 和 Faster RCNN

strongnine

147 1 1

目标检测技术演进：Fast R-CNN、Faster R-CNN

AiCharm

|

机器学习/深度学习存储算法

深度学习经典网络解析目标检测篇（二）：Fast R-CNN

R-CNN网络训练、测试繁琐：R-CNN网络训练过程分为ILSVRC 2012样本下有监督预训练、PASCAL VOC 2007该特定样本下的微调、20类即20个SVM分类器训练、20类即20个Bounding-box回归器训练，该训练流程繁琐复杂；同理测试过程也包括提取建议框、提取CNN特征、SVM分类和Bounding-box回归等步骤，过于繁琐；

AiCharm

126 0 0

AiCharm

|

机器学习/深度学习开发框架算法

动手学强化学习（二）：马尔可夫决策过程（Markov decision process，MDP）

马尔可夫决策过程（Markov decision process，MDP）是强化学习的重要概念。要学好强化学习，我们首先要掌握马尔可夫决策过程的基础知识。前两章所说的强化学习中的环境一般就是一个马尔可夫决策过程。与多臂老虎机问题不同，马尔可夫决策过程包含状态信息以及状态之间的转移机制。如果要用强化学习去解决一个实际问题，第一步要做的事情就是把这个实际问题抽象为一个马尔可夫决策过程，也就是明确马尔可夫决策过程的各个组成要素。本章将从马尔可夫过程出发，一步一步地进行介绍，最后引出马尔可夫决策过程。

AiCharm

1724 0 0

HanZee

|

机器学习/深度学习计算机视觉异构计算

Fast R-CNN思想总结

Fast Rcnn思想总结

HanZee

125 0 0

热门文章

最新文章

Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南

Nginx的启动、停止与重启

Hive之数据倾斜的原因和解决方法

开发人员各级岗位胜任力模型

Node.js 中流操作实践

传奇龙版地图查看器

调整DC的网络对网络是否会有影响?

How to maintain Oracle10g Recyclebin?

你知道自己感染了恶意软件吗？

Groovy 快速入门

Python学习的自我理解和想法（9）

Kimi 上线视觉思考模型，K1 系列强化学习模型正式开放，无需借助外部 OCR 处理图像与文本进行思考并回答

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

Megrez-3B-Omni：无问芯穹开源最强端侧全模态模型，支持理解图像、音频和文本三种模态数据

FreeScale：无需微调即可提升模型的图像生成能力，生成 8K 分辨率的高质量图像

Freestyler：微软联合西工大和香港大学推出说唱音乐生成模型，支持控制生成的音色、风格和节奏等

《C 语言与统计假设检验：洞察人工智能模型性能差异》

《C 语言赋能：物联网环境下人工智能应用的能耗优化之道》

《C 语言助力神经网络剪枝：优化模型的卓越之道》

《C 语言复数运算：赋能人工智能信号处理新境界》

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

fs.oss.accessKeyId和fs.oss.accessKeySecret。