两日公开课:伯克利深度强化学习训练营 | 视频+PPT

简介:
本文来自AI新媒体量子位(QbitAI)

又有新公开课放出~

加州大学伯克利分校的Pieter Abbeel教授,最近联合他的两位博士生Yan (Rocky) Duan、Xi (Peter) Chen,以及现任特斯拉人工智能和Autopilot视觉总监Andrej Karpathy,共同发起了一个两日的深度强化学习训练营。

除此以外,还有来自DeepMind和OpenAI的客座讲师。

22f4a9395625158fe4eceb5d5e9a6ff2cdd203b6

强化学习被认为是下一代人工智能系统的驱动力,在模式识别之外带来了更多的进步。例如强化学习让AI学会了玩Atari游戏,帮助AlphaGo在围棋世界称霸。所有这些都依赖于深度神经网络和强化学习之间的协同。

在这个为期两天的训练营里,将通过讲座和动手实验相结合的课程,教授深度强化学习的基础。

这个训练营的主题包括

  • 强化学习基础
  • 策略梯度
  • Actor-Critic算法
  • Q-learning
  • 进化策略
  • 强化学习故障排除和调试策略
  • 当前的研究

组织者希望学过这些课程之后,能帮助你了解相关的基础知识,能从头开始应用最先进的方法,能在rllab上构建高级应用程序,能够将深度强化学习应用在更多的新领域。

4bfb954c1f5742b780a308e1d11c01c0d1cef59f

课程表

  • Core Lecture 1 Intro to MDPs and Exact Solution Methods — Pieter Abbeel
  • Core Lecture 2 Sample-based Approximations and Fitted Learning — Rocky Duan
  • Core Lecture 3 DQN + Variants — Vlad Mnih
  • Core Lecture 4a Policy Gradients and Actor Critic — Pieter Abbeel
  • Core Lecture 4b Pong from Pixels — Andrej Karpathy
  • Core Lecture 5 Natural Policy Gradients, TRPO, and PPO — John Schulman
  • Core Lecture 6 Nuts and Bolts of Deep RL Experimentation  — John Schulman
  • Core Lecture 7 SVG, DDPG, and Stochastic Computation Graphs — John Schulman
  • Core Lecture 8 Derivative-free Methods — Peter Chen
  • Core Lecture 9 Model-based RL — Chelsea Finn
  • Core Lecture 10a Utilities — Pieter Abbeel
  • Core Lecture 10b Inverse RL — Chelsea Finn
  • Frontiers Lecture I: Recent Advances, Frontiers and Future of Deep RL — Vlad Mnih
  • Frontiers Lecture II: Recent Advances, Frontiers and Future of Deep RL — Sergey Levine
  • TAs Research Overviews

ec3ced8111d801a326783bd7a3d7718598c9514e

以上所有的课程视频和PPT,现在已经全部放出。有兴趣的同学,请前往以下网址学习:

https://sites.google.com/view/deep-rl-bootcamp/lectures

温馨提示:应该需要更科学的上网方式才能访问。

另外,这次的公开课得到了好几家赞助商的支持。其中,钻石赞助商是亚马逊,另外京东是白银赞助商。

本文作者:千平
原文发布时间:2017-10-11 
相关文章
|
3月前
|
Windows
geek卸载软件怎么安装?详细安装步骤
geek.exe是一款轻量级Windows清理优化工具,专用于卸载软件、清除残留文件及注册表垃圾。下载后需核对文件名与大小,安装时建议更改路径至非系统盘,注意取消捆绑软件勾选,完成后可快速启动使用,操作简单高效。(238字)
1181 3
|
30天前
|
人工智能 弹性计算 自然语言处理
【手把手教程】阿里云OpenClaw一键部署指南,两步解锁龙虾AI助理!
2026年爆火的开源AI智能体OpenClaw(“龙虾AI”),以红色龙虾为标,主打“能动手做事”:支持文件管理、浏览器自动化、代码编写等本地执行能力,真正实现“聊天即行动”。本文提供阿里云一键部署保姆级教程——零代码、两步完成,轻松拥有专属AI助理!
760 3
|
3月前
|
人工智能 开发框架 IDE
AI 时代的量化革命:10分钟开发你的第一个交易策略
本文手把手教你用AI工具10分钟开发首个量化交易策略:从克隆SDK、启动AI IDE,到生成KDJ_RSI组合策略、配置运行环境并实盘验证。零基础也能快速上手,开启AI驱动的量化投资新范式!
760 17
|
自然语言处理 JavaScript 前端开发
《深度剖析:开发鸿蒙原生应用,为何ArkTS是最优之选》
ArkTS 是鸿蒙原生应用开发的核心语言,基于 TypeScript 深度扩展,具备强大的静态检查和类型系统,有效提升代码稳定性。其声明式语法简洁高效,助力快速构建复杂用户界面;多维度状态管理机制灵活掌控应用状态,支持全局与跨设备数据同步。此外,ArkTS 与 ArkUI 深度集成,优化分布式场景下的多设备协同开发体验,并通过完善工具链降低开发门槛。随着持续演进,ArkTS 将进一步推动鸿蒙生态繁荣,为开发者带来更高效的解决方案。
487 0
|
5月前
|
人工智能 数据可视化 调度
被Nature旗下刊物收录!我用AgentScope造了个“AI社科实验室”
科学家用AI模拟学术世界!通义实验室联合人大打造虚拟学术宇宙CiteAgent,基于自研多智能体框架AgentScope,实现数万AI科学家协同仿真,复现引文网络三大经典现象。研究获顶刊《Nature》子刊录用,开创社会科学“实验室”,推动“AI for Social Science”新范式。(回复CiteAgent获取论文)
432 0
|
8月前
|
供应链 安全 数据挖掘
1688电商API接口:赋能电商全链路运营的数字化工具
在数字经济时代,1688电商API接口为企业提供商品管理、订单处理、支付集成、物流跟踪等全场景解决方案,助力企业实现数据互通、流程自动化,提升运营效率与业务增长。
1688电商API接口:赋能电商全链路运营的数字化工具
|
机器学习/深度学习 人工智能 算法
Edicho:多图像一致性编辑,支持即插即用无需训练,快速实现风格转换
Edicho 是蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法,基于扩散模型,支持即插即用,无需额外训练,适用于多种图像编辑任务。
348 8
Edicho:多图像一致性编辑,支持即插即用无需训练,快速实现风格转换
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Neck】| 2023 显式视觉中心EVC 优化特征提取金字塔,对密集预测任务非常有效
YOLOv11改进策略【Neck】| 2023 显式视觉中心EVC 优化特征提取金字塔,对密集预测任务非常有效
397 8
|
机器学习/深度学习 人工智能 编解码
【AI系统】MobileNet 系列
本文详细介绍 MobileNet 系列模型,重点探讨其轻量化设计原则。从 MobileNetV1 开始,通过深度可分离卷积和宽度乘数减少参数量,实现低延迟、低功耗。后续版本 V2、V3、V4 逐步引入线性瓶颈、逆残差、Squeeze-and-Excitation 模块、新型激活函数 h-swish、NAS 搜索等技术,持续优化性能。特别是 MobileNetV4,通过通用倒瓶颈(UIB)和 Mobile MQA 技术,大幅提升模型效率,达到硬件无关的 Pareto 最优。文章结合最新深度学习技术,全面解析各版本的改进与设计思路。
4643 8
|
安全 算法 网络安全
HTTP和HTTPS的区别
本文介绍HTTP与HTTPS的区别、HTTPS链接建立过程及常见加密算法。HTTP为明文传输,易被窃听;HTTPS通过SSL/TLS协议加密,确保数据安全。HTTPS使用端口443,提供认证机制。文中还详细讲解了对称加密(如AES、DES)和非对称加密(如RSA、ECC)算法的特点及应用场景。