集中一点,演化无限:PPO × Family决策智能入门公开课即日开讲

简介: 集中一点,演化无限:PPO × Family决策智能入门公开课即日开讲



80,90年代出生的人,红白机总是童年时光重要的记忆片段之一。几叠游戏盒,两个手柄,就可以开启一整天的欢乐时光,乐此不疲地探索各种红白机游戏中的玩法、机制和彩蛋。虽然只是2维平面上的像素头小人,虽然只是「上上下下左右左右BABA」这般的简单按键,但依然被玩家们开发出了各种精彩纷呈的决策行为,时至今日,仍然有很多爱好者在挑战各种诸如「一命通关」、「最速通关」的游戏记



而随着时代的发展,游戏类型也变得五花八门,于是玩家们探索的方式也愈加丰富,各类玩家解说攻略视频大大加快了游戏知识的传播速度,还有一系列基于规则的辅助工具将程序和算法引入到游戏探索之中。而到最近几年,人工智能技术的发展更是大大提升了算法探索游戏的极限,从2016年 AlphaGo 在围棋领域技惊四座开始,再到后续2019年的 AlphaStar,OpenAI Five,以深度强化学习为核心的决策AI,在这些复杂度和博弈性最顶尖的游戏中,一次又一次地创造着人工智能的新高峰。
但其实,这些最前沿的决策与智能,离我们并不遥远。在很多人十几二十年前的少年时代,玩家们通过个人自身的练习和尝试,朋友间数不清的讨论与琢磨,探索着这些红白机游戏中的种种玩法,而在当下,其实我们也可以去学习和运用深度强化学习技术,从另一个视角去打造决策智能,解锁各种有趣有成就感的游戏玩法,还可以跳出游戏的圈子,尝试应用到各种各样的日常决策行为,以及各行各业的优化与设计中去。想象一下,你不仅可以训练出一个帮你探索游戏玩法的最佳辅助,又可以拥有一个响应你各种日常指令的机器管家,自主导航和操作完成各种任务。

智能体在 habitat-sim 环境中按照指令执行任务


基于相似愿景,上海人工智能实验室 OpenDILab (开源决策智能平台)将会设计一系列的决策智能公开课。而这个系列的PPO x Family课程会由中国计算机学会主办,上海人工智能实验室承办,全球高校人工智能学术联盟、北京大学人工智能研究院多智能体中心、浙江大学上海高等研究院、商汤科技协办,知乎、机器之心、智海平台、Paperweekly支持。顺利结课的学员还可获得由中国计算机学会颁发的课程学习认证证书。
2022年12月,决策智能入门级公开课PPO x Family将正式线上开课。此课程旨在运用一种最经典的深度强化学习算法 Proximal Policy Optimization (PPO),解决各种各样的决策智能问题,帮助一切对于深度强化学习技术有好奇心的人,轻便且高效地制作应用原型,了解和学习最强大最易用的 PPO x Family。在上完这门课程后,如果有进一步兴趣的话,受众可以将所学知识应用到相关领域中,利用更多的计算资源,去追逐和挑战更强大的人工智能。

,时长00:53

PPO 原本是在2017年由 OpenAI 提出的一种深度强化学习算法,而在往后几年中,又有诸多研究者从不同方面给 PPO 添加了许多算法技巧,时至今日,PPO 已成为最受欢迎的算法之一。OpenDILab 总结了各方面研究者们的相关工作,又结合了开源发布一年来,在40多种决策环境中调优和实践的经验和细节,最终凝练而成了这门 PPO x Family 决策智能入门公开课。

本次课程将分为8节线上公开课,每节课40-50分钟。


相对于强化学习领域已有的优秀公开课,这门课并没有选择自顶向下地讲述强化学习发展演变的各个算法分支,而是自底向上地,从实际应用深度强化学习的角度出发,讲述把算法理论应用到实际决策问题时常用的种种分析方法和优化技巧,通过这门课让受众盘清算法理论,理顺代码逻辑,玩转决策AI应用实践。
其中,第1节课将会通过多重对比来讲解决策AI问题定义和研究的特殊之处,第2-7节课将会分别以子领域专题的形式,扩充 PPO x Family 的相关成员,最后一节课,将会综合运用之前累积的各方面知识,去设计和搭建一个「终极」智能体。
更重要的是,每节课程都会保持「算法理论-代码实现-应用实践」三合一的讲解模式,真正做到知其然(代码)又知其所以然(算法),并学以致用(应用)。

算法理论公式和代码实现的一一对应讲解


在 PPO x Family 八节课的过程中,受众会接触到各种各样的决策智能应用,最终结课时,就相当于完成了自动驾驶、量化交易,机器人控制、游戏AI等多个领域相关决策任务的入门实践,从而真正做到集中一点,演化出无限可能。

此外,OpenDILab 也特地优化了每节课的实践任务的计算开销,整个PPO x Family 系列课程并不需要大量计算资源,一定配置的个人电脑完全可以应对各种挑战(当然课程官方也会提供一些免费的计算资源用于备用)。


相关文章
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的无限可能:从理论到实践
【10月更文挑战第9天】在这篇文章中,我们将深入探讨人工智能(AI)的世界,从基本概念到实际应用,再到未来发展趋势。我们将通过实例和代码示例,揭示AI如何改变我们的生活和工作方式。无论你是AI领域的新手,还是有经验的开发者,这篇文章都将为你提供有价值的信息和启示。让我们一起探索AI的无限可能吧!
|
4月前
|
人工智能
AI设计自己,代码造物主已来!UBC华人一作首提ADAS,数学能力暴涨25.9%
【9月更文挑战第15天】近年来,人工智能领域取得了显著进展,但智能体系统的设计仍需大量人力与专业知识。为解决这一问题,UBC研究人员提出了“自动智能体系统设计(ADAS)”新方法,通过基于代码的元智能体实现智能体系统的自动化设计与优化。实验结果表明,ADAS设计的智能体在多个领域中表现优异,尤其在阅读理解和数学任务上取得了显著提升。尽管如此,ADAS仍面临安全性、可扩展性和效率等挑战,需进一步研究解决。论文详情见链接:https://arxiv.org/pdf/2408.08435。
69 4
|
8月前
|
人工智能
史上首次,AI超越人类奥赛金牌得主!吴方法加持,30题做出27道破纪录
【4月更文挑战第16天】研究人员结合吴方法和符号方法,开发的AI系统在国际数学奥林匹克几何问题测试中,成功解决27个问题,超过人类金牌得主。这项创新将吴方法(一种代数几何证明法)与经典符号方法融合,揭示了在自动化几何定理证明上的新潜力,但也面临证明可读性和软件实现局限等问题。
100 4
史上首次,AI超越人类奥赛金牌得主!吴方法加持,30题做出27道破纪录
|
8月前
|
机器学习/深度学习 人工智能 算法
高性价比发文典范——101种机器学习算法组合革新骨肉瘤预后模型
随着高通量测序技术的飞速发展和多组学分析的广泛应用,科研人员在探索生物学奥秘时经常遇到一个令人又爱又恼的问题:如何从浩如烟海的数据中挖掘出潜在的疾病关联靶点?又如何构建一个全面而有效的诊断或预后模型?只有通过优雅的数据挖掘、精致的结果展示、深入的讨论分析,并且辅以充分的湿实验验证,我们才能锻造出一篇兼具深度与广度的“干湿结合”佳作。
547 0
高性价比发文典范——101种机器学习算法组合革新骨肉瘤预后模型
|
8月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
117 0
|
8月前
|
数据挖掘
新星计划Mix混合赛道第三周参赛情况数据分析
新星计划Mix混合赛道第三周参赛情况数据分析
|
人工智能 自然语言处理 算法
|
8月前
|
机器学习/深度学习 存储 人工智能
极智AI | 谈谈模型量化组织方式
本文主要聊一下深度学习模型量化组织方式。
338 0
|
机器学习/深度学习 人工智能 算法
横向对比 11 种算法,多伦多大学推出机器学习模型,加速长效注射剂新药研发
横向对比 11 种算法,多伦多大学推出机器学习模型,加速长效注射剂新药研发
171 0
|
机器学习/深度学习 人工智能 芯片
摩尔定律失效怎么办?神经形态计算专家:把重点变成树突学习
摩尔定律失效怎么办?神经形态计算专家:把重点变成树突学习
122 0

热门文章

最新文章