深度强化学习-运动规划(3)|学习笔记

简介: 快速学习深度强化学习-运动规划(3)

开发者学堂课程【深度学习与自动驾驶:深度强化学习-运动规划(3)】学习笔记与课程紧密联系,让用户快速学习知识

课程地址https://developer.aliyun.com/learning/course/533/detail/7153


深度强化学习-运动规划(3)


内容介绍

一、The Game of Traffic

二、ConvNetJS

Monaco Editor

、Web Workers

 

一、The Game of Traffic

1、Open Question(Again):

Is driving closer to chess or to every day conversation?

image.png

驾驶领域有关强化学习方面的内容看一下强化学习能涉智能驾驶领域的哪些方这就又回到了昨天们提出的那个公开的问题智能驾驶更接近于国际象棋还是人们的常交谈?国际象棋,意味着它可以通过更简单化的方式被形式化,假如你把它作为一个避障的问题来想一旦避障问题解决你只需要为它在有限空间中做出导航你选择车在车道上左转以及右转你决定车加速或是减速。假设这是一个更类似于国际象棋的游戏。

2、Deep Traffic : Solving Traffic with Deep Reinforcement Learning

Goal: Achieve the highest average speed over a long period of time.

Requirement for Students: Follow tutorial to achieve a speed of 65mph

和明天相反,今天看一下左侧的内容,看到的是Deep Traffic,这里是这个游戏的模拟。游戏的目的是在这七个驶满车辆的高速公路车道上获得你所能达到的最大的平均速度需要按照指导的要求完成任务需要做的是建立神经网络让小达到65英里/小时的速度一个排行榜你点一下按钮就能提交所有的这些都在浏览器中进行你当然想要想办法提高自己的名次

3、The Road,The Car,The Speed

image.png

关注一下这个世界,二维交通系统对于智能系统对于智能系统来说是什么样的将现实的交通抽象成左边的网络图这是状态的表现有七个车道每个车道都被分块化如果有一辆车在一块区域内,车的长度大概有3个块这三个网格这个红色的车是你要控制的

辆车在智能系统中运行图片的左边显示了红车的当前速度这个红车的车顶标有MIT,而且还有一个数字显示了你超过了多少车如果你的网络表现不好,这个数字会变成负数

4、Simulation Speed

image.png

你也可以改变仿真速度从左边的普通模式到右边的快速模式快速模式加速了仿真的进行但左边的普通模式更接近真实的驾驶

5、Display Options

image.png

可以选择不同的显示选项默认方式只显示道路上的车辆还有一个学习输入显示选项整个空间都被你可以选择红车的视野你可以选择前后能看到多远左右能看到多远因此能够通过选择学习输入来看到学习输入在仿真中是什么样的一种显示选项是安全系统这是一个自我保护系统这个游戏的一个设定是所有的车都按照类似的方式行驶如果你的车具有智能如果你的车具有自适应巡航控制系统。它依然按照与其车相似的方式行驶。当它接近前面的车它不会跑到左边或者边,离开车道因此能够限制红车的行动在这种运作方式下能够防止你(的车)撞到其否则需要模拟碰撞,模拟会因此变得一片混乱因此可以保护你不遭受碰撞你可以用一个可视化框来显示安全系统显示选项一种显示选项是将整个图可视化你可以得到整个占有图如果你想把这个作为网络的输

每个网格在输入中都对应一个数字并不是0或1来表示对应的网格是否有车对应的数字是最高限速,80英里每小时当这个块是空的时候,它被设置为80英里每小时当块被车占用,它被设置为车的当前速度红车点有的块被设置为一个很大的数比80英里每小时的最高限速高很多

6、Safety System

image.png

(1)问题什么是第三个显示选项?

你控制的就是那辆红色的车红车占有的块被设置为一个非常大的数字让学习算法知道这些块是非常特殊的

安全系统。图片中红色的部分是你不能进入的网格区域因此,当一些块变成红色的时候车不能加速进入这些块当左边或者边的块变成红色这意味着你不能改变车道进入左边或者右边图片边这张图中,你没有任何限制可以进入任何区域这就是所有块都是黄色时的含义

7、Driving / Learning

learn = function (state, lastReward) {

brain. backward( lastReward) ;

var action = brain. forward(state);

return act ion;

}

var noAction = 0 ;

var accelerateAction = 1;

var decelerateAction = 2;

var goLeftAction = 3;

var goRightAction = 4;

安全系统提示你可以采取五个行动中的任意一个五个行动分别是向左,向保持,加速或者减速这些动作将作为输入这个行动是由这里调用的 brain 产生的Brain 将 state,last reward 作为输

利用输入来产生和学习来利用反向函数训练网络反向传播,然后要求brain基于当前的状态通过前向达代前向函数给下一个动作并不需要知道这个数的运作不需要心这个但可以自定义学习步长

lanesSide=1;

patchesAhead=10;

patchesBehind=0;

网页上只有几行代码你可以点一下按钮来改变代码来改变网络的仿直和设计你不需要任何特殊的硬件你不需要任何特殊的操作在指导中会给所有的步骤你可以设计一个深度神经网络这是强化学习agent的一部分在网页中有一个 DQN agent你可以选择 landslde (变量名)变量这个变量控制了你旁边能看到的车道的数量如果这个变量是 O你只能向前看如果这个值是1你会在左两边分别看到一个车这是感知系统的感知半径PatchesAhead变量名)是指你向前能看多远Pachesbehind (变量名)是指你能向后看多远

lanesSide=2;

patchesAhead=10;

patchesBehind=0;

举例说明,landside 等于2意味着它向左看。向右看。很明显,如果向右看,是离开车道这些块中的值是0,如果将 pachesbehind 变量设为10,能向后看10个块从车头的网格开始算

8、Evaluation

(1)Scoring: Average Speed

(2)Method:

① Collect average speed

② Ten runs, about 30 (simulated) minutes of game each

③ Result: median speed of the 10 runs

(3)Done server side after you submit

(no cheating possible! (we also look at the code ..))

(4)You can try it locally to get an estimate

① Uses exactly the same evaluation procedure/code

② But: some influence of randomness

③ Our number is what counts in the end!

评估这场竞赛的得分是你预定义的一段时间的平均速度所以我们所使用的获取速度的方法是我们运行10次代理,每一次大约是30个模拟分钟然后我们取十次运行结果的中间车速。这就是我们所讲的得分。这些工作是在服务器端完成的,所以,假设我们已经获取了一些数值但由于这是在服务器端完成,用JavaScript实现之后在浏览器中运行,希望是个沙盒你可以在本地试运行来获取一些估测有一些标识评估的按钮,它可以即刻给你返回一个现在处理的网络有多好的记分

9、Evaluation (Locally)

image.png

这个按钮是:开始评估运行:你按下按钮就会显示进度条并让你获取一个平均速度

10、Coding/Changing the Net Layout

这是代码框,你可以在里边修改所有之前提及的变量一旦你准备好,你可以修改一些东西按下apply code按钮之后重新启动,将清除所有你截止到现在完成的训练或重置并再一次启动训练

11、Training

(1)Done on separate thread (Web Workers, yay!)

① Separate simulation, resets, state, etc.

② A lot faster (1000 fps +)

(2)Net state gets shipped to the main simulation from time to time

You get to see the improvements/learning live

image.png

所以需要多次保存,保存按钮在这所以训练是在网络工作端的分离的线程完成的这是一件比较令人激动的事情因为它允许JavaScript运行惊人地在多个CPU核心上并行运行模拟这个分数,训练已经完成了比真实的时间快很多,每秒1000帧,就是每秒会有1000次运动的步骤。这会全部在JavaScript里编写,然后们被运送到主要的模拟中时地随着训练进行然后他们被运送到主要的模拟中不时地随着训练进行

12、Training

trainIterations=100000;

所以你要做的全部工作就是按下run training按钮随着时间推移。它的训练和汽车呈现的情况会更好

13、Loading/Saving

Save Code/Net to File

Danger: Overwrites all of your code and the trained net

Load Code/Net from File

 image.png

在浏览器中展示看一下它是否运行良好当它启动的时候,在浏览器里就会有运行情况的展示人工智能这是在浏览器中的一个神经网络现在运行不是很顺利,现在的速度仅仅是一小时两英里并看着每一个车辆在正被展示的是按差的损失函数为了去训练它,达到一秒1000帧你只需按动run training按钮之后就可以很快地学会基于你在代码框里改动的网络并基于输入以及刚提及的所有工作

image.png

训练完成,已经学会如何可以做得更好有目的性的将不是很好的网络放置在这里所以在平均水平下,们就不会做得那么好但它将会比站在那里更好之后你就可以开始评估运行来模拟比真实情况快很多的网络环境来看它的运行情况这是一个与我们采用的相似的评估步骤当你确定你站在在有的平均速度排行的位置时在这10次运行模拟中,它的平均速度是56.56英里每小时如果你已经登录,你可以点击“提交你的代码”如果你没有登录,会反馈:“您还未登录,请在登陆后提交您的代码”

image.png

之后要做的工作就是登陆之局你再次点击提交模型submit model按键,然后成功

image.png

“感谢您的提交那么现在提交已经作为Lex名被放入了排行中速度是56.56大家都会进行尝试然后击败这个速度如果想要保存代码可以通过按保存代码save code按钮,它会保存不同的JavaScript结构,它会将网络布局保存到文件中当然也可以从文件中下载但也会有它帮你重写代码的危险

14、Submitting

Submit Model to Competition

(1)Submits your code and the trained net state

Make sure you ran training!

(2)Adds your code to the end of a queue ,

Gets evaluated some time (no promises here)

(3)You can resubmit as often as you like

① If your code wasn't evaluated yet it we still remove it from the queue (and move you to the end)

② The highest/most recent???? score counts.

你按动submit的按钮来将你的模型提交到比赛中你要确保你来训练网络,你提交了模型之后,你一定要按训练train按钮然后它就会得到进入队列的时间的评估现在是公共阶段,所以队列可能发展得很巨大之后他就会进入队列。评估之后就会进入队列。如果你进入了前十名你会被添加到展示的排行榜上你可以重新提变多次。但只有最高的分数有效

 

二、ConvNetJS

1、ConvNetJS / The Actual Deep Learning Part

image.png

用这段代码现在只使用JavaScript来完成神经网络现在只使用JavaScript来完成神经网络由原先在斯坦福读博后来在OpenAI工作的Andrej Karpathy完成ConvnetJS是一个图书馆。可以在这里完成可视化也可以在游戏中成可视化的是进入到网络的输入在这个情况下是135个输入。不仅仅可以指定能看到左前后多远的距离也可以指定你看上去还有多远所以这里可视化的是网络135个神经元的输然后它的输出类似于一种回溯刚才所看到的有10个输出的带数字的如果它在这里的值是0、1···10,这里的输出将是五个动作其中的一个五个动作分别是左转、转、留在原地、加速或减速。

2、ConvNetJS: Settings

var num_ inputs = ( lanesSide * 2 + 1) *(patchesAhead + patchesBehind ) ;

var num_ actions = 5 ;

var temporal_ window = 3 ;

var network_ size = num_ inputs * temporal_ window + num_ actions *

temporal_ window + num_ inputs ;

对于这个ConvNet.JS的设置,可以选择一些输入如果想打乱这些输入数据。但是这些数据是不需要去打乱因为已经给了车道边和补丁等变量你可以选择一些动作,时间窗口和网络规模。

3、ConvNetJS: Hidden / Fully Connected Layers

layer_ defs. Push{

type :'fc',

num_ neurons :10,

activation: ' relu'

});

Var layer_ defs =[];

layer_ defs. push({

type :"input',

out_ SX:1,

out_ sy:1,

out_ depth:network_ size});

因此。网络定义为这是输入输入的大第一亮全连接层,它具有10层的神经元relu激活函数,与之前在输出回归层谈到的平滑函数类似

4、ConvNetJS: Output Layer

layer_ defs. push({

type:' regression' ,

num neurons :num_ actions

});

5、ConvNetJS: Options

var opt = {};

opt. temporal_ window = temporal_window ;

opt, experience_ size = 3000;

opt.start_ learn_ threshold = 500;

opt.gamma = 0.7;

opt. learning_ steps_ total = 10000;

opt. learning_ steps_ burnin = 1000;

opt.epsilon_ _min = 0.0;

opt. epsilon_ test_ time = 0.0;

opt. layer_ _defs = layer_ defs;

opt. tdtrainer_options = {

learning_ rate: 0. 001, momentum: 0.0, batch_ size: 64, l2_ decay: 0.01

};

brain = new deepqlearn. Brain(num_ inputs, num_ actions, opt);

且还有一帮其乱七八糟的选项。

6、ConvNetJS: Learning

learn = function (state, lastReward) {

brain. backward ( lastReward) ;

var action = brain. forward(state) ;

draw_ net() ;

draw_ stats() ;

Return action;

}

选择层数这些层的大小可以建立和驱动自己的神经网络实际的学习是与反向传输一起进行的然后返回一个动作向前传递到网络

 

三、Monaco Editor

<script src="monaco-editor/min/vs/loader, is"></script>

<script>

require. config({

paths: {

'vs': . monaco- editor/min/vs "

}

});

require(['vs/editor/editor. main'], function () {

editor = monaco. editor, create( document. getE lementById ( 'container'), {

value: "some code···”

language: ' javascript',

wrappingColumn: 75,

});

});

</script>

一个代码编辑器。这就是 Monaco 编辑器。它会做一些自动补所以当你使用它时,一切代码编辑都将非常方便。

HTML5 Canvas

<canvas id="canvas" width="400" height="700"></ canvas>

<script>

var ctx = document . getElementById( ' canvas '). getContext ('2d');

ctx.fillStyle = 'rgba(0,120,250,0.5)';

ctx. fillRect(0, 0, 100, 100);

</script>

我们明天会谈论很多这样的可视化的模拟游戏使用 HTML5 画布游览器中完成。这是画布蓝盒子的简单的规范这是非常有效和易于使周。

 

四、Web Workers

//main.js

if (window, Worker) {

var myWorker = new Worker("worker.js");

myWorker , onmessage = function (e) {

console. log(e.data);

};

}

//worker.js

postMessage ("Hello world!");

你所做的不单单只是运行JavaScrp就像V8发动机一样的超级快可以在这个浏览器中训练神经网络。对于网络工作者,只要你有浏览器,新版浏览器。可以在分开的单独的线程中运行多进程所以可以做很多的东西,可以单独做可视化可以训练单独的线程

 

五、Human-in-the-Loop Reinforcement Learning: Driving Ready?

深度强化学习最令大兴奋的成就在于围棋是一个机器不可能获胜的游戏因为这有组合复杂的数量众多的选项它可比象棋复杂的多所以深度强化学习最了不起的成就是A1phaGo第一次在围棋比赛中将人类的世界冠军击败们获胜的方式与驾驶非常相关首先通过受监督的方式首先创建决策网络用专业玩家的对决数据来构建一个网络。因此你不和自己对抗。人工智能代理不和自己对抗,而是从专业的游戏中学习,所以有一些基准数据人的基准数据代表现实,对于驾驶来说,这是很重要开始得到很多数据,这些是由司机记录的们做到了这一点。现在作为一个提醒什么时候代理可以做自动驾驶,在通过模拟运行代理之前可以学习这些数据,接下来通过仿真可以从更多数据集中学习,他们做到了这一点。现在作为一个提醒什么时候代理可以做自动驾驶,问题是不能相信初步估计的奖励功能是安全的和对社会生产有用的当在谈论智能系统获得在现实世界的操作这仅仅是一个提醒。再一次说明,所有的引用都是在网上提供

我想你可能有一些问题,你可以来跟我讨论这些问题

问题DeepTraffic 之中的可视化是什么?

你看到汽车在移动,为什么移动?它是基于你训练网络的照而移动的,所以它是可视化的。

相关文章
|
8月前
|
自然语言处理 测试技术 计算机视觉
ICLR 2024:谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测
【4月更文挑战第22天】**TIME-LLM** 论文提出将大型语言模型重编程用于时序预测,克服数据稀疏性问题。通过文本原型重编码和Prompt-as-Prefix策略,使LLMs能处理连续时序数据。在多基准测试中超越专业模型,尤其在少量样本场景下效果突出。但面临跨领域泛化、模型调整复杂性和计算资源需求的挑战。[论文链接](https://openreview.net/pdf?id=Unb5CVPtae)
125 2
|
11天前
|
机器学习/深度学习 计算机视觉
ECCV 2024:视觉定位新SOTA!华人团队开源革新框架SegVG,边界框转为分割信号
视觉定位任务旨在通过文本-图像对检测特定目标的边界框,但其监督信号稀疏,难以达到最优性能。ECCV 2024提出的SegVG方法将边界框标注转化为分割信号,提供像素级监督,显著提升定位精度。该方法采用多层多任务编码器-解码器架构和三重对齐模块,有效缓解特征域差异问题。实验表明,SegVG在多个数据集上超越了先前的SOTA方法,特别是在RefCOCO和Visual Genome数据集上分别提升了3%和超过5%的准确率。尽管如此,SegVG也存在计算复杂度高、依赖高质量标注数据及可解释性不足等缺点。
58 23
|
24天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
94 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
2月前
|
机器学习/深度学习 计算机视觉 网络架构
为什么卷积现在不火了:CNN研究热度降温的深层原因分析
纵观近年的顶会论文和研究热点,我们不得不承认一个现实:CNN相关的研究论文正在减少,曾经的"主角"似乎正逐渐淡出研究者的视野。
112 11
为什么卷积现在不火了:CNN研究热度降温的深层原因分析
|
2月前
|
人工智能 开发者
人类自身都对不齐,怎么对齐AI?新研究全面审视偏好在AI对齐中的作用
论文《AI对齐中的超越偏好》挑战了偏好主义AI对齐方法,指出偏好无法全面代表人类价值观,存在冲突和变化,并受社会影响。文章提出基于角色的对齐方案,强调AI应与其社会角色相关的规范标准一致,而非仅关注个人偏好,旨在实现更稳定、适用性更广且更符合社会利益的AI对齐。论文链接:https://arxiv.org/pdf/2408.16984
44 2
|
2月前
|
机器学习/深度学习 测试技术 计算机视觉
NeurIPS 2024:FaceChain团队新作,开源拓扑对齐人脸表征模型TopoFR
在2024年NeurIPS会议上,FaceChain团队推出TopoFR模型,通过利用数据的拓扑结构信息,显著提升了人脸识别的准确性。TopoFR采用PTSA策略和SDE策略,分别增强了模型的泛化能力和对硬样本的处理效果。实验结果显示,TopoFR在多个基准测试中表现优异,特别是在IJB-C和IJB-B等高难度测试中,显著超越了现有方法。
97 5
|
7月前
|
机器学习/深度学习 定位技术
ICLR 2024 Spotlight:连续数值分布式表征加持,浙大UIUC让语言模型擅长表格预测
【6月更文挑战第23天】在ICLR 2024会议上,浙大和UIUC的研究团队推出TP-BERTa,一种改进的BERT模型,专为表格预测。通过将连续数值特征转为文本并利用自注意力机制,TP-BERTa能有效处理高维、异构表格数据,提高预测性能。预训练和微调策略使其在XGBoost等传统方法及FT-Transformer等深度学习模型中脱颖而出。论文链接:[anzIzGZuLi](https://openreview.net/pdf?id=anzIzGZuLi)
133 5
|
8月前
|
人工智能 计算机视觉
CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)
173 1
|
8月前
|
人工智能 搜索推荐 vr&ar
开源单图生成3D模型TripoSR的未来发展方向
【2月更文挑战第27天】开源单图生成3D模型TripoSR的未来发展方向
156 2
开源单图生成3D模型TripoSR的未来发展方向
|
存储 关系型数据库 数据库
向量加成,为AIGC加把力
大语言模型很多同学都了解,但是很多同学会问向量搜索是个什么东西?

热门文章

最新文章