深度学习与无人车导论(3)|学习笔记

简介: 快速学习深度学习与无人车导论(3)

开发者学堂课程【深度学习与自动驾驶:深度学习与无人车导论(3)】学习笔记与课程紧密联系,让用户快速学习知识

课程地址https://developer.aliyun.com/learning/course/533/detail/7150


深度学习与无人车导论(3)

 

内容介绍

一、Applications

、Walking is Hard. How Hard is Driving?

、Google Self-Driving Car: Driver Disengagements

Robustness:>99.6% Confidence in the Wrong Answer

Robustness:Fooled by a Little Distortion

、Mark I Perceptron

、Proceed with Caution:What's Next for Deep Learning?

、Attention to (AI) Drivers: Proceed with Caution

工作平台

In the Browser

 

一、Applications

1、Applications: Image Caption Generation

image.png

(1)可以完成这项最近非常受欢迎的图像捕获生成。图像捕获生成对于图像的大数据非常重要。希望能够决定在图像内部所发生的具体研究,如果想要寻找一个人和狗一起坐在长沙发上的人,将它输入谷歌然后谷歌会找到它

(2)这里在黑色文本处显示了系统所生成的与狗一起坐在沙发上的人。通过人类视角来看,一个人坐在长椅上,一只狗躺在它的膝盖上,同样,这些标记通过探测障碍物,场景不同的物体来产生,将右侧的场景分割开来,可以检测到有一位女人,一群人、一只猫,一个相机举起的手臂紫色所有这些词汇都会被探索到然后组成一个句法结构正确的句子。会有大量的句子,之后来排哪个句子是最有可能的,通过这种方式,可以生成精准的图像的标签和说明文字

2、Applications: Image Question Answering

image.png

(1)COCOQA 33827

What is the color of the cat?

Ground truth: black

IMG+BOW: black (0.55)

2-VIS+LSTM: black (0.73)

BOW: gray (0.40)

COCOQA 33827a

What is the color of the couch?

Ground truth: red

IMG+BOW: red (0.65)

2-VIS+LSTM: black (0.44)

BOW: red (0.39)

(2)DAQUAR 1522

How many chairs are there?

Ground truth: two

IMG+ BOW: four (0.24)

2-VIS+BLSTM: one (0.29)

LSTM: four (0.19)

DAQUAR 1520

How many shelves are there?

Ground truth: three

IMG+BOW: three (0.25 )

2-VIS+BL STM: two (0.48)

LSTM: two (0.21)

(3)COCOQA 14855

Where are the ripe bananas sitting?

Ground truth: basket

IMG+BOW: basket (0.97)

2-VIS+BLSTM: basket (0.58)

BOW: bowl (0.48)

COCOQA 14855a

What are in the basket?

Ground truth: bananas

IMG+BOW: bananas (0.98)

2-VIS+BL STM: bananas (0.68)

BOW: bananas (0.14)

(4)DAQUAR 585

What is the object on the chair?

Ground truth: pillow

IMG+BOW: clothes (0.37)

2-VIS+BL STM: pillow (0.65)

L STM: clothes (0.40)

DAQUAR 585a

Where is the pillow found?

Ground truth: chair

IMG+BOW: bed (0.13)

2-VIS+BL STM: chair (0.17)

L STM: cabinet (0.79)

通过同样的方式,还可以制作图像的问答,可以问图中物品数量的问题,椅子的数量有多少?都不剩。可以问有关问位置的问题,成熟的香蕉在哪里?可以问这里物品的种类,椅子上这是什么?这是个枕头。

3、Applications: Video Description Generation

image.png

(1)Correct descriptions.

S2VT: A man is doing stunts on his bike.

S2VT: A herd of zebras are walking in a field.

(2)Relevant but incorrect descriptions.

S2VT: A small bus is running into a building.

S2VT: A man is cutting a piece of a pair of a paper.

同样这些都利用了递归神经网络。可以通过同样的手段制作视频的说明文字,视频的简短描述。将图像的序列视为单一图像的对立面,这种情况下会发什么呢?这个问题很难回答在这片区域内有许多事情发生对于左边图像的正确描述是“A man is doing stunts on his bike.(一个人正在做他的自行车特效或者A herd a zebra are walking in a field and on the right一群斑马正走在草原上),而在右边there‘s a small bus is running into a building(有一辆小公交车驶入了一幢建筑物),这是在讨论相关的实物但做的是不正确的描述A man is cutting a piece of a pair of a paper 一个人正在切纸这些词语是正确的或许是但已经比较接近了

4、Applications: Modeling Attention Steering

image.png

Jimmy Ba, Volodymyr Mnih, and Koray Kavukcuoglu. "Multiple object recognition with visual attention." (2014).

(1)可以通过循环神经网络去做的意见有趣的事情就是可以想一想人类看图像的方式对于所观察的场景会有一些小小的恐惧,因此现在周边是扭曲失真的。仅有的是,是否正在看幻灯片,正在看着我这是所关注的唯一一点,大多数其它的事物对于我们来说是模糊的,因此可以使用相同类型的概念教授神经网络操纵图像周围,包括图像的感知和生成。

(2)人工智能告知自己那些是比较迷人,选择操纵自己的注意力是头等重要的。对于其它一些技术也很重要,比如无人机。它们需要在每秒300多帧的环境下高速飞行,必须做出合理的决定。因此基本不能聚焦于一点或者成功感知周围的世界。

5、Applications: Drawing with Selective Attention

image.png

如果需要解释整个场景,因此可以引导,例如,现在通过读取一个门牌号,通过围绕图像,可以在读取和写入时做相同的事,在左侧的数据读取数字,同时在左侧的网络中生成数字的图像。从模糊图像开始,随后逐渐提高精度。

6、Applications: Adding Audio to Silent Film

在围绕的过程中,MT的一项工作是通过图像预测声音,一个鼓槌敲击东西的无声视频能够预测其敲击特定事物的声音,因此可以从敲击中知道事物的质地。

image.png

(1)Moravec's Paradox: The Easy" Problems are Hard

这里是一个人类运动员踢足球。和一个最先进的机器人踢足球,给它点时间来改进,足球,人类认为很简单,但对于机器来说,走路都是极为困难的。对象操作是非常困难的,让机器人踢足球比下象棋难很多。

(2)Soccer is harder than Chess

手机上有能够击败世界上最好人类棋手的围棋引擎必须搞清楚这个问题。

(3)Moravec's Paradox: The Easy" Problems are Hard

image.png

问题是:驾驶属于哪一类它更接近象棋还是足球

对于那些参加DARPRA挑战的天才工程师这是一个来自DARPRA挑战的图片机器人挣扎着执行基本的对象操作和步行这是一个全自动导航任务让机器人保持平衡在欠驱动输入比控制的量少下做规划我们控制不了所有事。如果在所认为的世界和现实之间有偏差,机器人正试图转动一个并不存在的物体,这是一个MIT的成功参赛者,它让机器人进入这个区域,很多团队讨论最难的部分,机器人需要做其中一些事是走进一辆车,开车,从车里走出来,还有一些其它操纵任务,例如在一个不平稳的地面上行走,它需要在墙上打一个洞,很多团队说这些任务中最难的部分是从车里走出来,所以最难的部分不是走进一辆车,是机器人从一辆车走出来,这对人类来说很简单。

(4)Question: Why?

Answer: Data

Visual perception: 540 millions years of data

Bipedal movement: 230+ million years of data

Abstract thought: 100 thousand years of data

因此在评估驾驶中的困难时,需要记住一些认为很简单的事,就像我们认为走路很简单,其实对机器人来说很困难,来自 CMU HansMaravec 的一段话

"Encoded in the large, highly evolved sensory and motor portions of the human brain is a billion years of experience about the nature of the world and how to survive in t....

Abstract thought, though, is a new trick, perhaps less than 100 thousand years old. We have not yet mastered it. It is not all that intrinsically difficult; it just seems so when we do it."

- Hans Moravec, Mind Children (1988)

编码在人类高度进化的负责感知与运动的大脑部分是人类几百万年来在自然中生存的经历,这是数据,而且是海量的数据,几百万年的经历和抽象的思考,我们所认为的智慧可能只是少于万年的旧数据,还没有掌握它。

但就在最近,我们已经知道如何思考,因此对那些习以为常的东西投入更多关注,比如步行、视觉感知等等。但这些严格来讲只是数据的问题,数据,训练时间和网络的规模。

 

二、Walking is Hard. How Hard is Driving?

1、Human performance: 1 fatality per 100,000,000 miles

2、Error rate for Al to improve on: 0.000001%

3、Challenges:

(1)Snow

(2)Heavy rain

(3)Big open parking lots

(4)Parking garages

(5)Any pedestrian behaving irresponsibly or just unpredictably

(6)Reflections, dynamics blinding ones

(7)Merging into a high-speed stream of oncoming traffic

因此走路是很困难的。问题是驾驶有多难,这是一个重要的问题,因为容许误差非常小,每亿英里有一次死亡,这是每年人死于车祸的数量,每一英里有一次死亡,这是0.000001%的容许误差,这是在路上的全部时间里得到的误差。令人印象深刻的是利用ImageNet能够对美洲豹、猫或者狗进行分类。甚至能够比人类分类的更好,但这是驾驶中的容许误差,而且需要应对雪天,大雨,大型露天停车场。应对车库,行人偶尔的不负责任行为,或者是一些光反射,尤其是在波士顿,这是一些想不到的,能够使摄像机致盲的光线变化。

4、问题如果数据发生了变化,如果看一下车祸的数量以及每次车祸的死亡率?

现在的汽车能够在车祸时有效避免对人的伤害,因此车祸的数量比死亡要大很多,这很好创造了更安全的汽车,但是即使只有一次死亡也依然太多。

 

三、Google Self-Driving Car: Driver Disengagements

这是一个谷歌自驾团队,自动驾驶团队,它们开放了在实际公路上测试自动驾驶的表现,这份报告显示了司机解除自动驾驶状态的次数,也就是车放弃了控制,并要求司机来驾驶,或者是司机强制控制汽车,这意味着它们对车做出的决定十分不满,或者这种决定会让这辆车其它行人或者其它车置于危险之中。

Month

Number Disengages

Autonomous miles

on public roads

2014/09

2

4207.2

2014/10

19

23971.1

2014/11

21

15836.6

2014/12

43

9413.1

2015/01

53

18192.1

2015/02

14

18745.1

201 5/03

30

22204.2

201 5/04

13

31927.3

201 5/05

11

38016.8

201 5/06

29

42046.6

2015/07

7

34805.1

2015/08

16

38219.8 ,

2015/10

16

36326.6

2015/11

16

47143.5

Total

341

424331

从报告中可以看到总共有从2014-2015,在美丽的旧金山街道上总共有341次解除因为旧金山的天气条件很好总共有341次司机需要取回控制权因此这是一项需要不断改进的工作

 

四、Robustness:>99.6% Confidence in the Wrong Answer

image.png

在神经网络中是一个开放的问题,鲁棒性问题这里的内容来自一篇很好的论文,围绕这个主题还有一些论文,深度神经网络容易被欺骗。这里有8张图片作为神经网络的输入,这是一个卷积神经网络网络高于99.6%的自信判断,左上角的图片里是一只知更鸟。在它旁边的是猎豹,然后是犰狳熊猫、电吉棒球、海星、企鹅,所有这些东西显然都不在图像中,所以 CNN 可能会被噪点干扰,更重要的是实际上对于现实世界而言,仅仅添加一点点失真,图像有一点点的噪声失真就能让 CNN 产生一个完全错误的预测。

 

五、Robustness:Fooled by a Little Distortion

image.png

correct +distort ostrich correct +distort ostrich

举例证明,这里有三例。分别是正确的图像分类,略微失真。由此产生的左边所有三个图像的ostrich预测,以及右边所有三个图像的ostrich预测。这种能够轻易干扰CNN的能力引力了一个重要的观点,这一点在神经网络的历史中存在着很多的令人振奋之处,这样的兴奋点同样存在于人工智能之中,并不是耦合这些兴奋点,不承认这些兴奋点。实际上在A.I.之冬中,随着资源枯竭,真正的挑战导致了崩溃,在人工智能的可能性方面,人们变得没有希望。


六、Mark I Perceptron

1、Frank Rosenblatt

400 pixel image input

Weights encoded in potentiometers

Weight updated by electric motors

1958纽约时报的文章说美国海军的研究预示了如今的电子计算机,这是第一个感知器,是 Frank Rosenblatt 硬件实现的,它利用400像素的图像输入,并且提供了一个单一的输出,权重在硬件电位器中进行编码。波形用电动马达进行更新纽约时报写道美国海军今天透露了胚胎电子计算机望它能够行走、谈话、看,复制和感知到自己的存在。法罗康奈尔航空实验室的研究心理学家博士Frank Rosenblatt 说到,感知器可能作为机械空间探索者被射向行星离非线性函数,它们仅仅能够进行线性探测,这可能看起来很荒谬但确实是当时的一致看法

2、Al Winters

Two major episodes:

(1)1974-80

(2)1987-93

Smaller episodes:

(1)1966: the failure of machine translation

(2)1970: the abandonment of connectionism

(3)1971-75: DARPA's frustration with the Speech

Understanding Research program

(4)1973: the large decrease in Al research in the UK

in response to the Lighthill report.

(5)1973- 74: DARPA's cutbacks to academic Al

research in general

(6)1987: the collapse of the Lisp machine market

(7)1988: the cancellation of new spending on Al by

the Strategic Computing Initiative

(8)1993: expert systems slowly reaching the bottom

(9)1990s: the quiet disappearance of the fifth-

generation computer project's original goals.

感知器甚至不能分离非线性函数他们仅仅能够进行线性分类所以这导致了两个重要的A.I.之冬分别是在七十年代八十年代末到九十年代初英国政府1973年的lighthill报告说,迄今为止发现的领域中没有任何部分产生了所承诺的重大影响所以如果舆论炒作的建立超过了我们的研究能力,报告中所提到的AI之冬将会来临,很可能会创造另一个A之冬

 

七、Proceed with Caution:What's Next for Deep Learning?

(5 year vision)

1、llya Sutskever, Research Director of OpenAl:

Deeper models, models that need fewer examples for training.

2、Christian Szegedy, Senior Research Scientist at Google:

Become so efficient that they will be able to run on cheap mobile devices.

3、Pieter Abbeel, Associate Professor in Computer Science at UC Berkeley:

Significant advances in deep unsupervised learning and deep reinforcement learning.

4、lan Goodfellow, Senior Research Scientist at Google:

Neural networks that can summarize what happens in a video clip, and will be able to generate short videos. Neural networks that model the behavior of genes, drugs, and proteins and then used to design new medicines.

5、Koray Kavukcuoglu & Alex Graves, Research Scientists at Google DeepMind:

An increase in multimodal learning, and a stronger focus on learning that persists beyond individual datasets.

6、Charlie Tang, Machine Learning group, University of Toronto:

Deep learning algorithms ported to commercial products, much like how the face detector was incorporated into consumer cameras in the past 10 years.

研究界关注的焦点是深度学习中的一些关键问题。例如深度学习的下一步是什么? 年的愿景是什么?希望在更小更便宜的移动设备上可以实现深度学习。希望在更小更便宜的移动设备上可以实现深度学习正如所提到的,想在无监督学习和强化学习的领域,探索更多的东西,想做更多事情来进一步探索视频空间,例如经常性神经网络,就像能够总结视频或生成短视频一样,在所进行的大数据业务中重大的一项就是多模态学习,也就是从具有多个数据集学习最后从这些技术中赚钱。这里存在很多这样的兴奋点,大部分人无法从深度学习的发现一些更有趣的部分。

7、Gartner Hype Cycle

image.png

这张图片在很多商业类型的讲座中都有展示。但是很真实的是我们正处于炒作周期的高峰期,必须确保这里被给予了大量的炒作和激励,必须谨慎行事


八、Attention to (AI) Drivers: Proceed with Caution

image.png

1、其中一个例子就是已经谈到了欺骗摄像机,利用一些噪点来欺骗摄像机,所以仔细想一想,自动驾驶车辆会配备一套传感器。它们依靠这些传感器来传达准确捕捉这些信息,而且不论当环境本身会产生嘈杂的视觉信息,万一如果有人真的刻意试图干扰混淆这些数据会怎么样?

2、最近的一个有趣的事情是干扰激光雷达,这些激光雷达将会基于一个感知范围给外部环境中的物体构建三维点云,而且当的车辆周围没有任何车辆时,可以成功的做一个重放攻击,可以看到其他车辆上的人以同样的方式,可以欺骗一个摄像头去看到不在那里的东西。一个神经网络。

 

九、工作平台

1、TensorFlow

(1)Interface: Python, (C++)

(2)Automatic Differentiation

(3)Multi GPU, Cluster Support

(4)Currently most popular

如果继续深入学习,那么就有可能利用它们来工作和学习。TensorFlow这是目前最流行的一个,它受到谷歌的大力支持和开发,并且在多个GPU上运行非常好

2、Keras

(1)On top of Tensorflow (and Theano)

(2)Interface: Python

(3)Goal: provide a simplified interface

(4)Also: TF Learn,TF Slim

还有Keras和Learning和TF SIim。它们是在TensorFIow之上运行的库这使得它可以更加快速和简便地运行

3、Torch

(1)Used by researchers doing lower level (closer to the details)

(2)neural net work

(3)Interface: Lua

(4)Fragmented across different plugins

如果有兴趣较低的水平进入,调整神经网络的不同参数,创建自己的构架,torch就非常合适,因为它有自己的lua界面,lua是一种编程语言,并得到facebook的大力支持。

4、theano

(1)Interface: Python (tight NumPy integration)

(2)One of the earlier frameworks with GPU support

(3)Encourages low-level tinkering

早期就有很多人开始学习theano作为首批支持的平台之一,得到了GPU的支持。它鼓励低级修补,有一个python界面。

5、cuDNN

nVIDIA

(1)The library that most frameworks use for doing the actual

computation

(2)Implements primitive neural network functions in CUDA on the GPU

而其中很多(如果不是全部的话依靠nvidia的库,用于在nvidia GPU进行一些训练这些神经网络的低级计算。

6、mxnet

(1)Multi GPU Support (scales well)

(2)Interface: Python, R, Julia, Scala, Go, Javascript ....

亚马逊大力支持mxnet, 并且他们最近正式宣布将aws全部在mxnet上行。

7、neon

(1)Interface: Python

(2)Often best on benchmarks

(3)Nervana was working on a neural network chip

(4)Bought by Intel

最近被英特尔收购的neon最初是神经网络芯片的制造商,它的性能表现非常出色。

8、Caffe

(1)Interface: C++, Python

(2)One of the earliest GPU supported

(3)Initial focus on computer vision (and CNNs)

在伯克利开始的caffe在tensorlow问世之前在谷歌也很受欢迎它主要是为convnet的计算机视觉设计的,但现在已经扩展到所有领域。

9、Microsoft Cognitive Toolkit (CNTK)

(1)Interface: Custom Language (BrainScript), Python, C++, C#

(2)Multi GPU Support (scales very well)

(3)Mostly used at MS Research

cntk曾经是很出名的,现在成为微软认知工具包,这个很少见,cntk称自己有多GPU支持,有自己的大脑脚本自定义语言,就像其它的开发平台一样。

 

十、In the Browser

1、Keras.js

(1)GPU Support

(2)Full sized networks

(3)Can use trained Keras models

2、onvNetJS

(1)Built by a Andrej Karpathy

(2)Good for explaining neural network concepts

① Fun to play around with

② Very few requirements

(3)Full CNN, RNN, Deep Q Learning

将会展示的是在浏览器中进行深入的学习。最喜欢的十convnetjs你们使用的十有现在的 openai 的 andrej karpathy 开发的对于解释神经网络的基本概念的,利用这个平台很有趣,所以需要的是一个浏览器和一些非常少的要求不幸的是它无法高效利用 GPU,但是对于正在做的很多事情你不需要GPU,如果没有 GPU,你也能以很少的和相对高效的方式训练一个网络它完全支持 CNN, RNN甚至深度强化学习Keras.js似乎不可思议将在这里尝试用于这个 Keras.js它具有 GPU 支持功能所以它在 GPU 支持和 open gl 的浏览器中运行并有出色的表现能够在不使用 GPU 的情况下完成所需要的很多事情将会在tutorial 中展示开始建立自己的神经网络来分类图像只需要几分钟的时间,而且这些库很多都是以这种方式进行的。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 并行计算
【深度学习+面经】Transformer 网络学习笔记
Transformer模型的核心概念、优缺点以及在多个领域的应用,并提供了针对Transformer架构的面试问题及答案。
194 2
|
机器学习/深度学习 算法 PyTorch
深度学习框架Pytorch学习笔记
深度学习框架Pytorch学习笔记
|
机器学习/深度学习 前端开发
前端学习笔记202304学习笔记第八天-web前端学习-深度学习分析2
前端学习笔记202304学习笔记第八天-web前端学习-深度学习分析2
175 0
|
机器学习/深度学习 前端开发
前端学习笔记202304学习笔记第八天-深度学习分析1
前端学习笔记202304学习笔记第八天-深度学习分析1
76 0
|
机器学习/深度学习 人工智能 自然语言处理
Pytorch学习笔记-00深度学习初见
Pytorch学习笔记-00深度学习初见
85 0
Pytorch学习笔记-00深度学习初见
|
机器学习/深度学习 人工智能 算法
CV学习笔记-深度学习
CV学习笔记-深度学习
CV学习笔记-深度学习
|
机器学习/深度学习 存储
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.4)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.4)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.4)
|
机器学习/深度学习 算法 网络架构
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.3)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.3)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.3)
|
机器学习/深度学习 算法
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.2)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.2)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.2)
|
机器学习/深度学习 算法 BI
《TensorFlow深度学习应用实践》学习笔记1
《TensorFlow深度学习应用实践》学习笔记1
116 0
下一篇
DataWorks