谷歌传奇Jeff Dean给创业者的一小时AI讲座 | 86页PPT+视频

本文涉及的产品
图片翻译,图片翻译 100张
文本翻译,文本翻译 100万字符
文档翻译,文档翻译 1千页
简介:

本文来自AI新媒体量子位(QbitAI)


少年,你知道Jeff Dean么?

传奇一般的Jeff Dean现在领导着Google Brain团队,也是Google研发群组的高级研究员(Senior Fellow)。近日,Jeff Dean为YC AI小组的同学讲了一堂时长近1小时的课程,讲述了目前Google目前在人工智能方面的研究和进展。

这节不容错过的AI课程,现在有两个观看方式:

第一:视频方式。

科学前往YouTube(地址:https://youtu.be/HcStlHGpjN8),或者查看我们搬运回来的视频。

第二:图文方式。

Jeff Dean这节课配有86页PPT,我们也把全部内容搬运过来,空耳听译了Jeff Dean对每一页的讲述,然后整理配发为每一页的要点。

所以,开始吧~

视频在此


PPT讲义在此

我会全面地讲一讲我们正在用深度学习处理哪些任务,正在建立怎样的系统来提升深度学习的速度。

这份PPT是很多人合作的成果,包括我领导的Google Brain团队。

Google Brain团队的任务是让机器更智能,进而让人们生活得更好。

为了达到这个目标,我们:

  • 进行长期的研究;
  • 建立并开源TensorFlow等系统;
  • 与Google和母公司Alphabet的其他部门合作,让几十亿用户能在Alphabet的产品中用上我们的工作成果;
  • 通过实习和Google Brain Residency项目培训新研究者。

Google Brain的主要研究领域有以上这些。

我今天主要会讲到红色的这些:

  • 一般机器学习算法和技巧;
  • 机器学习的计算机系统;
  • 自然语言理解;
  • 健康;
  • 机器人。

也会涉及一些感知领域的研究。

年初,我写了一篇博客,总结2016年我们团队都做了哪些工作。

http://research.googleblog.com/2017/01/the-google-brain-team-looking-back-on.html

博客中的每一条超链接都指向了这项工作的成果展示或论文。

你们可能都在做AI相关的创业公司,不过我还是要说,深度学习改变了我们解决很多问题的方式。

在80、90年代,对于很多问题来说,神经网络还不是最好的解决方案,当时训练数据的量、计算力都还不够。所以,人们或者用其他方法,或者用比较浅层的机器学习方法,需要人工进行大量的特征工程。

但是现在,我们有了更强大的计算力。

90年代,我的本科论文是关于神经网络的并行训练的,神经网络模型非常吸引我,我想,如果我们能通过并行计算获取更多计算资源,比如说用一台64个处理器的超立方体结构机器,结果我发现,60倍的计算力远远不够,我们需要数十万倍的计算力。

到今天,我们已经有这样的计算能力了。结果就是神经网络成了很多问题的最佳解决途径。

最开始,我们的团队只是想证明大量的计算资源能帮助神经网络解决一些有趣的问题,于是我们做了大规模的无监督学习,那时候甚至还没用上GPU,我们用了16000个CPU核心,做了一些有趣的事情。(量子位注:就是机器从YouTube视频中认出了猫的那一次)

后来,我们把深度学习用到了更多领域,上图左侧是包含我们第一代和第二代(TensorFlow)深度学习框架模型描述文件的程序数量,我们和Google的其他团队合作,把深度学习用到各种产品之中。

我们在工作中关注的一个重点是如何缩短实验的周转时间,提高研究效率。

实验周期需要1个月和实验周期只有几分钟,会带给研究者截然不同的体验。所以,能尽快取得实验结果对我们来说非常重要。

为此,我们要建造正确的工具。

TensorFlow就是我们为解决深度学习问题而建造的第二代系统,它从一开始就是作为一个开源系统而打造的。

量子位注:我们之前发文介绍过Google是怎样管理TensorFlow这么庞大的开源社区的:TensorFlow技术主管详解:Google是怎样管理开源软件的

TensorFlow的目标是,建立一个呈现机器学习创意和系统的通用平台,并让这个平台在研究和生产环境中都成为世界最佳,再通过开源,让它成为所有人的平台,而不只是Google的。

这是GitHub星标数的趋势图,你可以看到TensorFlow与其他机器学习框架的对比。

我想,TensorFlow在研究中足够灵活,又很容易部署到实际产品上,还能在多种环境中运行,这些特性很有吸引力。

我们经常会做一些基准测试,这些测试显示TensorFlow的可扩展性还是不错的。

其实我们很重视速度。

在TensorFlow刚发布的时候,我们推出了很多教程,但是当时我们犯了一个错误,我们发布的教程代码追求清晰、解释详细,但忽略了性能,于是很多人模仿那些代码来建立高效的TensorFlow模型。后来我们逐渐更新了那些代码,对代码的清晰程度和性能同样重视。

在很多任务上,TensorFlow支持多达64个GPU,还能随着GPU的增加保持性能的线性提升。

如果你听说TensorFlow很慢,不要信

我们还支持多种平台,包括iOS、Android、CPU、GPU、我们自己的TPU,还有Raspberry Pi等等。

我们还支持各种变成语言,目前支持得最好的是Python,C++做得也不错。

除此之外,我们还有个不错的用户基础。

在GitHub上最受欢迎的程序里,我们排第6。前5名要么是JS,要么是LISP编程书。

这是世界上为TensorFlow标星的人口分布,全世界几乎都在用机器学习。

TensorFlow在全世界有近千人的外部贡献者,为它增加功能、修复bug、改进系统。

各种机器学习课程中也在越来越多地使用TensorFlow。

接下来我要谈一谈深度学习在Google具体产品中的应用。Google Photos是个很好的例子,计算机视觉让机器能知道人们的照片中有什么,照片中发生了什么事情。

作为人工智能领域的创业者,你们需要关注各种机器学习成果,很多时候,你可以使用其中的方法,把它用到另一个数据集上,就可能有意想不到的发现。

给定一张图片,让机器预测其中的关键像素,是一个常用的模型,有很多种实现方式。

不过,我们的做法是用一个能实现这种功能的模型,迁移到各种其他任务上。

计算机视觉公司Clarifai的创始人Matt Zeiler是我之前的暑期实习生,我们和街景团队合作,识别街景照片中的文字。

训练数据就是人类手工圈出了文字区域的照片,任务是让机器预测普通街景照片中哪里有文字,选定区域之后,就可以通过OCR来识别这些文字了。

后来地图团队决定开发另一个程序,来识别你家房顶适不适合采集太阳能,装上太阳能板可以生产多少电。

这个程序的第一件事是在图中找出房顶,这和找到文字区域的模型不完全一样,但其实只是换了一种训练数据。

我们还把这个模型用到了医疗领域。

还是一样的基础模型,我们用它来解决医学图像问题。

具体来说,是用在眼科检查上。我们让算法从上图这样的视网膜图片上,分辨出是否有糖尿病视网膜病变。

在这个问题上,我们需要识别图上可能是病变的区域,然后再进行图像分类,确定这个眼部照片是否真的有问题。

我们的研究收集了15万张视网膜照片,每张照片找7名眼科专家来标注,然后训练我们的算法。

最后,我们获得了一个识别糖尿病视网膜病变的算法,和8名协会认证的眼科专家相比,算法的准确率和他们的中位数持平,有时还要高出一点。

相关论文:
http://jamanetwork.com/journals/jama/fullarticle/2588763

另外,我们可以看到,深度学习在机器人领域也非常用用。

我们在实体机器人和模拟环境中都做了很多实验,还试着让机器人通过模仿人类的动作来学习。

我们建了个“机械臂农场”,摆了很多机器人,让它们学习抓取物体。

我们每天还会把传感器获取的数据收集起来,用它们训练一个模型来优化机器人的抓取技能,这些机器人每天都会提高。

我们公开了这个数据集,其中包含80万次抓取尝试。

项目主页:
https://sites.google.com/site/brainrobotdata/home

论文:
https://arxiv.org/abs/1603.02199

数据集:
https://sites.google.com/site/brainrobotdata/home/grasping-dataset

这张图是我在做动作,试着让机器人模仿。

我们首先让模拟器里的机器人学习人类动作,然后再迁移到实体机器人。效果还不错。

还有一个激动人心的领域,是深度学习在科学研究中的应用。

科学研究通常都会用到高性能计算机上运行的模拟器,它们会产生大量数据,但问题是,模拟器的运行消耗大量资源,价格昂贵。

举个深度学习应用在这里例子,我们可以用模拟器中的数据作为训练数据,运行一小时模拟器,然后用获取的数据来训练一个神经网络,让它来预测分子的性质。

当然,模拟器给出的结果更精确,但神经网络给出结果的速度要快上几十万倍。

相关研究:

https://research.googleblog.com/2017/04/predicting-properties-of-molecules-with.html

https://arxiv.org/abs/1702.05532

https://arxiv.org/abs/1704.01212

图像处理技术也能用在细胞研究上。怎么用呢?

Google有人做了一个模型,尝试通过一张照片来预测景深。

这是一个pixel to pixel的学习问题,你可以想象,还有很多问题都是类似的。

在拍照中,景深的预测有很多用途,比如说预测一张人像照片的景深。

然后就可以做出一些神奇的效果,比如说保留人像的颜色,把背景变成黑白的,或者让背景变得模糊、给背景加上特定的风格等等。

这种模型还有更神奇的用途:

用显微镜原始图像做为输入,可以输出一张染色后的显微镜图像。

这有助于帮人们分清细胞核和它外层的物质。

给细胞染色的时候,通常会伤害细胞的活性,所以这种虚拟染色的功能非常有用,能让你在染色后继续追踪细胞的后续活动。

这种技术也能用来观察神经元的活动。

我们在语言理解领域也做了不少工作。

最开始,我们的团队提出了seq2seq模型。给神经网络输入一个序列,它会输出一个预测序列。

seq2seq能用来处理很多问题。

机器学习就是其中之一。

比如说你有一组成对的英语-法语句子,就可以用seq2seq模型,以法语为输入序列,英语为输出序列,将它们对应起来,训练一个RNN。

然后你会通过beam search来找到最合适的输出序列。

Gmail中的Smart Reply自动回复功能也是seq2seq的应用之一。

举个例子,这是我发给同事们的一封邮件,问大家要不要参加感恩节聚会。这种邮件只需要简短的回复,有了Smart Reply用户只需要选择“是”或者“否”。

我们的seq2seq模型会在用户选了是/否之后,生成一个简短的回复。

这个功能,是2009年Google开的一个愚人节玩笑:“哈哈哈哈我们要帮你自动回复邮件了!”

2015年11月5日,真正的产品发布了;到2016年2月1日,Inbox手机应用中由超过10%邮件是自动回复的。

实际上,seq2seq最具潜力的应用领域还是翻译。

我们把seq2seq用在了在线的谷歌翻译产品中。

在这篇有很多作者的论文Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation中,我们介绍了机器翻译背后的技术详情。

论文地址:
https://arxiv.org/abs/1609.08144

这是我们模型的结构,它包含很深的LSTM stack,每一层运行在不同的GPU上;还有一个注意力模块,追踪所有的状态,决定在生成输出序列的各部分时,分别该注意输入数据中的哪一部分。

每一份这个模型都运行在一台GPU机器上。我们把这个模型复制了很多份,在训练数据上进行平行训练,然后共享学到的参数。

上图显示了人类和Google的两种机器翻译模型的翻译质量。蓝色表示我们原来用的基于短语的机器翻译模型,绿色的是基于seq2seq的神经网络机器翻译模型,黄色的表示双语人类(非专业翻译)。

基于神经网络的模型远远超过了基于短语的统计模型,越来越接近人类的水平。

我们的日语-英语神经网络机翻上线后,很多日本人都发现,翻译质量好了很多,终于真的能用了。

这是一位日本教授把海明威《乞力马扎罗的雪》第一段从英语翻译成日语、再从日语翻译回来的结果。上边是基于短语的统计模型的结果,下边是神经网络模型的结果。

我们正在进行大量研究的另一个领域,是如何自动化解决机器学习的问题,我们称之为“learning to learn”。

目前解决机器学习问题的主要方式,是机器学习专家+数据+计算力。然后用不同的学习率尝试某个模型,希望通过迁移学习的方式从某个数据集得到解决方案。

我们研究的解决方案,是数据+100倍的计算力,这中间不需要人类机器学习专家。如果能做到这一点,世界上会有更多的组织和数据能受益于机器学习。

我们在这个领域做了很多研究,今天主要讨论其中的两个。一是自动设计神经网络架构的方法,二是自动学习如何优化。

架构搜索。这个想法,是想用一个模型生成另一个模型。目前的机器学习中,设计神经网络的架构仍然需要大量的专业知识并且耗费大量时间。在这个研究中,我们生成10个模型架构,分别训练数小时,然后使用生成模型的损失,作为强化学习的信号。

这一基于梯度的方法,可以找到最优的架构,不过目前只适用于小问题。

这是一个例子。这个模型看起来就不像人类设计的东西,这些连线有点疯狂。这是CIFAR-10数据集上的一个应用,架构搜索的方法已经非常接近目前最先进的技术,这中间并没有人对底层架构进行过干预。

我们还在Penn Treebank数据集上,尝试了一个语言建模任务。我们只是给了架构搜索一个LSTM cell,然后让它寻找处理顺序数据的方法。在这个案例中,架构搜索的方法比此前最先进的方法表现更好。

常见的优化方法都是类似的。经常使用的方法包括SGD(随机梯度下降)、Momentum、ADAM、RMSProp等。在这一页可以看到,自动化的方法提出了15种完全不同的表达式,而且表现基本都优于人类设计的优化方法。

我们把其中最好的一个表达式迁移应用在一个不同的问题上,结果发现这个自动设计的优化器,表现比现有最好的ADAM更出色。

很多机器学习专家想要解决一个问题,需要运行非常多的试验,有可能一个周末就需要试验12000次。人类专家不能操作太多的试验,但是机器可以。当然目前也有很多时候,结果并不尽如人意。

另一个有趣的事情是,我们之所以能解决很多问题,是因为我们有了非常多的数据,而且能够在不同的问题上应用大规模计算能力。

深度学习改变了我们设计计算机的方式。

深度学习有两个非常好的特性。一个是完美的宽容了非常低的计算精度,另一个是能够处理多种不同的运算,所以我们有机会建造一个定制化的机器学习硬件系统,能够以极大降的低精度运算线性代数。

这是我们一直在搞的定制化机器学习加速器(TPU),目标是加速推理以及训练,这个硬件的第一代版本已经在我们的数据中心部署了两年半,在五月的Google I/O大会上,我们展示了第二代TPU。

重要的不是设计一个芯片,而是整个系统。

单个芯片不可能提供足够大的计算量,因此我们把TPU芯片连接在一起。我们称其为:TPU Pod。连接在一起的TPU能够提供更大的计算力。

通常给一台超级计算机编程有点烦人。所以我们决定使用TensorFlow,基本上可以实现用一个新的接口表达一个模型,而且我们在TensorFlow 1.2中添加了估计量,相同的程序在CPU、GPU、TPU上只需要微调就能运行。

这些都会引用在TPU云服务上,届时运行TensorFlow应该超快。

我们还把上千台这样的设备,免费提供给全球的研发人员使用,只要你致力于有趣的研究,需要更多的计算力,而且承诺会公开研究成果。我们想要构建一个科学和机器学习研究的生态系统,我们也希望得到使用TPU的反馈。

这里,实力广告一波Google Cloud。

最后讲一下,我们也在尝试用机器学习的方式得到更高性能的机器学习模型。

使用强化学习来配置设备。在这个案例中,我们使用强化学习的方式,使用序列到序列模型来预测TensorFlow数据流图的子集应该运行在哪些设备上。例如,如何分配两个GPU的计算力,让模型能够尽快的完成运算。

应用这个方法,我们在神经机器翻译模型、Inception-V3模型上,都获得了近20%的速度提升。此前,计算资源的分配智能通过人类专家手工摸索设置。

所以,我们认为更多的计算力带来更多的机会和收益。

这是一些未来会实现的需求。例如通过图像来发现糖尿病引发的视网膜病变;用西班牙语描述一段视频;让机器人从厨房沏一杯茶来;帮我找到与机器人强化学习有关的文档,并用德语总结出来。

结论。你们肯定已经知道深度神经网络正在带来巨大的变革,大家应该更关注这件事。

这是我们正在研究的一些领域,访问g.co/brain可以查看更多信息。你们应该可以加入我们的团队,不过鉴于你们已经开始创业了~(呵呵哒)

PPT下载

想要下载Jeff Dean此次讲座的86页PPT全文,请在量子位微信公众号(QbitAI)对话界面,回复:“jeff”四个字母。

—— ——

本文作者:李林 若朴

原文发布时间: 2017-08-08 

相关文章
|
11天前
|
存储 人工智能 Serverless
一键解锁 AI 动画视频创作,赢好礼
短视频行业的快速增长使得内容创作的速度和质量成为竞争关键。传统动画故事制作复杂且昂贵,限制了创作者对市场热点的快速反应和创新实现。本方案通过 AI 生成剧本和动画,简化创作流程并降低技术门槛,使创作者能高效生产高质量作品,迅速适应市场需求。
|
11天前
|
人工智能 安全 机器人
重磅发布的「AI视频通话」如何10分钟就实现?
2024年,OpenAI发布GPT-4o,支持文本、音频和图像的组合输入与输出,使交互更接近自然交流。传统语音助手需经历多阶段处理,容易出现延迟或误解,体验感差。本文介绍如何在阿里云上快速创建可视频通话的AI智能体,实现拟人化交互、精准感知、情绪捕捉等功能,提供高质量、低延时的音视频通话体验。通过简单的部署流程,用户可以轻松创建并体验这一先进的人机交互技术。点击“阅读原文”参与活动赢取惊喜礼物。
|
2天前
|
人工智能 数据可视化 UED
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法,支持多实体独立运动控制、高质量视频生成,并在 FID、FVD 和用户研究等评估指标上达到最佳性能。
43 10
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
|
3天前
|
存储 人工智能 编解码
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
62 9
|
2天前
|
人工智能 算法 API
重磅:谷歌AI Gemini 2.0 Pro/Flash已来,国内用户怎么使用?
当人工智能的浪潮席卷全球,谷歌再次站在了时代的潮头。Gemini 2.0,这个名字如今已成为 AI 领域最耀眼的明星。它不仅仅是一个模型的升级,更代表着一场技术革命的开端。2024 年末,Gemini 2.0 Flash 以其疾风骤雨般的速度震撼登场,紧接着,2025 年初,Gemini 2.0 Pro 系列的发布,则将这场革命推向了高潮。谷歌正式宣告,我们已步入 Gemini 2.0 时代!
44 15
|
1天前
|
人工智能 算法 API
谷歌AI Gemini 2.0 pro国内使用教程, 2025最新版!
在 2025 年 2 月初,谷歌又推出了 Gemini 2.0 Pro 系列模型,进一步巩固了其在 AI 领域的领先地位,同时也正式向外界宣告,我们进入了 Gemini 2.0 时代
27 5
|
6天前
|
人工智能 小程序 程序员
【视频测评 DEMO 参考】VSCode 神级 AI 插件通义灵码:完全免费+实战教程+微信贪吃蛇小程序
VSCode 神级 AI 插件通义灵码:完全免费+实战教程+微信贪吃蛇小程序
153 7
|
4天前
|
人工智能 编解码 vr&ar
Lumina-Video:上海 AI Lab 开源视频生成框架,动态程度可控,支持多分辨率
Lumina-Video 是由上海 AI Lab 和香港中文大学联合推出的高效视频生成框架,支持高质量视频生成、动态程度控制和多分辨率生成。
97 4
|
10天前
|
机器学习/深度学习 存储 人工智能
预定下一个诺奖级AI?谷歌量子纠错AlphaQubit登Nature,10万次模拟实验创新里程碑
谷歌的量子纠错算法AlphaQubit近日登上《自然》杂志,被誉为量子计算纠错领域的重大突破。量子比特易受环境噪声干扰,导致计算错误,而AlphaQubit通过神经网络学习噪声模式,显著提升纠错准确性。实验结果显示,它在Sycamore处理器和Pauli+模拟器上表现优异,优于现有解码算法。尽管面临资源需求高等挑战,AlphaQubit为实用化量子计算带来新希望,并可能推动其他领域创新。论文详见:https://www.nature.com/articles/s41586-024-08148-8
33 5
|
8天前
|
人工智能 负载均衡 搜索推荐
谷歌发布双思维AI Agent:像人类一样思考,重大技术突破!
谷歌近日推出基于“快慢思维”理论的双思维AI Agent系统,模仿人类大脑的两种思维模式:快速直观的Talker(系统1)和深思熟虑的Reasoner(系统2)。Talker负责日常对话与快速响应,Reasoner则处理复杂推理任务。该系统模块化设计,灵活高效,已在睡眠教练等场景中展现应用潜力,但仍面临工作负载平衡与推理准确性等挑战。论文详情见:https://arxiv.org/abs/2410.08328v1
38 1

热门文章

最新文章