Jeff Dean长文展望:2021年之后,机器学习领域的五大潜力趋势(2)

简介: Jeff Dean长文展望:2021年之后,机器学习领域的五大潜力趋势

二是机器学习编译和机器学习工作负载优化的持续提升。即使当硬件无法改变时,编译器的改进以及机器学习加速器的其他系统软件优化也可以实现效率的显著提升。

在 150 个机器学习模型上使用基于 ML 的编译器进行自动调优,可以实现端到端模型加速。

三是人类创造力驱动的更高效模型架构的发现。模型架构的持续改进大幅度减少了在很多问题上实现一定准确率水平所需的计算量。例如,在使用计算量比 CNN 少 4 至 10 倍的情况下,Vision Transformer 能够在大量不同的图像分类任务上提升 SOTA 结果。

四是机器驱动的更高效模型架构的发现。神经架构搜索(NAS)可以自动发现新的机器学习架构,这些架构对于给定的问题域更加高效。神经架构搜索的主要优势是可以显著减少算法开发所需的努力,这是因为它对每个搜索空间和问题域组合只需要一次努力(one-time effort)。

此外,虽然执行神经架构搜索的初始努力需要很高的计算成本,但生成的模型可以极大地减少下游研究和生产设置中的计算量,从而减少整体资源需求。

神经架构搜索发现的 Primer 架构,效率是 plain Transformer 模型的 4 倍。

五是稀疏性的使用。所谓稀疏性,即模型具有非常大的容量,但只有一部分针对给定的任务、示例或 token 而被激活。稀疏性是另一个重大的算法进步,可以极大地提升效率。

2017 年,我们提出了稀疏门混合专家层(sparsely-gated mixture-of-experts layers),使用计算量比当时 SOTA 密集 LSTM 模型少 10 倍时在多个翻译基准上实现更好结果。还有最近的 Swin Transformer,将混合专家风格的架构与 Transformer 模型架构结合,结果显示训练时间和效率均实现了较密集 T5-Base Transformer 模型 7 倍的加速。稀疏性概念还可以用来降低核心 Transformer 架构中注意力机制的成本。

谷歌研究院提出的 BigBird 稀疏注意力模型由处理输入序列所有部分的全局 token、局部 token 和一系列随机 token 组成。

趋势 3:机器学习变得更个性化,对社区也更有益

随着机器学习和硅硬件(如谷歌 Pixel 6 上的谷歌张量处理器)的创新,许多新体验成为了可能,使移动设备更有能力持续有效地感知周围的背景和环境。这些进步提升了可访问性和易用性,同时也增强了计算能力,对于移动摄影、实时翻译等功能至关重要。值得注意的是,最近的技术进步还为用户提供了更加个性化的体验,同时加强了隐私保护。

可以看到,更多的人比以往任何时候都要依靠手机摄像头来记录他们的日常生活并进行艺术表达。机器学习在计算摄影中的巧妙应用不断提升了手机摄像头的功能,使其更易于使用、性能更强并生成更高质量的图像。

例如,改进的 HDR+、在极低光下拍照的能力、更好地人像处理能力、以及适用于所有肤色的更具包容性的相机,所有这些进步都使用户可以拍摄出更好的照片。使用 Google Photos 中现在提供的基于 ML 的强大工具,如电影照片(Cinematic Photo)等,进一步提高了照片拍摄效果。

HDR + 从一组全分辨率的原始图像开始,每张都有相同的曝光度(图左);合并后的图像减少了噪声,增加了动态范围,从而得到更高质量的最终图像(图右)。

除了使用手机进行创意表达外,许多人还依靠手机来与他人实时沟通,使用消息应用中的 Live Translate 和 Live Caption 进行电话通话。

得益于自监督学习和嘈杂学生训练等技术,语音识别的准确性继续提升,在重音、嘈杂条件或重叠语音的环境以及多语言任务中都有显著改善。基于文本到语音合成的进步,人们可以在越来越多的平台上使用谷歌 Read Aloud 服务收听网页和文章,从而使信息更容易跨越形态和语言的障碍。

最近一项研究表明,注视识别能力是精神疲劳的一个重要生物标记。(https://www.nature.com/articles/s41746-021-00415-6

鉴于这些新功能背后的数据具有潜在的敏感性,因此必须将它们默认设计为私有的。它们中的许多都在安卓私有计算核心内(Private Compute Core)运行,这是一个与操作系统其余部分隔离的开源安全环境。安卓确保私有计算核心中处理的数据不会在用户未采取操作的情况下共享给任何应用。

安卓还阻止私有计算核心内的任何功能直接访问网络。相反,功能通过一小组开源 API 与私有计算服务(Private Compute Services)进行通信,后者消除识别信息并利用联邦学习、联邦分析和私有信息检索等隐私技术,在确保隐私的同时实现学习。

联邦重构是一种全新的局部联邦学习技术,它将模型划分为全局和局部参数。

趋势 4:机器学习对科学、健康和可持续发展的影响越来越大

近年来,从物理学到生物学,机器学习在基础科学中的影响越来越大,并在相关领域(例如可再生能源和医学)实现了许多优秀的实际应用。例如,计算机视觉模型正在被用来解决个人和全球范围内的问题,它们可以协助医生展开日常工作,扩展人们对神经生理学的理解,还可以提供更精准的天气预报,可以简化救灾工作。通过发现减少排放和提高替代能源输出的方法,其他类型的机器学习模型被证明在应对气候变化方面至关重要。随着 机器学习变得更加稳健、成熟且可广泛使用,这样的模型甚至可以用作艺术家的创作工具。

计算机视觉的大规模应用以获得新的洞察力

过去十年计算机视觉的进步使计算机能够用于不同科学领域的各种任务。在神经科学中,自动重建技术可以从脑组织薄片的高分辨率电子显微镜图像中恢复脑组织的神经结缔结构。

前几年,谷歌合作为果蝇、小鼠和鸣禽的大脑创建了此类资源;去年,谷歌与哈佛大学的 Lichtman 实验室合作,分析了重建的最大脑组织样本,以及任何物种中的这种细致程度成像,并生成了跨越皮层所有层的多种细胞类型的人类皮层突触连接的第一次大规模研究。这项工作的目标是生成一种新的资源,帮助神经科学家研究人类大脑的惊人复杂性。例如,下图显示了成人大脑中约 860 亿个神经元中的 6 个神经元。

来自谷歌人类皮层重建的单个人类枝形吊灯神经元,以及与该细胞连接的一些锥体神经元。

计算机视觉技术还提供了强大的工具来应对更大甚至全球范围内的挑战。一种基于深度学习的天气预报方法使用卫星和雷达图像作为输入,并结合其他大气数据,在长达 12 小时的预测时间内产生比传统的基于物理的模型更准确的天气和降水预测。与传统方法相比,它们还可以更快地生成更新的预测,这在极端天气出现时非常重要。


这些案例的一个共同主题是,机器学习模型能够基于对可用视觉数据的分析,高效、准确地执行专门的任务,支持下游任务。

自动化设计空间探索

另一种在许多领域产生出色结果的方法是允许机器学习算法以自动化方式探索和评估问题的设计空间,以寻找可能的解决方案。在一个应用程序中,基于 Transformer 的变分自动编码器学习能够创建美观且有用的文档布局,并且可以扩展相同的方法来探索可能的空间布局。

另一种机器学习驱动的方法能够自动探索计算机游戏规则调整的设计空间,提高游戏的可玩性和其他属性,使人类游戏设计师能够更快地创建更好的游戏。

VTN 模型的可视化。它能够提取布局元素(段落、表格、图像等)之间的有意义的联系,以生成逼真的合成文档(例如,具有更好的对齐和边距)。

还有其他机器学习算法已被用于评估机器学习加速器芯片本身的计算机架构决策的设计空间。机器学习可用于为 ASIC 设计快速创建芯片布局,这些布局优于人类专家生成的布局,并且可以在几小时而不是几周内生成。这降低了芯片的固定工程成本,并减少了为不同应用快速创建专用硬件的阻碍。谷歌在即将推出的 TPU-v5 芯片的设计中成功地使用了这种方法。

这种探索性的机器学习方法也已应用于材料发现。在谷歌研究院和加州理工学院的合作中,几个机器学习模型与改进后的喷墨打印机和定制显微镜相结合,能够快速搜索数十万种可能的材料。

这些自动化设计空间探索方法可以帮助加速许多科学领域,特别是当生成实验和评估结果的整个实验循环都能以自动化或大部分自动化的方式完成时。这种方法也许会在未来几年在更多领域中发挥良好的效果。

健康应用

除了推进基础科学,机器学习还可以更广泛地推动医学和人类健康的进步。利用计算机科学在健康方面的进步并不是什么新鲜事,但是机器学习打开了新的大门,带来了新的机会,也带来了新的挑战。

以基因组学领域为例。自基因组学问世以来,计算一直很重要,但机器学习增加了新功能并破坏了旧范式。当谷歌的研究人员开始在这一领域工作时,许多专家认为使用深度学习帮助从测序仪输出推断遗传变异的想法是牵强附会的。而在今天,这种机器学习方法被认为是最先进的。

未来机器学习将扮演更重要的角色,基因组学公司正在开发更准确、更快的新测序仪器,但也带来了新的推理挑战。谷歌发布了开源软件 DeepConsensus,并与 UCSC 、PEPPER-DeepVariant 合作,支持这些前沿信息学的新仪器,希望更快速的测序能够带来对患者产生影响的适用性。

除了处理测序仪数据之外,还有其他机会使用机器学习来加速将基因组信息用于个性化健康的过程。广泛表型和测序个体的大型生物库可以彻底改变人类理解和管理疾病遗传易感性的方式。谷歌基于机器学习的表型分析方法提高了将大型成像和文本数据集转换为可用于遗传关联研究的表型的可扩展性,DeepNull 方法更好地利用大型表型数据进行遗传发现。这两种方法均已开源。

生成解剖和疾病特征的大规模量化以与生物库中的基因组数据相结合的过程。

正如机器学习帮助我们看到基因组数据的隐藏特征一样,它也可以帮助我们发现新信息并从其他健康数据类型中收集新见解。疾病诊断通常是关于识别模式、量化相关性或识别更大类别的新实例,这些都是机器学习擅长的任务。

谷歌研究人员已经使用机器学习解决了广泛的此类问题,但机器学习在医学成像中的应用更进一步:谷歌 2016 年介绍深度学习在糖尿病性视网膜病变筛查中应用的论文,被美国医学会杂志 (JAMA) 的编辑选为十年来最具影响力的 10 篇论文之一。

另一个雄心勃勃的医疗保健计划 Care Studio 使用最先进的 ML 和先进的 NLP 技术来分析结构化数据和医疗记录,在正确的时间向临床医生提供最相关的信息——最终帮助他们提供更积极、更准确的护理。

尽管机器学习可能对扩大临床环境的可及性和提高准确性很重要,但一个同样重要的新趋势正在出现:机器学习应用于帮助人们提高日常健康和福祉。人们日常设备逐渐拥有强大的传感器,帮助健康指标和信息民主化,人们可以就自己的健康做出更明智的决定。我们已经看到了智能手机摄像头已经能评估心率和呼吸频率以帮助用户,甚至无需额外硬件,以及支持非接触式睡眠感应的 Nest Hub 设备让用户更好地了解他们的夜间健康状况。

我们已经看到,一方面,我们在自己的 ASR 系统中可以显著提高无序语音的语音识别质量,另一方面,使用 ML 帮助重建有语言障碍的人的声音,使他们能够用自己的声音进行交流。支持机器学习的智能手机,将帮助人们更好地研究新出现的皮肤状况或帮助视力有限的人慢跑。这些机会提供了一个光明的未来,不容忽视。

用于非接触式睡眠感应的自定义 ML 模型有效地处理连续的 3D 雷达张量流(总结一系列距离、频率和时间的活动),以自动计算用户存在和清醒(清醒或睡着)的可能性的概率。


气候危机的机器学习应用

另一个最重要的领域是气候变化,这对人类来说是一个极其紧迫的威胁。我们需要共同努力,扭转有害排放的曲线,确保一个安全和繁荣的未来。关于不同选择对气候影响的信息,可以帮助我们以多种不同方式应对这一挑战。

借助环保路线,Google 地图将显示最快的路线和最省油的路线,用户可以选择最适合的路线。

Google 地图中的野火层可在紧急情况下为人们提供重要的最新信息。

趋势 5:对机器学习更深入和更广泛的理解

随着 ML 在技术产品和社会中更广泛地使用,我们必须继续开发新技术以确保公平公正地应用它,造福于所有人,而不只是其中一部分。

一个重点领域是基于在线产品中用户活动的推荐系统。由于这些推荐系统通常由多个不同的组件组成,因此了解它们的公平性通常需要深入了解各个组件以及各个组件组合在一起时的行为方式。

与推荐系统一样,上下文在机器翻译中很重要。由于大多数机器翻译系统都是孤立地翻译单个句子,没有额外的上下文,它们通常会加强与性别、年龄或其他领域相关的偏见。为了解决其中一些问题,谷歌在减少翻译系统中的性别偏见方面进行了长期的研究。

部署机器学习模型的另一个常见问题是分布偏移:如果用于训练模型的数据的统计分布与作为输入的模型的数据的统计分布不同,则模型的行为有时可能是不可预测的。

数据收集和数据集管理也是一个重要的领域,因为用于训练机器学习模型的数据可能是下游应用程序中偏见和公平问题的潜在来源。分析机器学习中的此类数据级联有助于识别机器学习项目生命周期中可能对结果产生重大影响的许多地方。这项关于数据级联的研究在针对机器学习开发人员和设计人员的修订版 PAIR Guidebook 中为数据收集和评估提供了证据支持的指南。

不同颜色的箭头表示各种类型的数据级联,每个级联通常起源于上游,在机器学习开发过程中复合,并在下游表现出来。

创建更具包容性和更少偏见的公共数据集是帮助改善每个人的机器学习领域的重要方法。

2016 年,谷歌发布了 Open Images 数据集,该数据集包含约 900 万张图像,标注了涵盖数千个对象类别的图像标签和 600 个类别的边界框注释。去年,谷歌在 Open Images Extended 集合中引入了更具包容性的人物注释 (MIAP) 数据集。该集合包含更完整的针对人类层次结构的边界框注释,并且每个注释都标有与公平相关的属性,包括感知的性别表示和感知的年龄范围。

此外,随着机器学习模型变得更有能力并在许多领域产生影响,保护机器学习中使用的私人信息仍然是研究的重点。沿着这些思路,我们最近的一些工作解决了大型模型中的隐私问题,既能从大型模型中提取训练数据,又指出如何在大型模型中包含隐私。除了联邦学习和分析方面的工作之外,谷歌还一直在使用其他有原则和实用的机器学习技术来强化工具箱。

相关文章
|
12月前
|
人工智能 自然语言处理 搜索推荐
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind(2)
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind
102 0
|
12月前
|
Web App开发 人工智能 前端开发
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind(1)
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
Jeff Dean长文展望:2021年之后,机器学习领域的五大潜力趋势(1)
Jeff Dean长文展望:2021年之后,机器学习领域的五大潜力趋势
|
12月前
|
机器学习/深度学习 存储 敏捷开发
斯坦福教授曼宁AAAS特刊发文:大模型已成突破,展望通用人工智能
斯坦福教授曼宁AAAS特刊发文:大模型已成突破,展望通用人工智能
126 0
|
Web App开发 人工智能 自然语言处理
李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜(2)
李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜
|
机器学习/深度学习 人工智能 自然语言处理
李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜(3)
李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜
|
机器学习/深度学习 人工智能 自然语言处理
李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜(1)
李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜
|
机器学习/深度学习 人工智能 安全
不满复工政策,苹果机器学习总监辞职,疯狂的 AI 天才 29 岁提出 GAN 模型
美国当地时间 5 月 7 日,有消息称苹果机器学习总监 Ian Goodfellow 宣布辞职,离开了加入三年的苹果公司,而后 Goodfellow 在一封发给员工的电子邮件中确认这一消息。虽然并不清楚 Goodfellow 的主要离职原因,但他在邮件中提到了自己对复工计划的一些不满看法。
134 0
|
机器学习/深度学习 人工智能 算法
腾讯AI足球队夺冠Kaggle竞赛,绝悟AI强化学习框架通用性凸显
【新智元导读】今日,腾讯宣布其人工智能球队摘得首届谷歌足球Kaggle竞赛冠军。该冠军球队来自腾讯AI Lab研发的绝悟WeKick版本,凭借1785.8的总分在与全球顶级技术团队的竞技中以显著优势胜出。
262 0
腾讯AI足球队夺冠Kaggle竞赛,绝悟AI强化学习框架通用性凸显
|
机器学习/深度学习 人工智能 自然语言处理
Jeff Dean谈2020年机器学习趋势:多任务和多模式学习将成为突破口
谷歌AI负责人Jeff Dean 近日接受专访,讨论了2020 年机器学习领域趋势,他认为在规模更大的多任务学习和多模式学习方面,AI将取得新的里程碑。而正如谷歌在Transformer上的工作引领了NLP领域的发展,Jeff Dean认为应该将重点放在基础研究上。
139 0
Jeff Dean谈2020年机器学习趋势:多任务和多模式学习将成为突破口