Jeff Dean谈2020年机器学习趋势:多任务和多模式学习将成为突破口

简介: 谷歌AI负责人Jeff Dean 近日接受专访,讨论了2020 年机器学习领域趋势,他认为在规模更大的多任务学习和多模式学习方面,AI将取得新的里程碑。而正如谷歌在Transformer上的工作引领了NLP领域的发展,Jeff Dean认为应该将重点放在基础研究上。

微信图片_20220107172812.jpg


在加拿大温哥华举行的NeurIPS 2019会议上,机器学习成为最大的焦点。来自全世界各地的13000名研究人员探索了诸如神经科学、如何解释神经网络输出,以及AI如何帮助解决现实世界中的重大问题等。


会议上不仅有超过1400份作品展示,同时也会有各种AI的顶级专家、意见领袖等出席并进行演讲。


微信图片_20220107172814.jpg


其中Google AI负责人Jeff Dean在研讨会上进行演讲,讨论机器学习如何帮助应对气候变化带来的威胁以及机器学习如何重塑系统和半导体。


相信很多人对Google在使用ML创建机器学习半导体方面的早期工作、Google的BERT对会话式AI的影响以及2020年值得关注的机器学习趋势非常感兴趣。VentureBeat就上述问题采访了Jeff Dean,以下是具体采访内容。


Jeff Dean(以下简称Dean):这显然是一个非常广阔的领域,使用机器学习来帮助解决与气候变化相关的话题、或减轻某些影响的潜力很大。我认为Google和整个AI社区都感到非常兴奋。因为这是一个严重的问题,而且背后有很多技术问题。


VentureBeat:NeurIPS有哪些让你觉得特别兴奋的工作吗?


Dean:可能不是所有都那么令人兴奋吧,但是我们还是对很多项目都进行了内部讨论。而且我认为,在如今机器学习领域,整体而言是相当多产的,因此也很难说能够面面俱到一应俱全的掌握所有的内容,不过也可以通过搜集一批大家可能认为比较重要的观点(作为一种筛选机制)。


VentureBeat:在arXiv上有你关于机器学习硬件发展的评论,那么你认为在后摩尔定律世界中,人们需要牢记哪些事情?


Dean:我认为已经被证明非常有效的一件事情,是芯片的专门化(相对例如通用CPU而言)用以执行一些并非完全通用的、某些特定类型的计算。因此,我们已经从更严格的计算模型(例如GPU甚至TPU)中受益匪浅。这些模型更为严格,但实际上是根据机器学习计算需要做的事情而专门设计的。相对于通用CPU,这实际上带来了相当多的性能优势,例如我们通过专业化获得了巨大的架构优势。


VentureBeat:你还了解使用机器学习来创建机器学习硬件的知识。你能谈谈更多吗?


微信图片_20220107172818.jpg


Dean:是的,这是我星期六要讲的另一个话题,我会在ML for Systems研讨会上详细介绍,主要会谈论我们已经在ASIC芯片设计的机器学习中进行了哪些早期工作,特别会讲到布局和布线。就是你有一个芯片设计,然后有很多晶体管以及它们的连接方式。


基本上,现在在设计过程中,一方面拥有可以帮助进行某些布局的设计工具,另一方面还拥有人工布局和布线专家,从而可以使用这些设计工具进行多次重复的迭代。


从你想要的设计开始,到实际上将其物理布局在芯片上,并在面积,功率和导线长度方面有适当的限制,同时还要满足所有设计角色或正在执行的任何制造过程,这通常需要花费数周的时间。


事实证明,我们在某些工作中可以使用机器学习来进行更多自动化的布局和布线。而且,我们基本上可以拥有一个机器学习模型,该模型可以学习为特定芯片玩ASIC游戏。我们在尝试的一些内部芯片上都取得了不错的结果。


VentureBeat:关于气候变化问题,Intel AI总经理Naveen Rao提到每瓦计算应该成为一个标准基准测试,一些组织者希望能够提供模型训练时候的碳足迹。我猜想对大型模型(如XLNet)的批评是制造和部署它们所需的能量。


Dean:是的,我们对此感到很兴奋,因为我们在Google数据中心训练的所有内容–碳足迹为零。我认为有一个普遍的观点,即这些大型模型中的一些模型是计算密集型的,并且在能源使用方面相当昂贵。


我认为诸如多任务学习和迁移学习之类,实际上是可以改善能源使用的相当有效的算法工具,因为你可以训练一个模型,然后对其进行微调,或者针对相对较少的示例进行多任务学习,这几乎是当前的惯例。


VentureBeat:对于BERT来说,这是重要的一年。到处都是BERT,以及各种BERT。人们接下来应该看到的BERT会有哪些变化,或者即将出现?


Dean:BERT之所以有趣,是因为它建立在其他研究成果不断发展的基础上。因此,BERT的种类取决于一年前完成的Transformer工作。Transformer工作确实是在解决与基于LSTM的早期序列模型相同的问题。我认为整个研究线程在实际产生机器学习模型方面非常富有成果,现在要完成的机器学习模型比过去更复杂。


对在一堆文本(任意文本)上进行预训练的BERT的微调,然后对你关心的特定NLP任务进行微调,对于许多我们希望能够解决的NLP问题来说,是一个很好的范例。因此,在Google内部,我们正在研究产品中许多不同类型的应用程序。你知道我们只是在搜索堆栈中推出了一些内容以提高搜索质量。


我想你也在更广泛的社区中也看到了这一点。我们仍然希望能够执行更多上下文相关的模型。像现在这样,BERT和其他模型可以很好地处理数百个作为上下文的单词,但10000个单词就处理不了。


因此,这是一个有趣的方向。我认为多模态模型非常有趣,例如你可以通过有趣的方式将文本与图像,音频或视频相结合。我们已经做了一些工作,社区的其他成员也做了一些工作,但是我认为这在将来将变得越来越重要。而且我敢肯定,人们会发现BERT所采用的基本方法有所改进。我们有一些小的甚至是重大的改进。


因此,基础研究的重点将继续。无论是在Google内部还是外部,我们很兴奋。
VentureBeat:对模型鲁棒性的追求胜过登上GLUE排行榜的榜首?以及明年Google将面临哪些技术或道德挑战?


Dean:是的,或者就像“找出解决一个问题的大量完全不同的方法,并能够保证效果,对我们来说非常重要”。


就AI或机器学习而言,我们已经完成了一个相当合理的工作,并建立其一个流程。通过该流程,我们可以了解如何在与AI原理一致的不同产品应用和领域中使用机器学习。该过程已经得到了更好的调整,并通过模型卡之类的东西进行了润色。


然后,我认为在许多原则领域中,存在真正的开放研究方向,可以帮助我们解决公平和偏见以及机器学习模型或安全性或隐私问题。但是,我们需要继续在这些领域中进行长期研究,以提高技术水平,同时我们目前将最著名的最新技术应用于我们的工作中。


VentureBeat:你预计会出现哪些趋势,或者你认为在2020年AI可能会超越哪些里程碑?


Dean:我认为我们将看到比以前解决的更大的多任务学习和多模式学习。我认为那会很有趣。而且我认为,将有一种持续的趋势,那就是在更有趣的设备(或诸如手机之类的消费类设备)上,模型能够更有效地工作。


我认为与AI相关的原理相关工作显然很重要。我们是一个足够大的研究机构,实际上我们正在做许多不同的工作,因此很难一一列举。但我认为,总的来说,我们将发展最先进的技术,进行基础研究,以提高我们正在关注的许多重要领域的能力,例如NLP或语言模型或视觉或多模式事物。


但同时,还要与我们的同事和产品团队合作,进行一些准备用于产品应用的研究,以使他们能够构建有趣的功能和产品。我们将做一些Google目前还没有的新事物,但它们是ML的有趣应用,例如我们一直在进行的芯片设计工作。


例如民用机器人。我们进行了大量的机器人研究工作。我认为机器人技术是一个非常棘手的问题,要使机器人能够在任意环境中运行。


参考链接:


https://venturebeat.com/2019/12/13/google-ai-chief-jeff-dean-interview-machine-learning-trends-in-2020/

相关文章
|
5月前
|
机器学习/深度学习 数据采集 算法
深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?
本文探讨了在深度学习和机器学习中针对非时间序列的回归任务的多种改进策略,包括数据预处理、数据集增强、特征选择、模型选择、模型正则化与泛化、优化器选择、学习率调整、超参数调优以及性能评估与模型解释,旨在提升模型的性能和可解释性。
100 1
深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?
|
14天前
|
人工智能 搜索推荐 决策智能
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。
47 12
|
2月前
|
机器学习/深度学习 自然语言处理
在模型训练中,如何平衡通用性和特定任务的需求
在模型训练中平衡通用性和特定任务需求是关键挑战。策略包括预训练与微调、多任务学习、结合任务无关与相关特征、选择适当架构、领域适应、数据增强、超参数调整、注意力机制、层级化训练、模型集成、利用中间表示、持续评估、避免过拟合、考虑伦理偏见、优化资源效率及收集用户反馈。这些方法有助于训练出既通用又专业的模型。
|
6月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI操作报错合集之任务重启后出现模型拆分报错,该怎么办
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
机器学习/深度学习 算法
【机器学习】迅速了解什么是集成学习
【机器学习】迅速了解什么是集成学习
|
6月前
|
API 开发工具 对象存储
在PAI平台上,如何实现不同编程语言任务之间的数据共享?
【7月更文挑战第1天】在PAI平台上,如何实现不同编程语言任务之间的数据共享?
135 58
|
6月前
|
自然语言处理 API 开发工具
PAI如何处理不同编程语言的混合任务?
【7月更文挑战第1天】PAI如何处理不同编程语言的混合任务?
119 57
|
5月前
|
监控 测试技术
在模型训练中,如何衡量和平衡通用性和特定任务需求的重要性?
在模型训练中,如何衡量和平衡通用性和特定任务需求的重要性?
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】机器学习、深度学习、强化学习和迁移学习简介、相互对比、区别与联系。
机器学习、深度学习、强化学习和迁移学习都是人工智能领域的子领域,它们之间有一定的联系和区别。下面分别对这四个概念进行解析,并给出相互对比、区别与联系以及应用场景案例分析。
217 1
|
5月前
|
机器学习/深度学习 开发者 Python
Python 与 R 在机器学习入门中的学习曲线差异
【8月更文第6天】在机器学习领域,Python 和 R 是两种非常流行的编程语言。Python 以其简洁的语法和广泛的社区支持著称,而 R 则以其强大的统计功能和数据分析能力受到青睐。本文将探讨这两种语言在机器学习入门阶段的学习曲线差异,并通过构建一个简单的线性回归模型来比较它们的体验。
77 7