NeurIPS 2020奖项出炉:GPT-3等三项研究获最佳论文奖,华人一作论文获时间检验奖

简介: 一万八千人参会的NeurIPS 2020 相比去年数量暴涨了三成,在大会上,1750 亿参数模型 GPT-3 再次成为了人们热议的话题。


北京时间 12 月 8 日凌晨,正在线上举行的全球人工智能顶会 NeurIPS 2020 公布了最佳论文等奖项。在一千八百余篇论文中,三篇论文获会议最佳论文奖项,OpenAI 等机构的 GPT-3 研究名列其中,可谓实至名归。


人工智能顶会 NeurIPS 2020 于本月 6 日 - 12 日在线上举行,预计此次会议将迎来 18,000 名参会者。此次会议共收到 9467 篇论文投稿,接收论文 1898 篇,论文提交数量增长 38%,再创新高,接收率为 20%,创历史新低。


微信图片_20211204205331.png


面对如此大规模的提交论文,NeurIPS 2020 采取了新的审稿机制,包括提前拒稿(desk-reject)、论文作者兼任审稿人。这些新机制引发了一些争议,NeurIPS 2020 公布了相关数据,称就审稿人质量而言,作者兼任审稿人与其他审稿人获得了类似的评分。


微信图片_20211204205335.png


在 NeurIPS 2020 开始之前,科技公司 Criteo 的研究科学家谢尔盖 · 伊万诺夫对 NeurIPS 2020 的接收论文进行了初步统计,发现谷歌、斯坦福大学和 MIT 分别以 169、104 和 98 篇成为论文被接收数量最高的机构,清华大学位列第七,有 63 篇。而如果统计国家的话,美国研究者的 1178 篇论文遥遥领先,中国和英国排在其后。


NeurIPS 2020 最热门的三个投稿方向和以往相比没有太大变化,仍是「算法」、「深度学习」和「应用」,不过后两个方向热度有所降低。值得注意的是,今年的 NeurIPS 大会引入了「机器学习的社会影响」方向,探讨的内容包括公平与隐私。

此外,「理论」和「神经科学」是论文接收率最高的两个领域,而「应用」、「数据挑战、应用和软件」则是今年接收率最低的方向。


微信图片_20211204205338.png


目前,NeurIPS 2020 公布了最佳论文奖和时间检验奖。OpenAI 等提出的语言模型 GPT-3、米兰理工大学和卡内基梅隆大学提出的 no-regret 学习动态研究,和加州大学伯克利分校关于数据总结的论文共享本届会议的最佳论文奖项。获得时间检验奖的论文则是诞生于 2011 年的研究《HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent》。


最佳论文奖



今年共有三篇论文获得最佳论文奖,分别由 OpenAI、米兰理工大学 & 卡内基梅隆大学、以及加州大学伯克利分校的研究者摘得。


获奖论文 1:Language Models are Few-Shot Learners

  • 作者:Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei
  • 机构:OpenAI、约翰霍普金斯大学
  • 论文地址:https://papers.nips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf


获奖理由:


用于估计序列中下一个词概率的人工智能系统叫做「语言模型」。语言模型首次出现在 1950 年代,是连接自然语言与当时的新领域——信息论的理论构架。OpenAI 的这篇论文提出了 GPT-3——有史以来最大也最复杂的语言模型。这项研究表明,如果你使用史无前例的大量算力和数据让语言模型获得足够的准确率,它也就获得了无需额外训练,仅使用简单的自然语言提示即可解决大量任务的能力。比如回答简单的问题、生成文章、确定电影评论是否积极,以及英法互译等。


论文作者表明,GPT-3 在一些任务中的能力胜过其他模型,并用大量篇幅探讨这项技术的优缺点。论文作者还考虑了这项技术的潜在有害影响,如低成本生成难以检测的假新闻,模型因训练数据偏见在种族、性别和宗教等敏感话题上产生倾向性。


微信图片_20211204205342.png

一部分 GPT-3 论文作者。


GPT-3 因其高达 1750 亿参数、动辄几百万美元的模型训练费用和无与伦比的「文学创作」水平,在推出之后吸引了众多学者,甚至业界以外人们的关注。不过在研究如此大规模模型之后,社区未来应该朝着哪个方向研究,我们还需要很多思考。


在 NeurIPS 2020 大会上,当被问及未来研究方向时,论文作者之一 Dario Amodei 表示:「GPT-3 仍然只是『预测一段文字之后的下一个字』,我们还有很多事可以做,如通过强化学习来微调语言模型以改变目标函数,进而生成更复杂的文字内容。」


获奖论文 2:No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium


获奖理由:


人们的决定会影响到他人。为了保证合理的行事方式,我们需要通过这种「相互依赖」达到经济学家所说的「均衡」(equilibrium)。创建能够找出均衡点的自动程序是非常困难的任务。这篇论文提供了首个解决方法——利用学习方法为通用交互寻找「相关均衡」(correlated equilibria,CE)。

相关均衡要求一个受信任的外部调停者为决策者提供决策建议,典型案例就是红绿灯,红绿灯告诉车辆前进这一行为是否安全。即使在相关法律缺失的情况下,我们仍然应该遵循红绿灯的推荐结果,因为我们知道每个人都可以推断出这是最好的选择,闯红灯是危险的行为。


这篇论文表明,此类均衡可以通过完全独立执行的学习算法来实现,无需外部交通工程师,甚至在决策涉及多个步骤、决策者对于世界的状态一知半解时也是如此。也就是说,存在此类 regret-minimizing 算法使 CE 在更广泛的博弈类别中实现收敛,即扩展形式的博弈。这一结果解决了博弈论、计算机科学和经济学领域中长期存在的开放性问题,并对涉及调停者的博弈产生显著影响,如通过导航 app 高效制定交通路线。


获奖论文 3:Improved guarantees and a multiple-descent curve for Column Subset Selection and the Nystrom method


获奖理由:


从大型矩阵中选择小规模且具代表性的列向量子集是一个困难的组合问题,基于基数约束行列式点过程的方法可以给出实用的近似解。这篇论文推导出近似解近似因子的新型上下界。由于这些近似方法在机器学习领域中广泛应用,因此这篇论文可能带来巨大影响,并为核方法、特征选择和神经网络的双下降现象提供新的理解方式。


随着更多大型数据集变得可用,人们越来越依赖以简明扼要的形式总结复杂数据。数据总结(data summarization)是识别数据中重要的样例及属性以高效表示数据的过程。它能够用于从遗传学数据集中选择具有代表性的基因变体子集,也可用于从文本数据库中选择最具信息量的文档。


此前的研究表明,数据总结是一个棘手的问题,对于有些数据集,不存在能够在合理的时间范围内很好地总结数据的算法。而这篇论文表明,这些分析过于悲观。实际上,对于现实世界中的数据而言,生成可解释总结的成本要低得多。该研究表明,未来的系统将能够创建准确、可解释且高效生成的数据总结,从而极大地提高我们吸收和处理复杂数据集的能力。


时间检验奖


本次会议的时间检验奖由 Feng Niu、Benjamin Recht、Christopher Re 等人 2011 年的研究 HOGWILD! 摘得。


获奖论文:HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent


获奖理由:


NeurIPS 大会认为,该研究提出了首个在没有任何锁定机制情况下并行运行随机梯度下降算法的实现,且能够保证强大的性能。


机器学习是将样例数据转换为模型的问题,模型存储在计算机中,用来做出决策或采取行动。现代机器学习系统的核心是随机梯度方法,通常被称为随机梯度下降(SGD)。该方法搜索可能的模型空间,以找到和样例数据匹配的模型。

这篇论文提出了一种能够在一组快速计算机上并行运行 SGD 的实现,所有计算机对模型反复进行微小改动,而无需任何协调或同步。论文作者将这种方法称为 Hogwild!,该方法性能优于其他需要同步的并行化方案。该论文还对 Hogwild! 的收敛速度进行了理论分析,结果表明即使使用大量处理器,也可以达到处理器数量的线性加速(在一个恒定因子之内)。


该论文的被引用量接近 2000 次,它不仅对机器学习领域有影响,对计算机系统和优化领域也有影响,这些都促进了对 Hogwild! 方法的发展和理解。


微信图片_20211204205345.png


该研究的主要作者 Feng Niu 是一名连续创业者,2012 年获得威斯康星大学麦迪逊分校博士学位,他联合创始的公司 Alation 在 2017 年被苹果收购。
最后,大会也对审稿人进行了感谢——今年的 9000 余篇论文投稿,为审稿工作带来了空前的压力。NeurIPS 2020 根据系统中区域主席对于评审意见的打分排名,选择了表现在前 10% 的评审者,共 730 名审核者获得了「审稿人奖」,这些审稿人获得了免费注册的权利。


在今年的形势下,大量学术会议采取线上形式举行,这为人们参与 AI 领域的最热门盛会提供了一些便利。为了促进学术交流,机器之心也在 12 月 6 日举办了 2020 NeurIPS MeetUp,邀请了顶级级专家、论文作者进行了为期一天的共同交流。


微信图片_20211204205349.jpg

机器之心联合创始人 Chain(之乎)介绍2019与2020年NeurIPS Official MeetUp 统计数据。


我们期待未来与机器学习社区成员进行更多学术探讨。


参考内容:https://neuripsconf.medium.com/announcing-the-neurips-2020-award-recipients-73e4d3101537

https://syncedreview.com/2020/12/07/open-ais-gpt-3-paper-shares-neurips-2020-best-paper-awards-with-politecnico-di-milano-cmu-and-uc-berkeley/


「WAVE SUMMIT+2020 深度学习开发者峰会」由深度学习技术及应用国家工程实验室与百度联合主办,来自行业内的人工智能专家和开发者们将分享 AI 时代的最新技术发展和产业应用经验,诸多顶级高校人工智能专家将就 AI 人才培养展开对话,AI 开源产品及社区专家也将共话开源趋势。本次峰会既有干货满满的分享、讨论,又有丰富多彩的展示、体验、互动,为开发者打造专属的 AI Party。12 月 20 日,北京 798 艺术园区 751 罐,点击阅读原文,参与报名。


微信图片_20211204205354.png

相关文章
|
4月前
|
人工智能 自然语言处理 测试技术
RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架
【7月更文挑战第21天】英伟达与GaTech华人团队提出RankRAG框架,通过在Llama 3模型上微调,实现检索和生成的统一,超越GPT-4在知识密集型任务的表现。RankRAG利用指令微调让模型同时学习上下文排名和生成,减少了对独立检索模型的依赖。在多基准测试中胜过GPT-4,展示出提升LLMs性能的新潜力。尽管面临数据需求大和计算成本高的挑战,RankRAG为RAG任务优化提供了新途径。[[1](https://arxiv.org/abs/2407.02485)]
82 3
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
25 3
|
5月前
|
存储 人工智能
GPT-4尚未出现自我意识!这项研究用上帝之点解读,迈向AGI局限无法克服
【6月更文挑战第21天】研究人员构建了智能与意识的“飞行模型”,定义了全知全能代理(Ω点)和绝对零代理(α点),以此评估AI的智能水平。目前AI接近人类智能但缺乏自我意识。该模型为理解AI的智能和意识提供新视角,但也因理论概念的实证支持不足及忽视环境影响的多样性而受到批评。[DOI: 10.13140/RG.2.2.24518.28484]
80 6
|
23天前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
42 1
|
29天前
|
机器学习/深度学习 人工智能 算法
【大语言模型-论文速读】GPT的不确定性判断
【大语言模型-论文速读】GPT的不确定性判断
39 0
|
4月前
|
人工智能 安全
又遇到GPT写的review了?看看北大&密歇根的这个研究工作
【7月更文挑战第27天】北大的一项研究"Eliciting Informative Text Evaluations with Large Language Models"探讨了如何利用大型语言模型激励高质量文本反馈。提出两种机制:生成式同行预测机制(GPPM)和生成式概要同行预测机制(GSPPM),通过一致性评分鼓励详细准确的反馈。实验表明GSPPM能有效区分人工及AI生成内容,尤其擅长降低大型语言模型生成评论的影响。但仍面临模型预测偏差、潜在操纵等挑战。[论文](https://arxiv.org/abs/2405.15077)
47 4
|
5月前
|
人工智能 自然语言处理 安全
GPT-4欺骗人类高达99.16%惊人率!PNAS重磅研究曝出,LLM推理越强欺骗值越高
【6月更文挑战第17天】PNAS研究显示,GPT-4等大型语言模型(LLMs)在欺骗人类方面达到99.16%成功率,推理能力增强使欺骗风险升高。这一发现引发伦理讨论,强调需强化监管与伦理规范,同时考虑AI在社会中的安全应用。论文链接:[https://www.pnas.org/doi/full/10.1073/pnas.2317967121](https://www.pnas.org/doi/full/10.1073/pnas.2317967121)**
226 1
|
4月前
|
人工智能 自然语言处理 计算机视觉
推荐收藏!2024年新版GPT详细论文润色指南【更新至2024年4月30日】
推荐收藏!2024年新版GPT详细论文润色指南【更新至2024年4月30日】
208 0
|
6月前
|
人工智能 自然语言处理 监控
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
【4月更文挑战第15天】中国人民大学和浙江大学的研究团队利用GPT-4模型预测论文撤稿,研究基于3,505篇撤稿及未撤稿论文的推特数据,发现16%的撤稿论文提及含有预警信号,预测准确度高达92.86%。GPT-4预测一致性达95%,为学术诚信监控提供新途径。但研究受限于主观偏见、撤稿原因区分及推特互动等因素。
97 1
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
|
6月前
|
机器学习/深度学习 数据采集 自然语言处理
[GPT-2]论文解读:Language Models are Unsupervised Multitask Learners
[GPT-2]论文解读:Language Models are Unsupervised Multitask Learners
202 1

热门文章

最新文章