ICLR 17最具争议的最佳论文,实至名归还是盛名过誉?

简介:

ICLR 2017 的论文评审结果于今天新鲜出炉,雷锋网 AI 科技评论了解到,经过近三个月的评选,本次 ICLR 的 507 篇论文中共诞生 15 篇口头展示论文,181 篇海报展示论文,而三篇最佳论文也于今天正式公布。

其中,三篇优秀论文中争议最大的莫过于这篇名为《Understanding Deep Learning Requires Rethinking Generalization》(《理解深度学习,需要重新思考泛化问题》)的论文。作者为 Chiyuan Zhang(MIT博士生,师从Tomaso Poggio)、Samy Bengio(谷歌大脑团队,深度学习三巨头 Yoshua Bengio的亲兄弟)、Modiz Hardt(谷歌大脑团队)、Benjamin Racht(加州伯克利大学),Oriol Vinyals(谷歌DeepMind)。从标题到阵容,不得不承认是非常豪华的。不过,观点在 OpenReview 上呈现两极分化,以纽约大学博士生张翔为代表的研究者认为此文被高估,而评审的最终结果却认为它具有重要的学术意义。

首先我们先和雷锋网 AI 科技评论回顾一下论文的内容。成功的神经网络在训练与测试性能之间存在非常小的差异,但传统观点认为这是泛化误差的结果。这篇论文就以「重新思考泛化问题」为主题,通过系统试验,展示传统方法无法解释大规模神经网络在实践中的泛化表现好的原因。而在实验中,研究者证明了用随机梯度训练、用于图像分类的 CNN 很容易拟合随机标签数据,而且本质上并不受显式正则化的影响。

最终的评审结果是这样评价的:

  • 评论:

    作者在论文中阐述了深度神经网络拟合随机标签数据的能力,并给出了非常不错的实验结果。这个调查不仅全面,也具有启发意义。作者提出了 a) 一个理论实例,说明一个具有足够规模参数的简单浅层网络能够产生完美的有限样本表达性;b) 系统广泛的实验评估得以支持研究结果。这个实验评价是一个具有彻底性的模型。

    毋庸置疑,这是一项具有颠覆性的工作,将会启发未来数年的许多研究。

  • 决定:

    采纳(口头展示)

MIT 博士生周博磊也认为这篇论文加深了研究者们「对神经网络的理解,也给人们开了个新的视角来看问题」。在知乎的相关回答里,他对论文做出了肯定,经本人授权后节选引用如下:

「……深度学习越来越演变成了门实验科学,本身跟炼丹差不多(笑),有人云亦云,也有意外和反直觉,里面很多东西很难用理论解释清楚。比如说之前那篇蛮有名的 CVPR'15 oral 论文 Deep Neural Networks are Easily Fooled,也是偏实验说理,得到了个反直觉的结论,对我们理解 CNN 的运作原理有很大帮助。我自己是蛮喜欢基于 empirical (经验主义)的实验结果说理的工作。ICLR'17 还有篇类似的论文 Adversial Examples in the Physical World,可惜没被接收,但是论文本身也激起了挺多有意思的讨论

这篇文章也是类似的路子,蛮值得一读,而且读起来轻松愉快。论文利用损坏的标签和打乱的像素等对比实验,测试了几种不同的正则化技术, 诸如 data augmentation, weight decay, dropout, bnorm 等,然而发现对深度模型的过拟合问题效果都不好。随后作者进一步讨论神经网络的表达能力问题,然后给了个简化的线性模型,证明正则化同样不能改进线性模型的泛化能力。……这些工作无疑加深了我们对神经网络的理解,给人们开了个新的视角来看问题。」

不过,师从 Yann LeCun 的纽约大学博士生张翔则在 OpenReview 上公开对这篇论文提出了不同意见,认为此文获得 oral 的殊荣对于理论学界并不公平。他也在评论中强调,他的观点与实验室及导师无关,纯粹是阐述他个人的意见。雷锋网 AI 科技评论第一时间联系了张翔,并与他进行了简短的交流。

从张翔的角度来看,他认为这篇论文归根结底可以总结为:在跟输入无关的随机标签下,模型的泛化能力很差。「我的反对意见是,论文实验中采用的与输入无关的随机标签训练神经网络模型,是极端显而易见且没有意义的,这个结果并没有教给研究人员任何新的知识。」

根据论文的介绍,张翔认为这样数据下训练的模型在遇到没有见过的测试输入时也会输出无意义的标签,因此它在随机标签问题下过拟合得很厉害。而论文中还使用哈德玛克复杂度(Rademacher complexity,下称哈氏复杂度)来说明传统机器学习理论会达到复杂度的最大值,得出了需要「重新思考泛化」的结论。

而张翔在 OpenReview 上表达的反对意见,则指出论文中仅靠一种哈氏复杂度的构造方式,就一定要找到这种构造方式下的对立问题,用他的玩笑话来说就是「拿着锤子,看什么都是钉子」。

「在理论方面,随机标签的数据和正常标签的数据完全就是两个不同的问题,这篇文章用前者说明问题,而学术界对后者才有最大的兴趣。同时,这篇论文中对于传统机器学习理论的使用(基于哈氏复杂度)仅仅是其中一种构造方式,如果我们将哈氏复杂度用于优化目标而不是分类错误率上,由于这两个函数的上下界存在性上的不同,我们并不能够得到论文中『复杂度可以达到最大值』的结果。此外,对于随机标签问题和正常标签问题,理论学界的研究已经有所进展,论文中说『需要重新思考泛化』是非常不合适的,对理论界的诸多前辈的研究工作非常不公平。」

这篇论文能够引起学界的思考自然意义深远,但会议评审与领域主席的观点最终会对论文的入选与否产生决定性影响。而对于为何这篇引起巨大争议的文章能够拿下最佳论文,张翔表示原因也很简单,因为评审与领域主席的评价高。因此,张翔也希望会议评审和领域主席能够更仔细慎重一些,「对于一些某个学界共同体(比如ICLR的实践学者)不太了解的内容要找到合适的评审方式和评审人。」

在此之前,雷锋网(公众号:雷锋网)也报道过另一篇在 ICLR 17 引起争议的论文《LipNet: End-to-End Sentence-level Lipreading》,这篇由 DeepMind、牛津大学及加拿大高等研究院 (CIFAR) 联合发布的论文最终被拒绝,在公开评审环节中,作者与评审争论得不可开交,但最终还是被评审们拒绝。

「学术会议的论文评审是一个学界内部的民主过程,其结果需要大家都接受。但是不论什么论文都是可以有不同意见的。」在谈论起论文的评审模式时,张翔向雷锋网如是说,他也希望能通过表达自己的不同意见,引起大家的讨论。

周博磊也在知乎中表达了类似的观点,认为「往往有争议的文章,激发大家讨论的文章,才是有意思的文章(好与坏本身太主观)。」而雷锋网也将持续关注这篇论文的讨论进展,并为大家提供更全面丰富的观点及意见。

本文作者:奕欣

本文转自雷锋网禁止二次转载,原文链接

相关文章
|
2月前
|
机器学习/深度学习 算法
DeepMind研究成本大起底,一篇ICML论文烧掉1290万美元
【8月更文挑战第25天】近期,Katie Everett等11位作者发布了一篇题为《Scaling Exponents Across Parameterizations and Optimizers》的论文,已提交至ICML。该研究探讨了从小型到大型模型的扩展过程中,如何通过精确调整算法和架构细节实现有效扩展。作者们通过广泛的实证研究,包括训练了数以万计的不同规模的模型,提出了一种新的参数化视角及Adam-atan2优化器版本。然而,这项研究的成本高达1290万美元,引发了关于资源分配与研究价值的争议。论文链接: https://arxiv.org/abs/2407.05872。
38 3
|
5月前
|
机器学习/深度学习 人工智能
斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成
斯坦福大学研究发现,顶级学术会议评审内容中有一部分可能由大型语言模型如ChatGPT生成,揭示AI对学术领域的影响,引发学术诚信和评审质量关注。研究团队通过新框架“分布式GPT量化”更准确检测AI参与度,发现AI在评审紧迫、无引用及低互动场景中更常见,可能影响评审质量和多样性。尽管AI能提升效率,但也可能导致同质化和学术不端。该研究强调了在利用AI的同时保持学术评审质量的重要性。
46 3
斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成
|
5月前
|
人工智能
【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“
最近,一篇发表在《Surfaces and Interfaces》的论文引起了广泛关注,因为其中意外包含了ChatGPT的提示语,暴露出学术审稿过程中的疏忽。这篇论文讨论了铜基金属-有机框架-芳香族纤维素分隔器对锂金属阳极电池的影响,但却出现了不该出现的ChatGPT对话内容。这一事件不仅令人哭笑不得,还引发了对学术审核严谨性的质疑。它反映了当前学术界可能过度依赖AI写作工具,忽略了基本的检查和编辑步骤。这一事件提醒学术界必须加强审查机制和自律,确保论文质量,防止类似尴尬情况的再次发生。
197 4
【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“
|
机器学习/深度学习 人工智能 机器人
Nature给学术界立规矩:ChatGPT等大模型不可以成为作者
Nature给学术界立规矩:ChatGPT等大模型不可以成为作者
118 0
|
机器学习/深度学习 存储 Web App开发
NAACL 2022论文奖项公布:谷歌成最大赢家
NAACL 2022论文奖项公布:谷歌成最大赢家
106 0
|
机器学习/深度学习 存储 人工智能
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
133 0
|
机器学习/深度学习 人工智能 自然语言处理
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
深度生成模型可以在高分辨率下进行逼真的图像合成。但对于许多应用来说,这还不够:内容创作还需要可控。虽然最近有几项工作研究了如何分解数据中的潜在变化因素,但它们大多在二维中操作,忽略了我们的世界是三维的。
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
|
机器学习/深度学习 人工智能 自然语言处理
一年六篇顶会的清华大神提出Fastformer:史上最快、效果最好的Transformer
Transformer模型好是好,可惜太慢了!最近一位清华大神在arxiv上传了一篇论文,提出新模型Fastformer,线性时间复杂度,训练和推理效率史上最快,还顺手在排行榜刷了个sota。
604 0
一年六篇顶会的清华大神提出Fastformer:史上最快、效果最好的Transformer
|
机器学习/深度学习 编解码 算法
图像分割二十年,盘点影响力最大的10篇论文
【新智元导读】图像分割(image segmentation)技术是计算机视觉领域的个重要的研究方向,近些年,图像分割技术迅猛发展,在多个视觉研究领域都有着广泛的应用。本文盘点了近20年来影响力最大的 10 篇论文。
428 0
图像分割二十年,盘点影响力最大的10篇论文
|
机器学习/深度学习 人工智能 自然语言处理
华人博士一作:自动生成摘要超越BERT!帝国理工&谷歌提出新模型Pegasus
谷歌大脑和伦敦帝国理工学院的研究团队在自动生成文本摘要方面获得新的突破,他们构建了一个名为PEGASUS的系统,利用谷歌的Transformer架构,并结合了针对文本摘要生成定制的预训练目标,在12个摘要任务中均取得了最先进的结果。
615 0
华人博士一作:自动生成摘要超越BERT!帝国理工&谷歌提出新模型Pegasus