不避嫌、不遮丑!陈天琦导师自批NeurIPS2018最佳论文:没那么神,问题很多

简介: 近日,陈天琦的导师David Duvenaud在NeurIPS 2019上回顾了此前获NeurIPS 2018最佳论文的研究。他表示,这篇论文从写作动机上是为了讨好前辈,在数据处理上没有对基线方法进行调参,导致结果的确定性没那么高,并对一些科技媒体的夸大和不实报道做了澄清。他不避嫌、不遮丑的坦诚态度赢得了网友的好感和敬佩。

微信图片_20220107182345.jpg


近日,多伦多大学助理教授、著名的Neural ODE论文通讯作者、陈天琦的导师David Duvenaud在NeurIPS 2019上分享了对于此前研究“Neural Ordinary Differential Equations”的回顾。


微信图片_20220107182348.jpg


David Duvenaud


Duvenaud表示,这篇论文从写作动机上是为了讨好前辈,在数据处理上没有对基线方法进行调参,导致结果的确定性没那么高,并对一些科技媒体的夸大和不实报道做了澄清。他不避嫌、不遮丑的坦诚态度赢得了网友的好感和敬佩。


陈天琦一作获NeurIPS 2018最佳论文


和大家分享Differential Equations做的报告之前,我们先来回顾一下这里提到的那篇论文。其实就是一作陈天琦、通讯作者为David Duvenaud的一篇名为“Neural Ordinary Differential Equations”的论文,这篇论文获NeurIPS 2018最佳论文。


微信图片_20220107182350.png


题目:Neural Ordinary Differential Equations

作者:Tian Qi Chen · Yulia Rubanova · Jesse Bettencourt · David Duvenaud

链接:https://papers.nips.cc/paper/7892-neural-ordinary-differential-equations.pdf


摘要:我们提出一种新的深度神经网络模型。我们使用神经网络参数化隐藏状态的导数,而不是指定一个离散的隐藏层序列。利用黑盒微分方程求解器计算网络的输出。这些连续深度模型具有恒定的存储成本,可以根据每个输入调整其评估策略,并且可以显式地以数值精度换取速度。我们在连续深度残差网络和连续时间潜在变量模型中证明了这些性质。我们还构建了continuous normalizing flows,这是一个可以通过最大似然进行训练、而无需对数据维度进行分区或排序的生成模型。对于训练,我们展示了如何在不访问任何ODE求解器内部操作的情况下,可扩展地反向传播。这允许在更大的模型中对ODE进行端到端训练。


Duvenaud:我说过的胡话和媒体说过的胡话


对论文有了初步了解,接下来和大家分享Differential Equations做的报告。


QQ图片20220107182553.png

查看原视频链接


微信图片_20220107182352.jpg



David Duvenaud这个报告题为“Bullshit that I and others have said about Neural ODEs”,他在开始时表示:大家对于这篇论文的喜爱程度超乎他的意料。


微信图片_20220107182354.png


他谈到了这篇论文的诞生:其实这是当年他们提交的8篇NeurIPS论文之一,只有两篇被录取了;这篇论文刚开始的名字并不是这样,而是一个更准确但没那么吸引人的标题,但最后选择了一个短小精悍、sexy的题目;为了能在截稿之前按时提交,大家经常通宵。下面讲到了一些可能具有误导性的语言或者数据。


我说过的胡话#1:动机


微信图片_20220107182358.jpg微信图片_20220107182356.jpg


David Duvenaud谈到做这项研究的动机是为了讨好Dougal Maclaurin 、Matthew Johnson这些同行前辈。


我说过的胡话#2:参数效能(parameter efficiency)


微信图片_20220107182358.jpg


在数据处理上没有对基线方法进行调参,这是不对的,所以他们对论文进行了更新;即便可能是正确的,但他们也没有进行演示。


我说过的胡话#3:可以交给ODE求解器


微信图片_20220107182400.jpg


ODE求解器很棒,可以自动达到容错性的要求,但研究ODE的人说:我们领域研究的意义在于,它不能总是达到。深度学习顾问说:把你的数据发给AI吧,它可以解决一切。


微信图片_20220107182402.jpg


这是Resnets的简单替代品:同样的优化算法,同样的测试表现。


MIT科技评论说的胡话


微信图片_20220107182405.jpg


David Duvenaud说当自己第一次看到MIT科技评论的报道说他发明了常微分方程、使用的是ODE求解器时,Duvenaud吓坏了,他怕有些人会以为是他自己说的。Duvenaud表示和对方最大的分歧在于,对方的报道通篇只说了他,而没有说论文的合著者,好像整个研究是他一个人完成的
Duvenaud表示这是不对的,应该把学生们也写出来,但对方拒绝了,理由是“这不是读者喜欢看的”。最后的折衷方案是写成“Duvenaud和他的合作者“。这也让Duvenaud理解这样可能会有好的阅读效果,但同时他也意识到,自己和媒体的利益有重叠部分,但并不是完全一样


微信图片_20220107182408.jpg


所谓树大招风,当你获得了很多关注,免不了会惹到谁。原始论文会给人一种Duvenaud团队找到了ODE的solution的错觉,其实并没有,原始论文在这点上没有很清楚的说明。


神经微分方程到底有什么用?


微信图片_20220107182410.png


那么问题来了,论文中的神经微分方程到底有什么用?Duvenaud解释到大概有3种用途:


  • 作为resnets的替代品
  • 时间序列模型
  • 可逆正则化流


Reddit网友热议引本人亲自回复:已与记者充分沟通并致歉


David Duvenaud作为通讯作者亲自下场解释自己论文中的不足之处,这篇论文还是去年NeurIPS的最佳论文,获得了网友的理解与肯定,甚至还有意外。有网友表示,对他的演讲感到耳目一新,实在佩服。


作为一个研究人员,我真的很敬佩David的发言。对于绝大多数学术论文来说,其内容和结论都是为了能说服他人。一般作者都会对实验过程和原理进行详细的解释,往往导致对结论夸大陈述。这对论文读者是会有误导的,当你读了一篇又一篇文章,满篇到处都是“重要结论”时,就容易分不清真假,不知道哪些结论是真正重要的。我就曾经深受其害,David的发言内容令我耳目一新,而且他的类似感受比我还强烈,并且还愿意公开直面这些问题,着实令人敬佩。


讲得好!现在很少能听到有研究人员这么诚实地分析自己的研究了。


不过,也有人对演讲中对媒体报道中的异议之处提出了不同意见:

微信图片_20220107182412.jpg


如果原文章说David Duvenaud“发明了ODE”或“常微分方程”这个名字需要重新起,因为“常”一词听起来不够带劲,那么看起来TR这篇文章最初发出前没有进行任何事实核查。


实际上,写这篇文章的记者提都没提实际从事这项研究的研究生陈天琦,这完全是不对的。Duvenaud同意以某种方式模糊这一点上的是非,这令我感到震惊。这篇文章不是高能物理学论文,有三十多个作者。这种行为会纵容现在不良的风气,导致机器学习社区内部的纷争(至少在此这个话题上面是如此)。


这让人想起那些抱怨自己的论文没人引用的研究人员,而这些人常常拒绝与参与研究的学生分享credit。这些研究人员似乎认为,仅提出一个想法就足以赢得好评,而将这个想法付诸实践的艰巨工作反倒不那么重要了。



此回复也引来David Duvenaud本人的亲自回应:


微信图片_20220107182415.jpg微信图片_20220107182417.jpg



我刚收到MIT Tech Review上撰写此报道的记者Karen Hao的电邮。她解释说我对原报道的理解有误。她说:“原文旨在说明一个事实,即您只是把这个新神经网络起名叫ODE,而没有选择一个更简单、也许更具比喻意义的名称。(有点类似于我发明了一种切苹果的新设备,然后起个名字叫“切苹果的设备”,你懂的)。我现在明白了,原文读起来感觉像是说,您是第一个将“常微分方程”几个字组成一个新的词一样。所以我根据您的要求进行了更正。”


她的这封电邮也使我感到,她其实并不是要说我们团队发明了ODE和ODE求解器,只是最初发出的文章在我读来是这个意思。最后一句的意思其实只是“请记住,如果ODE求解器以后火了,您是在我们这儿先看到的报道”。但是她今天对我解释说,她实际上已经对ODE熟悉了,并且已经学习了ODE。我在此向她道歉,因为我的演讲中听起来好像她一点不懂ODE。


关于您认为我对论文合作者的名字未对读者完全反映一点:我认为准确地讲述研究过程是至关重要的,我也对Ricky(陈天琦),Yulia和Jesse在这篇报道中没有得到应有的评价感到不安。但我极力试图说服自己理解Karen Hao的观点,即对于大众传播的新闻报道,论文合作的细节可不会引起普通读者的兴趣。


而且,演讲者本人对新闻报道亲自发出评论意见,也使得这篇报道本身被更多人关注。有网友在读过这篇报道之后,改变了自己原有的态度,认为Karen Hao这篇报道写的其实非常有质量。而且,现在经过修正后的文章也已经修正了David Duvenaud在演讲中提到的一些表述问题。


David Duvenaud是谁:陈天琦导师,NeurIPS 2018最佳论文通讯作者


微信图片_20220107182419.jpg


根据其个人主页上的信息,David Duvenaud现任多伦多大学助理教授,主要研究领域为面向预测、解释和设计任务的深度概率模型的构建。主要研究成果就包括去年获得NeurIPS最佳论文的Neural Ordinary DifferentialEquations。他是这篇文章的通讯作者,此文一作为他的学生陈天琦,新智元去年曾对这篇文章和陈天琦做过报道。


reddit热议:


https://www.reddit.com/r/MachineLearning/comments/eayp99/r_neuips_2019_david_duvenaud_bullsht_that_i_and/

相关文章
|
数据可视化 数据挖掘 大数据
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读(2)
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读
159 0
|
机器学习/深度学习 达摩院 算法
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读(1)
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读
|
机器学习/深度学习 算法
搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述
搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述
|
机器学习/深度学习 人工智能 算法
|
算法 数据挖掘 知识图谱
CIKM'2017 最佳论文鉴赏
今年的Best Paper Award由清华大学的李国良老师团队获得,论文题为:Hike: A Hybrid Human-Machine Method for Entity Alignment in Large-Scale Knowledge Bases《一种基于人机协作的大型知识图谱对齐方法》. 因为是Best Paper,本篇分享单独对该文章做细致解读。
4071 0
|
机器学习/深度学习 人工智能 算法
AAAI 2019 四个杰出论文奖论文揭晓
一半都是强化学习论文
542 0
|
数据库
发表一篇顶会论文的经验分享
【背景】:最近半个月,对之前发表的一篇顶会论文进行了修改,并重新提交了。这篇论文是一篇计算机领域的A会文章。本篇文章主要对计算机领域论文写作及发表过程中的相关经验做一个总结。希望可以对研究生小白们有点用。
3391 0
|
机器学习/深度学习 Web App开发 算法
ICML 2018大奖出炉:伯克利、MIT获最佳论文(附论文、项目链接)
人工智能顶级会议ICML 2018即将于7月10日至15日在瑞典首都斯德哥尔摩举行。昨天,大会提前公布了最佳论文获奖名单,在超过600篇被接收论文中,来自MIT和UC Berkeley的研究人员分享了最佳论文的殊荣。
1540 0
|
机器学习/深度学习 人工智能 算法
吴恩达导师Michael I.Jordan学术演讲:如何有效避开鞍点(视频+PPT)
最近,加州大学伯克利分校教授Michael I. Jordan(吴恩达的导师)进行了一场演讲:使用合理的扰动参数增强的梯度下降法可有效地逃离鞍点,视频+图文,全是干货。
4206 0