NeurIPS 2019民主大实验:提升审稿质量、避免“搭便车”,这回都听你们的!

简介: NeurIPS 2019官方在Medium上更新博客,利用官方统计的立体化数据做了一系列实验,将社区和网友关于评审流程和评议意见、审稿人分配等建议悉数采纳,这回都按你们的意见办!但分析显示,产生的结果并没有想象中的那么美丽。

微信图片_20220107155945.jpg


在过去五年中,NeurIPS参会人数增长了三倍。今年,通过初审的投稿论文数量达到6743篇(在正式通知收稿6614篇),总计4500多位审稿人撰写了20000多条评阅意见。NeurIPS 2019的整体接受率为21.6%,共收录1428篇论文。

 

第一部分:NeurIPS 2019数据总览

 

本届会议提交论文的作者共有15920人。其中四分之三的人没有以任何身份(审稿人,区域主席(AC)、资深区域主席(SAC))进入计划委员会的邀请名单。在剩下的四分之一的人中,约70%的作者接受了我们的邀请,加入计划委员会。此外,大多数审稿人自己也提交了论文,这也是一个好现象。


微信图片_20220107155954.jpg

 


那么,NeurIPS是否有“搭便车”的问题?并不明显。如下表所示,在没有接受我们邀请审稿的论文中,只有大约四分之一向本次大会提交了论文。但这些作者中,约有10%提交了五篇或更多论文。总体来看,至少有一名作者受邀出任评审委员会成员的论文数只有769篇论文(论文投稿总数为6743篇),但没有任何受邀作者参与审稿过程。 受邀担任更高级职务的人提交的论文更多,并且平均接受率也更高。下表提所示为领域主席的统计数据。资深领域主席的数据略高,平均每人提交5.24篇,接受率为34.78%。


微信图片_20220107160002.jpg

 


来自学术界的审稿人/ AC的比例约为70%。


有85位作者发表了至少10篇论文。其中只有六人是女性(7%)。我们对提交论文的女性作者的整体比例的临时估计为13%,几乎是多产论文作者比例的两倍。高产论文(10篇以上)作者的平均接受率为24.7%,略高于总体21.6%的接受率。 



微信图片_20220107160004.jpg


最后,与2018年相比,以下为按主要学科领域划分的录取率的细分图。该图按每个领域的论文提交数量进行排序。可以看到,提交最多的主题领域也较存在大比例的低质量论文。



微信图片_20220107160200.jpg


实验:如果减少或限制提交论文数量,结果会更好吗?

 

年来,一直有人讨论NeurIPS的审稿模式问题,为的是更好地处理数量越来越多的投稿论文。本文不妨大胆一些做个实验,利用NeurIPS 2019的数据,看看如果真的实行了我们听到的一些建议的话,会出现什么结果。


 意见1:使用与期刊类似的“编辑筛选”


作为一项实验,我们想要看看AC有多高的水平,能够在不看审稿人意见的情况下预测其指定的论文会被拒稿(理由可能是创新性不足,经费不足等)。这里的要解决的问题是,NeurIPS是否应考虑允许AC直接拒掉未经审稿人审阅的论文,减轻审稿人的负担。这种所谓“编辑筛选”是顶级期刊审稿机制中的常见做法。


我们要求每个AC提供他们认为在分配到的论文中质量排在最后25%的文章(大多数AC是每人5篇),以及他们对每次评估的分数。结果50%的AC给出了808条拒稿意见。下表所示为在不同置信度下被AC拒稿的论文数量,以及相应的“拒稿准确度”:经审稿人审阅后,确实被拒稿的文章数量所占的百分比。


将评估确定性阈值设为5(如表中最后一行所示)似乎是足够安全的,但投稿数量并没有明显减少。即使只有50%的AC参与了这个实验,如果阈值设为5,最终无需审稿人审阅、直接可被AC拒掉的论文只占总投稿数的4%,“减负”效应基本无法体现。



 微信图片_20220107160202.jpg


意见2:设置投稿数上限 


另一个经常提到的建议是对所有作者可投稿的最大论文数量设置上限。另一个机器学习顶级会议AAAI就规定了2020年会议每位作者的论文提交数量上限(参见AAAI 2020收稿通知)。 如下图所示,如果允许每个作者参与撰写k篇投稿论文(X轴表示),会对NeurIPS 2019的论文总投稿数造成什么影响。如Y轴表示,这确实会导致论文投稿总数的下降。


由于我们并不知道在这个限制下,每个作者会选择保留哪些文章作为投稿内容,于是在实验中我们允许每位作者在审稿结果出炉后再进行选择,保留他们被会议接受的论文,最多随机允许提交k篇。如果作者仍有任何剩余位置未使用,则随机选择被拒稿的论文将这些位置填满。 


如果设置的最高论文提交数为15篇(与AAAI 2020的规定相一致),结果显示,会议投稿论文总数仅仅下降了不到100篇,占实际总数的1.5%。如果将上限为10篇,论文投稿总数下降幅度为4.3%(评阅意见可以降低最多850条),但对最终接收结果没有重大影响。


总而言之,或许同时使用“编辑筛选”和“设置投稿数上限”可能会使投稿情况发生变化,但是在付诸实施之前,需要更多地考虑方式方法。


意见3:用市场调节审稿 


还有人提出这样的建议,利用市场体系对审稿机制进行调控。只安排审稿人审阅自己感兴趣的投稿。类似于将投稿对审稿人“挂牌拍卖”。 分析显示,这种模式并不能很好地预测投稿的接受率。被接受的每篇论文平均收到来自审稿人的5.4次竞标(来自AC则为0.72次竞标),相比之下,被拒稿的论文只有5.1次(来自AC为0.64次)。


因此,让审稿人只审阅至少收到3次投标的热门文章,这个做法过于幼稚,会让投稿总数下降约四分之一,但接受论文总数也会下降四分之一。 


意见4:公开审稿 


本次大会投稿中的大多数(54%)已经发在了arXiv上;这其中有21%已经被至少一位审稿人查阅过。这些被事先查阅过的论文接受率为34%,大大高于21.6%的整体接受率。相比之下,未在Arxiv上先行发表的投稿被接受率仅为17%。 很遗憾,我们很难确定其中的因果关系。


一种明显的可能是,在arXiv上预先发表的论文质量更高,因为作者认为这些论文可以公开共享。而另一种可能是,这反映了目前“单盲审稿”中的偏见,也就是说对于更知名的作者,审稿人更有可能去arXiv上阅读其投稿文章,而且可能偏向对其成果做出正面评价。

 

第三部分:审稿质量问题

  

审稿人的分配 


有没有能够客观衡量的评价质量的代表性指标?一个建议是,看论文中是否引用了审阅该文章的审稿人的成果。那么,NeurIPS 2019这个指标情况如何? 经过统计,本次大会论文中所引用的人对所有提交的论文中只有不到三分之一进行了审查。正如预期,在提交中被引用确实与置信度分数相关。NeurIPS审稿的平均置信度为3.75,所有评审意见中,大约一半被评为4分(对评分结果有信心,但不是绝对确定)。


被引用审稿人的平均置信度略高于4分,其中接近30%的评价为5分(对评估结果绝对确定,非常熟悉相关工作),几乎是一般审阅率的两倍。 我们当然希望看到更高的数字,但所有提交的报告中有40.6%的至少一篇评论的可信度为5,而94.7%的评论的可信度至少为4。 如果AC亲自挑选审稿人,他们是否对审稿意见更满意?答案是肯定的,即使这些外部审稿人中的大多数都是初级审稿人。在“精选期望”中,被评为“超出期望”的评论比例增长了三分之一,而在“失败期望”中被评价的比例降低了一半以上。


反驳,讨论和接受统计


作为撰写反驳意见的论文作者,可能想知道初始分数已经给定的情况下,论文被重新接受的可能性。也就是说,想知道反驳意见能够改变评议结果的几率是多少。 在讨论阶段,约有20%的初始分数发生了变化,至少约占所有提交内容的50%,至少有一个分数发生了变化。随着做出决策,平均方差从1.27(反驳前)下降到0.89(最终通知时间)。


我们还比较了2018年至2019年的以下参与度指标:包括讨论期间每篇论文的平均评议意见数量,参与会议的平均人数,参与评议讨论帖的平均人数。与2018年相比NeurIPS 2019所有数字都有所上升。这表明在评议过程的这部分环节的整体参与度上升了。最重要的是,每篇论文评议讨论帖子的平均长度也增加了10%。

 

结论:都按你们的意见办,结果并没有多大改善


综上,可以得出四点结论:


1、不存在论文“搭便车”的问题:提交的论文相对较少,被邀请参加评审过程的作者都没有接受邀请。 


2、目前尚未找到在全面审阅之前先行快速筛选论文的合适机制:即便允许AC尽早先行拒稿,且没有做出不当的拒稿决定的情况下,也不太可能对审稿人的工作量产生重大影响。同样,允许审稿人对特定论文进行审阅的机制,也不能实现为审稿人“减负”的目的。 


3、目前没有明确的证据表明NeurIPS按长度衡量的评审意见质量较低:在评议意见的长度上,NeurIPS与其他规模较小的会议没有太大不同。 


4、在反驳/讨论阶段的参与度问题:今年会议的总体参与度要高于2018年。


总结起来就是说,大家的意见我们不仅听到了,而且用真实数据做了实验,效果嘛,并没有想象中的那么美。不过,作为官方博客,能如此认真地组织这个实验,也足以体现对网络和社区意见的重视。


参考链接:


https://medium.com/@NeurIPSConf/what-we-learned-from-neurips-2019-data-111ab996462c

相关文章
|
8月前
|
机器学习/深度学习 编解码 算法
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
300 0
|
2月前
|
机器学习/深度学习 存储 人工智能
NeurIPS 2024:解锁大模型知识记忆编辑的新路径,浙大用WISE对抗幻觉
在AI领域,大型语言模型(LLM)的发展带来了巨大便利,但如何高效更新模型知识以适应世界变化成为难题。浙江大学研究团队在NeurIPS 2024上提出的WISE方法,通过双参数化记忆方案及知识分片机制,有效解决了LLM知识更新中的可靠性、泛化性和局部性问题,显著提升了模型性能。
39 3
|
3月前
|
自然语言处理
杨笛一团队最新百页论文:首次统计学上证明,LLM生成的idea新颖性优于人类
【10月更文挑战第12天】斯坦福大学杨笛一团队发布百页论文,首次通过统计学方法证明大型语言模型(LLMs)在生成研究想法的新颖性上优于人类专家。研究招募100多名NLP专家进行盲评,结果显示LLM在新颖性方面显著胜出,但在可行性上稍逊。研究揭示了LLM在科研创新中的潜力与局限。
64 2
|
3月前
|
机器学习/深度学习
顶会审稿人紧缺,我审我自己!ICML 2023排序实验结果出炉:作者自评能提升评审质量吗?
【10月更文挑战第8天】ICML 2023通过一项创新实验,要求作者对提交的多篇论文进行自评排名,以评估其相对质量。实验结果显示,作者自评能提高评审的准确性和效率,但需谨慎处理潜在的主观性和操纵问题。
40 5
|
8月前
|
机器学习/深度学习 自然语言处理 搜索推荐
【传知代码】图神经网络长对话理解-论文复现
在ACL2023会议上发表的论文《使用带有辅助跨模态交互的关系时态图神经网络进行对话理解》提出了一种新方法,名为correct,用于多模态情感识别。correct框架通过全局和局部上下文信息捕捉对话情感,同时有效处理跨模态交互和时间依赖。模型利用图神经网络结构,通过构建图来表示对话中的交互和时间关系,提高了情感预测的准确性。在IEMOCAP和CMU-MOSEI数据集上的实验结果证明了correct的有效性。源码和更多细节可在文章链接提供的附件中获取。
105 4
【传知代码】图神经网络长对话理解-论文复现
|
机器学习/深度学习 数据采集 人工智能
还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」
还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」
279 0
还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」
|
机器学习/深度学习 监控 自动驾驶
差点被ECCV错过的Oral论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
差点被ECCV错过的Oral论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
156 0
|
机器学习/深度学习 人工智能 计算机视觉
ResNets首次反超有监督学习!DeepMind用自监督实现逆袭,无需标注
ResNets首次反超有监督学习!DeepMind用自监督实现逆袭,无需标注
137 0
|
机器学习/深度学习 编解码 PyTorch
翻车现场:我用pytorch和GAN做了一个生成神奇宝贝的失败模型
翻车现场:我用pytorch和GAN做了一个生成神奇宝贝的失败模型
223 0
翻车现场:我用pytorch和GAN做了一个生成神奇宝贝的失败模型

热门文章

最新文章