顶会是否应该降低接收门槛?用博弈论探索最优审稿和决策机制

简介: 顶会是否应该降低接收门槛?用博弈论探索最优审稿和决策机制


作者:张亦弛

用博弈论 模型描述作者和学术会议之间的互 动,并论了不同的审稿和决策机制在权衡会议质量和审稿压力中的表现。


近年来,人工智能领域对于大型计算机会议审稿机制的诟病与日俱增,这一切背后的矛盾源于论文作者、会议主办方和审稿人三方并不一致的利益:


  • 论文作者希望他们的论文被会议接收;

  • 会议主办方希望接收更多的优质论文以提高会议的声誉(会议质量);
  • 审稿人则希望避免过多的审稿工作量(审稿压力)。


因此,如何在论文数量大幅增加的大环境下权衡会议质量和审稿压力是达到三方利益均衡的核心问题。去年,来自人工智能领域的学者针对如何改进会议审稿和决策机制这一问题提出了众多看法和建议,这些想法被汇总为一篇 23 页的谷歌文档。其中一条想法十分有趣并得到了多人认同:



文档链接:https://docs.google.com/document/d/1j7Mn2ZkquSzWJ_EzxdXBP3z_JQtrSeUa-CQ0gotAuYw/mobilebasic


这一想法源于这样一个反直觉的现象, 本文称之为重投悖论(resubmission paradox):


每年有大量论文会被拒收(人工智能顶会例如 NeurIPS 接收率常年低于 30%),其中大部分论文会在仅有微调甚至完全没有改动的情况下参与重投,最终总会被同一会议或同级别的会议接收。既然大部分论文终究会被接收,那为什么不降低论文的接收门槛使得更多论文在经过更少次数的重投后就可以被接收?这样就可以避免同一篇论文被审稿人反复阅读进而降低审稿压力。



尽管这一想法看上去十分合理,本文作者提出用博弈论模型描述作者和会议之间的互动,并对这一想法给出了否定的回答,研究论文已被 Economics and Computation (2022) 接收。在这一模型下,本文了讨论不同的审稿和决策机制在权衡会议质量和审稿压力中的表现,比如以下问题:


  • 如何确定最优的接收门槛?

  • 是否应该增加一篇论文的审稿人数量?
  • 提高审稿质量有什么好处?
  • 是否应该作者同时提供论文的以往审稿意见?
  • ……



论文链接:https://arxiv.org/pdf/2303.09020v1.pdf


1. 模型概述


本文将作者向学术会议提交论文并审稿的过程建模为重复博弈,具体流程如下:


首先,每个作者有一篇论文准备提交。在每一轮投稿中,作者进行二选一决策:将论文提交到顶会还是 sure bet(比如声望较低的二类会议)。提交到顶会和 sure bet 的结果取决于审稿机制和论文质量:


  • 顶会有一定概率接收论文,一旦接收,作者会获得较大的收益;
  • sure bet 保证论文一定接收,但带来的收益较小。


其中,顶会的决策完全取决于审稿人的评审意见, 比如设置一个接收阈值,当且仅当平均审稿分数高于阈值时接收该论文,而作者的收益随着重投次数指数折减。

顶会承诺一个审稿 / 决策机制,作者针对该机制做出最佳策略;而顶会则需要在考虑作者最佳回应策略的前提下,设计出能权衡会议质量和审稿压力的最优机制。



2. 主要结论


利用上述建模方法,本文得出一些重要结论,包括:


1)作者的最优策略


在一个简化的模型中(更复杂的模型详见原文),本文做出如下假设:作者知道其论文的真实质量,会议的决策是无记忆的(每轮审稿的决策仅取决于该轮审稿人的意见),并且作者有无穷次重投机会。在这种情况下,作者存在一个阈值最优策略:


  • 如果论文质量高于阈值,作者将选择投稿顶会,并且无论经历多少次拒稿,作者都会选择重投,直到中稿;
  • 如果论文质量低于阈值,作者将立即选择 sure bet。


通常情况下作者的提交阈值 Θ 低于会议的接收阈值 τ,如下图所示。



以上结论可以用来解释重投悖论:为什么接收更多论文不能从本质上降低审稿压力?这是因为降低会议的接收阈值 τ 会同时降低作者的提交阈值 Θ,进而吸引更多低质量论文的提交。如下图所示,如果接收阈值降低,一部分从前选择投稿二类会议的论文(紫色区域)如今选择投稿顶会。



2)会议质量和审稿压力


顶会的审稿 / 决策机制需要权衡会议质量和审稿压力,二者不可兼得。


  • 会议质量 = 所有被接收论文的质量之和
  • 审稿压力 = 一篇论文从投稿到最终被接收被审稿次数的期望值


改变接收阈值会同时改变会议质量和审稿压力(如下图)。



图为会议质量(纵坐标)和审稿压力(横坐标)关于接收阈值的变化曲线,σ 为审稿人噪音的标准差。


以下三种情况可以得到会议质量和审稿压力之间更优的权衡(达到相同的会议质量只需更小的审稿压力):


  • 更好的审稿质量 ——— 审稿人噪音更低;
  • 更低的顶会声誉 ——— 相比 sure bet,顶会带来的收益更低;
  • 更短见的作者 ——— 作者收益在多轮重投下有更大的折减。


3. 结语


本文旨在呼吁学术会议改进审稿和决策机制时应考虑不同机制对论文作者带来的激励,更多有趣的结论详见论文原文,比如论文接收率主要受什么因素影响?作者在不能准确知道自己论文质量的情况下的最优策略是什么?要求作者提供论文的以往审稿意见对会议有什么样的影响?


当然,本文的理论模型在不同层面上存在很多局限性:比如本文没有考虑审稿压力对审稿质量的负反馈效应,以及会议质量对作者收益的正反馈效应,并且认为论文质量不会在拒稿过程中得到提高等等。对于会议同行评审系统的讨论和改进不会止步于此,从博弈的角度理解会议审稿机制尤为重要,欢迎感兴趣的读者查看论文原文或致信文章作者,以讨论更多研究细节。

相关文章
|
C++
思维模型No5|网络效应--快速增长的奥秘
思维模型No5|网络效应--快速增长的奥秘
123 1
|
1月前
|
机器学习/深度学习 PyTorch 算法框架/工具
揭秘深度学习中的微调难题:如何运用弹性权重巩固(EWC)策略巧妙应对灾难性遗忘,附带实战代码详解助你轻松掌握技巧
【10月更文挑战第1天】深度学习中,模型微调虽能提升性能,但常导致“灾难性遗忘”,即模型在新任务上训练后遗忘旧知识。本文介绍弹性权重巩固(EWC)方法,通过在损失函数中加入正则项来惩罚对重要参数的更改,从而缓解此问题。提供了一个基于PyTorch的实现示例,展示如何在训练过程中引入EWC损失,适用于终身学习和在线学习等场景。
46 4
揭秘深度学习中的微调难题:如何运用弹性权重巩固(EWC)策略巧妙应对灾难性遗忘,附带实战代码详解助你轻松掌握技巧
|
3月前
|
算法 语音技术
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
|
4月前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
78 5
|
6月前
|
机器学习/深度学习 供应链 算法
智能供应链中的预测算法:理论与实践
智能供应链中的预测算法:理论与实践
250 1
|
6月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
154 0
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24333 9
|
算法 安全 调度
【鲁棒优化、机会约束】具有分布鲁棒联合机会约束的能源和储备调度研究(Matlab代码实现)
【鲁棒优化、机会约束】具有分布鲁棒联合机会约束的能源和储备调度研究(Matlab代码实现)
117 0
|
供应链 调度 决策智能
基于合作型Stackerlberg博弈的考虑差别定价和风险管理的微网运行策略研究(Matlab代码实现)
基于合作型Stackerlberg博弈的考虑差别定价和风险管理的微网运行策略研究(Matlab代码实现)
129 0
|
机器学习/深度学习 存储 人工智能
强化学习从基础到进阶-常见问题和面试必知必答[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解
强化学习从基础到进阶-常见问题和面试必知必答[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解