顶会投稿量暴涨近一倍,AI用不到一天审完2.3万篇论文,学者说:它比人审得好
如果告诉你,你投给顶会的论文,会有一个AI来审,你会怎么想?
这不是科幻小说。2026年4月15日,AAAI(人工智能促进协会)年会发布了一份重磅研究报告:AAAI-26首次大规模部署AI辅助审稿,22,977篇投稿论文,每一篇都收到了一份由AI生成的评审意见。
结果出人意料——参与调查的学者们不仅觉得AI审稿有用,而且在多个关键维度上,他们更偏好AI评审而非人类评审。
一、 为什么需要AI来审稿?因为人真的忙不过来了
AAAI-26的初始投稿量突破了30,000份,进入完整评审流程的论文为22,977篇——这个数字几乎是2025年的两倍(AAAI-25为12,957篇)。
这不是AAAI独有的烦恼。NeurIPS 2025收到了近3万篇投稿,CVPR、ICLR、ICML也无一例外,投稿量屡创新高。
投稿量翻倍意味着什么?
意味着需要更多的审稿人。AAAI-26为此招募了超过28,000名项目委员会成员、高级项目委员会成员和领域主席——几乎是前一年的三倍。意味着每位审稿人被分配了更多论文,审稿周期被压缩,经验不足的审稿人也被拉来“救火”。

压力之下,传统的同行评审体系正在承受前所未有的考验。
正是在这个背景下,AAAI-26启动了AI辅助审稿试点项目——这是全球首次在大型学术会议上,对真实投稿进行大规模AI生成评审的实地部署。
二、 AI是怎么审稿的?一套“流水线”式的专业系统
你可能以为AI审稿就是把论文丢给ChatGPT让它写几句评语。AAAI-26的系统远比这复杂。
研究团队(来自德克萨斯大学奥斯汀分校、阿尔伯塔大学、密歇根大学等机构)开发了一套多阶段、多工具的AI审稿流水线。
第一步:论文预处理
系统将PDF论文中的所有图像重采样到250 DPI分辨率,然后用专门的OCR工具olmOCR将论文转换为markdown格式,保留LaTeX公式和表格结构。这样AI才能“读懂”论文。
第二步:五个核心评审维度
系统将评审任务拆解为五个专业阶段:

| 阶段 | 评估内容 |
|---|---|
| 故事(Story) | 研究问题是否有意义、逻辑是否清晰 |
| 呈现(Presentation) | 论文是否可读、结构是否连贯 |
| 评估(Evaluations) | 实验和基线是否充分 |
| 正确性(Correctness) | 方程、算法、结论是否站得住脚 |
| 重要性(Significance) | 相对于已有工作是否有价值 |
每个阶段都有专门的提示词。评估和正确性阶段还配备了Python代码解释器,让AI能够执行代码片段、验证数学推导。重要性阶段则配有网络搜索工具,可以查询相关领域的已有工作。
第三步:自我批评与最终修订
生成初步评审后,系统会进入自我批评阶段——检查评审中是否存在无根据的主张、缺失的细节或前后矛盾。然后根据自我批评的结果修订生成最终评审。
整个系统使用OpenAI的GPT-5模型构建,具有400,000个token的上下文窗口。所有API调用在零数据保留协议下进行,资金来自OpenAI的API积分实物捐赠。
这套系统在不到24小时内,处理了全部22,977篇论文。每篇论文的成本不到1美元。

三、 AI审得怎么样?数据给出了意外答案
为了评估AI审稿的质量,AAAI-26对作者、审稿人、高级程序委员会成员和领域主席进行了大规模调查,共收到5,834份有效回复。结果令人惊讶。
在9项评估标准中,AI评审在6项上获得了比人类评审更高的偏好评分,包括:
● 识别技术错误:AI领先+0.67分
● 提出之前未考虑过的问题:领先+0.61分
● 改进呈现方式的建议:领先+0.54分
● 研究设计改进建议:领先+0.49分
● 整体全面性:领先+0.48分

调查还显示:
● 53.9%的受访者认为AI评审有用
● 61.5%的受访者预期AI评审在未来同行评审中有用
● 55.6%的受访者表示AI评审展示了超出预期的能力
在SPECS基准测试(评估AI评审系统在故事、呈现、评估、正确性、重要性五个维度识别科学弱点的能力)中:
| 系统类型 | 弱点检测召回率 |
|---|---|
| 简单LLM生成评审 | 42.9% |
| AAAI-26多阶段AI系统 | 63.9% |
| 提升幅度 | 21个百分点 |
这说明:架构设计比模型大小更重要。一个精心设计的多阶段流水线,远胜于简单的“把论文丢给大模型”。
四、 AI不是来抢饭碗的——人类仍然在掌舵
看到这里,你可能会担心:AI是不是要取代审稿人了?
AAAI-26的答案是否定的。这个项目的核心设计原则是:不取代任何人类审稿人。
具体来说:
● AI评审是在第一阶段审稿中添加的,与至少两位人类评审并行
● AI评审不包含任何分数或推荐意见——它只提供分析性反馈
● 最终决策完全由人类控制(领域主席和高级程序委员会成员)
AAAI-26项目负责人、德克萨斯大学奥斯汀分校副教授Joydeep Biswas明确表示:“AI评审的目的是为同行评审过程提供额外输入,而不是替代人类的判断。”
这与参会者的感受一致。学者们普遍认为人机协同审稿是未来的方向——AI负责初筛、技术核查、格式检查,人类聚焦于创新性判断、重要性评估和伦理考量。
五、 AI审稿的局限:能看清树木,但可能错过森林
当然,AI审稿并不完美。研究团队也坦诚地列出了当前系统的局限性:
过分强调小问题:受访者认为AI评审比人类评审更可能过分强调次要问题
评审偏长:AI生成的评审往往比人类评审更长(不过这个问题相对容易通过控制输出长度来改进)
难以评估新颖性和重要性:这是人类评审仍然占优的领域
复杂格式解析仍有错误:特殊图形、复杂表格仍可能导致OCR错误
偶尔包含错误或不切实际的建议:比人类评审略多
一位受访者在定性反馈中写道:“AI帮我发现了三处我漏掉的实验细节问题,但它仍然需要我来判断:这些问题到底有多严重?”
用一句话总结:AI能数清每一棵树,但可能看不到森林的全貌。
这正是人机协同的价值所在——让AI做它擅长的事(系统性检查、一致性验证、技术细节核查),让人类做人类擅长的事(战略判断、创新性评估、上下文理解)。
六、 这项实验意味着什么?
AAAI-26的AI审稿试点,是学术同行评审历史上的一个里程碑。
它证明了:在真实会议规模下,AI系统已经能够生成技术上可靠、对学者真正有用的评审意见。 22,977篇论文、不到24小时、每篇不到1美元——这些数字意味着,AI可以帮助学术界破解“投稿量暴涨但审稿人不够”的困局。
但它也划清了边界:AI是助手,不是替代者。最终的学术判断,仍然需要人类专家的智慧。
正如AAAI-26项目组在论文中所写:“最先进的AI方法已经能够为会议规模的科学同行评审做出有意义的贡献,为下一代用于评估研究的协同人机团队合作开辟了道路。”
人机协同的同行评审时代,正在到来。
AAAI 的试点证明了一件事:通用模型需要经过精细调整,才能在真实学术任务中变得可靠。而这恰好也是 LlamaFactory Online 一直在解决的问题——只不过场景不限于审稿,而是让更多人能以更低成本把大模型微调到自己的特定任务上。