AI当审稿人，得分比人类还高？AAAI-26的22,977篇论文实验-阿里云开发者社区

AI当审稿人，得分比人类还高？AAAI-26的22,977篇论文实验

2026-04-21 37

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AAAI-26首次大规模部署AI审稿，处理22,977篇论文。调查显示，AI在技术错误识别等6项指标上获学者偏好评分高于人类。多阶段流水线设计是关键，而非简单调用大模型。

顶会投稿量暴涨近一倍，AI用不到一天审完2.3万篇论文，学者说：它比人审得好

如果告诉你，你投给顶会的论文，会有一个AI来审，你会怎么想？

这不是科幻小说。2026年4月15日，AAAI（人工智能促进协会）年会发布了一份重磅研究报告：AAAI-26首次大规模部署AI辅助审稿，22,977篇投稿论文，每一篇都收到了一份由AI生成的评审意见。

结果出人意料——参与调查的学者们不仅觉得AI审稿有用，而且在多个关键维度上，他们更偏好AI评审而非人类评审。

一、为什么需要AI来审稿？因为人真的忙不过来了

AAAI-26的初始投稿量突破了30,000份，进入完整评审流程的论文为22,977篇——这个数字几乎是2025年的两倍（AAAI-25为12,957篇）。

这不是AAAI独有的烦恼。NeurIPS 2025收到了近3万篇投稿，CVPR、ICLR、ICML也无一例外，投稿量屡创新高。

投稿量翻倍意味着什么？

意味着需要更多的审稿人。AAAI-26为此招募了超过28,000名项目委员会成员、高级项目委员会成员和领域主席——几乎是前一年的三倍。意味着每位审稿人被分配了更多论文，审稿周期被压缩，经验不足的审稿人也被拉来“救火”。

压力之下，传统的同行评审体系正在承受前所未有的考验。

正是在这个背景下，AAAI-26启动了AI辅助审稿试点项目——这是全球首次在大型学术会议上，对真实投稿进行大规模AI生成评审的实地部署。

二、AI是怎么审稿的？一套“流水线”式的专业系统

你可能以为AI审稿就是把论文丢给ChatGPT让它写几句评语。AAAI-26的系统远比这复杂。

研究团队（来自德克萨斯大学奥斯汀分校、阿尔伯塔大学、密歇根大学等机构）开发了一套多阶段、多工具的AI审稿流水线。

第一步：论文预处理

系统将PDF论文中的所有图像重采样到250 DPI分辨率，然后用专门的OCR工具olmOCR将论文转换为markdown格式，保留LaTeX公式和表格结构。这样AI才能“读懂”论文。

第二步：五个核心评审维度

系统将评审任务拆解为五个专业阶段：

阶段	评估内容
故事（Story）	研究问题是否有意义、逻辑是否清晰
呈现（Presentation）	论文是否可读、结构是否连贯
评估（Evaluations）	实验和基线是否充分
正确性（Correctness）	方程、算法、结论是否站得住脚
重要性（Significance）	相对于已有工作是否有价值

每个阶段都有专门的提示词。评估和正确性阶段还配备了Python代码解释器，让AI能够执行代码片段、验证数学推导。重要性阶段则配有网络搜索工具，可以查询相关领域的已有工作。

第三步：自我批评与最终修订

生成初步评审后，系统会进入自我批评阶段——检查评审中是否存在无根据的主张、缺失的细节或前后矛盾。然后根据自我批评的结果修订生成最终评审。

整个系统使用OpenAI的GPT-5模型构建，具有400,000个token的上下文窗口。所有API调用在零数据保留协议下进行，资金来自OpenAI的API积分实物捐赠。

这套系统在不到24小时内，处理了全部22,977篇论文。每篇论文的成本不到1美元。

三、AI审得怎么样？数据给出了意外答案

为了评估AI审稿的质量，AAAI-26对作者、审稿人、高级程序委员会成员和领域主席进行了大规模调查，共收到5,834份有效回复。结果令人惊讶。

在9项评估标准中，AI评审在6项上获得了比人类评审更高的偏好评分，包括：

● 识别技术错误：AI领先+0.67分

● 提出之前未考虑过的问题：领先+0.61分

● 改进呈现方式的建议：领先+0.54分

● 研究设计改进建议：领先+0.49分

● 整体全面性：领先+0.48分

调查还显示：

● 53.9%的受访者认为AI评审有用

● 61.5%的受访者预期AI评审在未来同行评审中有用

● 55.6%的受访者表示AI评审展示了超出预期的能力

在SPECS基准测试（评估AI评审系统在故事、呈现、评估、正确性、重要性五个维度识别科学弱点的能力）中：

系统类型	弱点检测召回率
简单LLM生成评审	42.9%
AAAI-26多阶段AI系统	63.9%
提升幅度	21个百分点

这说明：架构设计比模型大小更重要。一个精心设计的多阶段流水线，远胜于简单的“把论文丢给大模型”。

四、AI不是来抢饭碗的——人类仍然在掌舵

看到这里，你可能会担心：AI是不是要取代审稿人了？

AAAI-26的答案是否定的。这个项目的核心设计原则是：不取代任何人类审稿人。

具体来说：

● AI评审是在第一阶段审稿中添加的，与至少两位人类评审并行

● AI评审不包含任何分数或推荐意见——它只提供分析性反馈

● 最终决策完全由人类控制（领域主席和高级程序委员会成员）

AAAI-26项目负责人、德克萨斯大学奥斯汀分校副教授Joydeep Biswas明确表示：“AI评审的目的是为同行评审过程提供额外输入，而不是替代人类的判断。”

这与参会者的感受一致。学者们普遍认为人机协同审稿是未来的方向——AI负责初筛、技术核查、格式检查，人类聚焦于创新性判断、重要性评估和伦理考量。

五、AI审稿的局限：能看清树木，但可能错过森林

当然，AI审稿并不完美。研究团队也坦诚地列出了当前系统的局限性：

1. 过分强调小问题：受访者认为AI评审比人类评审更可能过分强调次要问题

2. 评审偏长：AI生成的评审往往比人类评审更长（不过这个问题相对容易通过控制输出长度来改进）

3. 难以评估新颖性和重要性：这是人类评审仍然占优的领域

4. 复杂格式解析仍有错误：特殊图形、复杂表格仍可能导致OCR错误

5. 偶尔包含错误或不切实际的建议：比人类评审略多

一位受访者在定性反馈中写道：“AI帮我发现了三处我漏掉的实验细节问题，但它仍然需要我来判断：这些问题到底有多严重？”

用一句话总结：AI能数清每一棵树，但可能看不到森林的全貌。

这正是人机协同的价值所在——让AI做它擅长的事（系统性检查、一致性验证、技术细节核查），让人类做人类擅长的事（战略判断、创新性评估、上下文理解）。

六、这项实验意味着什么？

AAAI-26的AI审稿试点，是学术同行评审历史上的一个里程碑。

它证明了：在真实会议规模下，AI系统已经能够生成技术上可靠、对学者真正有用的评审意见。 22,977篇论文、不到24小时、每篇不到1美元——这些数字意味着，AI可以帮助学术界破解“投稿量暴涨但审稿人不够”的困局。

但它也划清了边界：AI是助手，不是替代者。最终的学术判断，仍然需要人类专家的智慧。

正如AAAI-26项目组在论文中所写：“最先进的AI方法已经能够为会议规模的科学同行评审做出有意义的贡献，为下一代用于评估研究的协同人机团队合作开辟了道路。”

人机协同的同行评审时代，正在到来。

AAAI 的试点证明了一件事：通用模型需要经过精细调整，才能在真实学术任务中变得可靠。而这恰好也是 LlamaFactory Online 一直在解决的问题——只不过场景不限于审稿，而是让更多人能以更低成本把大模型微调到自己的特定任务上。

AI当审稿人，得分比人类还高？AAAI-26的22,977篇论文实验

一、为什么需要AI来审稿？因为人真的忙不过来了

二、AI是怎么审稿的？一套“流水线”式的专业系统

三、AI审得怎么样？数据给出了意外答案

四、AI不是来抢饭碗的——人类仍然在掌舵

五、AI审稿的局限：能看清树木，但可能错过森林

六、这项实验意味着什么？

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AI当审稿人，得分比人类还高？AAAI-26的22,977篇论文实验

一、为什么需要AI来审稿？因为人真的忙不过来了

二、AI是怎么审稿的？一套“流水线”式的专业系统

三、AI审得怎么样？数据给出了意外答案

四、AI不是来抢饭碗的——人类仍然在掌舵

五、AI审稿的局限：能看清树木，但可能错过森林

六、这项实验意味着什么？

热门文章

最新文章

相关电子书