AI当审稿人，得分比人类还高？AAAI-26的22,977篇论文实验-阿里云开发者社区

AI当审稿人，得分比人类还高？AAAI-26的22,977篇论文实验

2026-04-20 24

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AAAI-26首次大规模部署AI审稿，处理22,977篇论文。调查显示，AI在技术错误识别等6项指标上获学者偏好评分高于人类。多阶段流水线设计是关键，而非简单调用大模型。

顶会投稿量暴涨近一倍，AI用不到一天审完2.3万篇论文，学者说：它比人审得好

如果告诉你，你投给顶会的论文，会有一个AI来审，你会怎么想？

这不是科幻小说。2026年4月15日，AAAI（人工智能促进协会）年会发布了一份重磅研究报告：AAAI-26首次大规模部署AI辅助审稿，22,977篇投稿论文，每一篇都收到了一份由AI生成的评审意见。

结果出人意料——参与调查的学者们不仅觉得AI审稿有用，而且在多个关键维度上，他们更偏好AI评审而非人类评审。

一、为什么需要AI来审稿？因为人真的忙不过来了

AAAI-26的初始投稿量突破了30,000份，进入完整评审流程的论文为22,977篇——这个数字几乎是2025年的两倍（AAAI-25为12,957篇）。

这不是AAAI独有的烦恼。NeurIPS 2025收到了近3万篇投稿，CVPR、ICLR、ICML也无一例外，投稿量屡创新高。

投稿量翻倍意味着什么？

意味着需要更多的审稿人。AAAI-26为此招募了超过28,000名项目委员会成员、高级项目委员会成员和领域主席——几乎是前一年的三倍。意味着每位审稿人被分配了更多论文，审稿周期被压缩，经验不足的审稿人也被拉来“救火”。

屏幕截图 2026-04-19 110052.png

压力之下，传统的同行评审体系正在承受前所未有的考验。

正是在这个背景下，AAAI-26启动了AI辅助审稿试点项目——这是全球首次在大型学术会议上，对真实投稿进行大规模AI生成评审的实地部署。

二、 AI是怎么审稿的？一套“流水线”式的专业系统

你可能以为AI审稿就是把论文丢给ChatGPT让它写几句评语。AAAI-26的系统远比这复杂。

研究团队（来自德克萨斯大学奥斯汀分校、阿尔伯塔大学、密歇根大学等机构）开发了一套多阶段、多工具的AI审稿流水线。

第一步：论文预处理

系统将PDF论文中的所有图像重采样到250 DPI分辨率，然后用专门的OCR工具olmOCR将论文转换为markdown格式，保留LaTeX公式和表格结构。这样AI才能“读懂”论文。

第二步：五个核心评审维度

系统将评审任务拆解为五个专业阶段：

阶段	评估内容
故事（Story）	研究问题是否有意义、逻辑是否清晰
呈现（Presentation）	论文是否可读、结构是否连贯
评估（Evaluations）	实验和基线是否充分
正确性（Correctness）	方程、算法、结论是否站得住脚
重要性（Significance）	相对于已有工作是否有价值

每个阶段都有专门的提示词。评估和正确性阶段还配备了Python代码解释器，让AI能够执行代码片段、验证数学推导。重要性阶段则配有网络搜索工具，可以查询相关领域的已有工作。

第三步：自我批评与最终修订

生成初步评审后，系统会进入自我批评阶段——检查评审中是否存在无根据的主张、缺失的细节或前后矛盾。然后根据自我批评的结果修订生成最终评审。

整个系统使用OpenAI的GPT-5模型构建，具有400,000个token的上下文窗口。所有API调用在零数据保留协议下进行，资金来自OpenAI的API积分实物捐赠。

这套系统在不到24小时内，处理了全部22,977篇论文。每篇论文的成本不到1美元。

三、 AI审得怎么样？数据给出了意外答案

为了评估AI审稿的质量，AAAI-26对作者、审稿人、高级程序委员会成员和领域主席进行了大规模调查，共收到5,834份有效回复。结果令人惊讶。

在9项评估标准中，AI评审在6项上获得了比人类评审更高的偏好评分，包括：

● 识别技术错误：AI领先+0.67分

● 提出之前未考虑过的问题：领先+0.61分

● 改进呈现方式的建议：领先+0.54分

● 研究设计改进建议：领先+0.49分

● 整体全面性：领先+0.48分

调查还显示：

● 53.9%的受访者认为AI评审有用

● 61.5%的受访者预期AI评审在未来同行评审中有用

● 55.6%的受访者表示AI评审展示了超出预期的能力

在SPECS基准测试（评估AI评审系统在故事、呈现、评估、正确性、重要性五个维度识别科学弱点的能力）中：

系统类型	弱点检测召回率
简单LLM生成评审	42.9%
AAAI-26多阶段AI系统	63.9%
提升幅度	21个百分点

这说明：架构设计比模型大小更重要。一个精心设计的多阶段流水线，远胜于简单的“把论文丢给大模型”。

四、 AI不是来抢饭碗的——人类仍然在掌舵

看到这里，你可能会担心：AI是不是要取代审稿人了？

AAAI-26的答案是否定的。这个项目的核心设计原则是：不取代任何人类审稿人。

具体来说：

● AI评审是在第一阶段审稿中添加的，与至少两位人类评审并行

● AI评审不包含任何分数或推荐意见——它只提供分析性反馈

● 最终决策完全由人类控制（领域主席和高级程序委员会成员）

AAAI-26项目负责人、德克萨斯大学奥斯汀分校副教授Joydeep Biswas明确表示：“AI评审的目的是为同行评审过程提供额外输入，而不是替代人类的判断。”

这与参会者的感受一致。学者们普遍认为人机协同审稿是未来的方向——AI负责初筛、技术核查、格式检查，人类聚焦于创新性判断、重要性评估和伦理考量。

五、 AI审稿的局限：能看清树木，但可能错过森林

当然，AI审稿并不完美。研究团队也坦诚地列出了当前系统的局限性：

过分强调小问题：受访者认为AI评审比人类评审更可能过分强调次要问题
评审偏长：AI生成的评审往往比人类评审更长（不过这个问题相对容易通过控制输出长度来改进）
难以评估新颖性和重要性：这是人类评审仍然占优的领域
复杂格式解析仍有错误：特殊图形、复杂表格仍可能导致OCR错误
偶尔包含错误或不切实际的建议：比人类评审略多

一位受访者在定性反馈中写道：“AI帮我发现了三处我漏掉的实验细节问题，但它仍然需要我来判断：这些问题到底有多严重？”

用一句话总结：AI能数清每一棵树，但可能看不到森林的全貌。

这正是人机协同的价值所在——让AI做它擅长的事（系统性检查、一致性验证、技术细节核查），让人类做人类擅长的事（战略判断、创新性评估、上下文理解）。

六、这项实验意味着什么？

AAAI-26的AI审稿试点，是学术同行评审历史上的一个里程碑。

它证明了：在真实会议规模下，AI系统已经能够生成技术上可靠、对学者真正有用的评审意见。 22,977篇论文、不到24小时、每篇不到1美元——这些数字意味着，AI可以帮助学术界破解“投稿量暴涨但审稿人不够”的困局。

但它也划清了边界：AI是助手，不是替代者。最终的学术判断，仍然需要人类专家的智慧。

正如AAAI-26项目组在论文中所写：“最先进的AI方法已经能够为会议规模的科学同行评审做出有意义的贡献，为下一代用于评估研究的协同人机团队合作开辟了道路。”

人机协同的同行评审时代，正在到来。

AAAI 的试点证明了一件事：通用模型需要经过精细调整，才能在真实学术任务中变得可靠。而这恰好也是 LlamaFactory Online 一直在解决的问题——只不过场景不限于审稿，而是让更多人能以更低成本把大模型微调到自己的特定任务上。

AI当审稿人，得分比人类还高？AAAI-26的22,977篇论文实验

一、为什么需要AI来审稿？因为人真的忙不过来了

二、 AI是怎么审稿的？一套“流水线”式的专业系统

三、 AI审得怎么样？数据给出了意外答案

四、 AI不是来抢饭碗的——人类仍然在掌舵

五、 AI审稿的局限：能看清树木，但可能错过森林

六、这项实验意味着什么？

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AI当审稿人，得分比人类还高？AAAI-26的22,977篇论文实验

一、 为什么需要AI来审稿？因为人真的忙不过来了

二、 AI是怎么审稿的？一套“流水线”式的专业系统

三、 AI审得怎么样？数据给出了意外答案

四、 AI不是来抢饭碗的——人类仍然在掌舵

五、 AI审稿的局限：能看清树木，但可能错过森林

六、 这项实验意味着什么？

热门文章

最新文章

相关电子书

一、为什么需要AI来审稿？因为人真的忙不过来了

六、这项实验意味着什么？