AI当审稿人,得分比人类还高?AAAI-26的22,977篇论文实验

简介: AAAI-26首次大规模部署AI审稿,处理22,977篇论文。调查显示,AI在技术错误识别等6项指标上获学者偏好评分高于人类。多阶段流水线设计是关键,而非简单调用大模型。

顶会投稿量暴涨近一倍,AI用不到一天审完2.3万篇论文,学者说:它比人审得好

如果告诉你,你投给顶会的论文,会有一个AI来审,你会怎么想?

这不是科幻小说。2026年4月15日,AAAI(人工智能促进协会)年会发布了一份重磅研究报告:AAAI-26首次大规模部署AI辅助审稿,22,977篇投稿论文,每一篇都收到了一份由AI生成的评审意见。

结果出人意料——参与调查的学者们不仅觉得AI审稿有用,而且在多个关键维度上,他们更偏好AI评审而非人类评审。

一、 为什么需要AI来审稿?因为人真的忙不过来了

AAAI-26的初始投稿量突破了30,000份,进入完整评审流程的论文为22,977篇——这个数字几乎是2025年的两倍(AAAI-25为12,957篇)。

这不是AAAI独有的烦恼。NeurIPS 2025收到了近3万篇投稿,CVPR、ICLR、ICML也无一例外,投稿量屡创新高。

投稿量翻倍意味着什么?

意味着需要更多的审稿人。AAAI-26为此招募了超过28,000名项目委员会成员、高级项目委员会成员和领域主席——几乎是前一年的三倍。意味着每位审稿人被分配了更多论文,审稿周期被压缩,经验不足的审稿人也被拉来“救火”。

屏幕截图 2026-04-19 110052.png

压力之下,传统的同行评审体系正在承受前所未有的考验。

正是在这个背景下,AAAI-26启动了AI辅助审稿试点项目——这是全球首次在大型学术会议上,对真实投稿进行大规模AI生成评审的实地部署。

二、 AI是怎么审稿的?一套“流水线”式的专业系统

你可能以为AI审稿就是把论文丢给ChatGPT让它写几句评语。AAAI-26的系统远比这复杂。

研究团队(来自德克萨斯大学奥斯汀分校、阿尔伯塔大学、密歇根大学等机构)开发了一套多阶段、多工具的AI审稿流水线。

第一步:论文预处理

系统将PDF论文中的所有图像重采样到250 DPI分辨率,然后用专门的OCR工具olmOCR将论文转换为markdown格式,保留LaTeX公式和表格结构。这样AI才能“读懂”论文。

第二步:五个核心评审维度

系统将评审任务拆解为五个专业阶段:

阶段 评估内容
故事(Story) 研究问题是否有意义、逻辑是否清晰
呈现(Presentation) 论文是否可读、结构是否连贯
评估(Evaluations) 实验和基线是否充分
正确性(Correctness) 方程、算法、结论是否站得住脚
重要性(Significance) 相对于已有工作是否有价值

每个阶段都有专门的提示词。评估和正确性阶段还配备了Python代码解释器,让AI能够执行代码片段、验证数学推导。重要性阶段则配有网络搜索工具,可以查询相关领域的已有工作。

第三步:自我批评与最终修订

生成初步评审后,系统会进入自我批评阶段——检查评审中是否存在无根据的主张、缺失的细节或前后矛盾。然后根据自我批评的结果修订生成最终评审。

整个系统使用OpenAI的GPT-5模型构建,具有400,000个token的上下文窗口。所有API调用在零数据保留协议下进行,资金来自OpenAI的API积分实物捐赠。

这套系统在不到24小时内,处理了全部22,977篇论文。每篇论文的成本不到1美元

三、 AI审得怎么样?数据给出了意外答案

为了评估AI审稿的质量,AAAI-26对作者、审稿人、高级程序委员会成员和领域主席进行了大规模调查,共收到5,834份有效回复。结果令人惊讶。

在9项评估标准中,AI评审在6项上获得了比人类评审更高的偏好评分,包括:

识别技术错误:AI领先+0.67分

提出之前未考虑过的问题:领先+0.61分

改进呈现方式的建议:领先+0.54分

研究设计改进建议:领先+0.49分

整体全面性:领先+0.48分

调查还显示:

53.9%的受访者认为AI评审有用

61.5%的受访者预期AI评审在未来同行评审中有用

55.6%的受访者表示AI评审展示了超出预期的能力

在SPECS基准测试(评估AI评审系统在故事、呈现、评估、正确性、重要性五个维度识别科学弱点的能力)中:

系统类型 弱点检测召回率
简单LLM生成评审 42.9%
AAAI-26多阶段AI系统 63.9%
提升幅度 21个百分点

这说明:架构设计比模型大小更重要。一个精心设计的多阶段流水线,远胜于简单的“把论文丢给大模型”。

四、 AI不是来抢饭碗的——人类仍然在掌舵

看到这里,你可能会担心:AI是不是要取代审稿人了?

AAAI-26的答案是否定的。这个项目的核心设计原则是:不取代任何人类审稿人

具体来说:

● AI评审是在第一阶段审稿中添加的,与至少两位人类评审并行

● AI评审不包含任何分数或推荐意见——它只提供分析性反馈

● 最终决策完全由人类控制(领域主席和高级程序委员会成员)

AAAI-26项目负责人、德克萨斯大学奥斯汀分校副教授Joydeep Biswas明确表示:“AI评审的目的是为同行评审过程提供额外输入,而不是替代人类的判断。”

这与参会者的感受一致。学者们普遍认为人机协同审稿是未来的方向——AI负责初筛、技术核查、格式检查,人类聚焦于创新性判断、重要性评估和伦理考量。

五、 AI审稿的局限:能看清树木,但可能错过森林

当然,AI审稿并不完美。研究团队也坦诚地列出了当前系统的局限性:

  1. 过分强调小问题:受访者认为AI评审比人类评审更可能过分强调次要问题

  2. 评审偏长:AI生成的评审往往比人类评审更长(不过这个问题相对容易通过控制输出长度来改进)

  3. 难以评估新颖性和重要性:这是人类评审仍然占优的领域

  4. 复杂格式解析仍有错误:特殊图形、复杂表格仍可能导致OCR错误

  5. 偶尔包含错误或不切实际的建议:比人类评审略多

一位受访者在定性反馈中写道:“AI帮我发现了三处我漏掉的实验细节问题,但它仍然需要我来判断:这些问题到底有多严重?”

用一句话总结:AI能数清每一棵树,但可能看不到森林的全貌

这正是人机协同的价值所在——让AI做它擅长的事(系统性检查、一致性验证、技术细节核查),让人类做人类擅长的事(战略判断、创新性评估、上下文理解)。

六、 这项实验意味着什么?

AAAI-26的AI审稿试点,是学术同行评审历史上的一个里程碑。

它证明了:在真实会议规模下,AI系统已经能够生成技术上可靠、对学者真正有用的评审意见。 22,977篇论文、不到24小时、每篇不到1美元——这些数字意味着,AI可以帮助学术界破解“投稿量暴涨但审稿人不够”的困局。

但它也划清了边界:AI是助手,不是替代者。最终的学术判断,仍然需要人类专家的智慧。

正如AAAI-26项目组在论文中所写:“最先进的AI方法已经能够为会议规模的科学同行评审做出有意义的贡献,为下一代用于评估研究的协同人机团队合作开辟了道路。”

人机协同的同行评审时代,正在到来

AAAI 的试点证明了一件事:通用模型需要经过精细调整,才能在真实学术任务中变得可靠。而这恰好也是 LlamaFactory Online 一直在解决的问题——只不过场景不限于审稿,而是让更多人能以更低成本把大模型微调到自己的特定任务上。

相关文章
|
18天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34830 46
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
12天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
11585 36
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
7天前
|
人工智能 JavaScript Ubuntu
低成本搭建AIP自动化写作系统:Hermes保姆级使用教程,长文和逐步实操贴图
我带着怀疑的态度,深度使用了几天,聚焦微信公众号AIP自动化写作场景,写出来的几篇文章,几乎没有什么修改,至少合乎我本人的意愿,而且排版风格,也越来越完善,同样是起码过得了我自己这一关。 这个其实OpenClaw早可以实现了,但是目前我觉得最大的区别是,Hermes会自主总结提炼,并更新你的写作技能。 相信就冲这一点,就值得一试。 这篇帖子主要就Hermes部署使用,作一个非常详细的介绍,几乎一步一贴图。 关于Hermes,无论你赞成哪种声音,我希望都是你自己动手行动过,发自内心的选择!
2424 24
|
29天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45740 157
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
5天前
|
人工智能 弹性计算 安全
Hermes Agent是什么?怎么部署?超详细实操教程
Hermes Agent 是 Nous Research 于2026年2月开源的自进化AI智能体,支持跨会话持久记忆、自动提炼可复用技能、多平台接入与200+模型切换,真正实现“越用越懂你”。MIT协议,部署灵活,隐私可控。
1654 3
|
12天前
|
机器学习/深度学习 存储 人工智能
还在手写Skill?hermes-agent 让 Agent 自己进化能力
Hermes-agent 是 GitHub 23k+ Star 的开源项目,突破传统 Agent 依赖人工编写Aegnt Skill 的瓶颈,首创“自我进化”机制:通过失败→反思→自动生成技能→持续优化的闭环,让 Agent 在实践中自主构建、更新技能库,持续自我改进。
1802 6

热门文章

最新文章

下一篇
开通oss服务