AI当审稿人,得分比人类还高?AAAI-26的22,977篇论文实验

简介: AAAI-26首次大规模部署AI审稿,处理22,977篇论文。调查显示,AI在技术错误识别等6项指标上获学者偏好评分高于人类。多阶段流水线设计是关键,而非简单调用大模型。

顶会投稿量暴涨近一倍,AI用不到一天审完2.3万篇论文,学者说:它比人审得好

 

如果告诉你,你投给顶会的论文,会有一个AI来审,你会怎么想?

 

这不是科幻小说。2026年4月15日,AAAI(人工智能促进协会)年会发布了一份重磅研究报告:AAAI-26首次大规模部署AI辅助审稿,22,977篇投稿论文,每一篇都收到了一份由AI生成的评审意见。

 

结果出人意料——参与调查的学者们不仅觉得AI审稿有用,而且在多个关键维度上,他们更偏好AI评审而非人类评审

 

 一、为什么需要AI来审稿?因为人真的忙不过来了

 

AAAI-26的初始投稿量突破了30,000份,进入完整评审流程的论文为22,977篇——这个数字几乎是2025年的两倍(AAAI-25为12,957篇)。

 

这不是AAAI独有的烦恼。NeurIPS 2025收到了近3万篇投稿,CVPR、ICLR、ICML也无一例外,投稿量屡创新高。

 

投稿量翻倍意味着什么?

 

意味着需要更多的审稿人。AAAI-26为此招募了超过28,000名项目委员会成员、高级项目委员会成员和领域主席——几乎是前一年的三倍。意味着每位审稿人被分配了更多论文,审稿周期被压缩,经验不足的审稿人也被拉来“救火”。

 

 

压力之下,传统的同行评审体系正在承受前所未有的考验。

 

正是在这个背景下,AAAI-26启动了AI辅助审稿试点项目——这是全球首次在大型学术会议上,对真实投稿进行大规模AI生成评审的实地部署。

 

二、AI是怎么审稿的?一套“流水线”式的专业系统

 

你可能以为AI审稿就是把论文丢给ChatGPT让它写几句评语。AAAI-26的系统远比这复杂。

研究团队(来自德克萨斯大学奥斯汀分校、阿尔伯塔大学、密歇根大学等机构)开发了一套多阶段、多工具的AI审稿流水线

 

第一步:论文预处理

系统将PDF论文中的所有图像重采样到250 DPI分辨率,然后用专门的OCR工具olmOCR将论文转换为markdown格式,保留LaTeX公式和表格结构。这样AI才能“读懂”论文。

 

第二步:五个核心评审维度

系统将评审任务拆解为五个专业阶段:

 

阶段

评估内容

故事(Story)

研究问题是否有意义、逻辑是否清晰

呈现(Presentation)

论文是否可读、结构是否连贯

评估(Evaluations)

实验和基线是否充分

正确性(Correctness)

方程、算法、结论是否站得住脚

重要性(Significance)

相对于已有工作是否有价值

 

每个阶段都有专门的提示词。评估和正确性阶段还配备了Python代码解释器,让AI能够执行代码片段、验证数学推导。重要性阶段则配有网络搜索工具,可以查询相关领域的已有工作。

 

第三步:自我批评与最终修订

生成初步评审后,系统会进入自我批评阶段——检查评审中是否存在无根据的主张、缺失的细节或前后矛盾。然后根据自我批评的结果修订生成最终评审。

整个系统使用OpenAI的GPT-5模型构建,具有400,000个token的上下文窗口。所有API调用在零数据保留协议下进行,资金来自OpenAI的API积分实物捐赠。

这套系统在不到24小时内,处理了全部22,977篇论文。每篇论文的成本不到1美元。

三、AI审得怎么样?数据给出了意外答案

 

为了评估AI审稿的质量,AAAI-26对作者、审稿人、高级程序委员会成员和领域主席进行了大规模调查,共收到5,834份有效回复。结果令人惊讶。

 

9项评估标准中,AI评审在6项上获得了比人类评审更高的偏好评分,包括:

 

               识别技术错误:AI领先+0.67分

               提出之前未考虑过的问题:领先+0.61分

               改进呈现方式的建议:领先+0.54分

               研究设计改进建议:领先+0.49分

               整体全面性:领先+0.48分

 

调查还显示:

 

               53.9%的受访者认为AI评审有用

               61.5%的受访者预期AI评审在未来同行评审中有用

               55.6%的受访者表示AI评审展示了超出预期的能力

 

SPECS基准测试(评估AI评审系统在故事、呈现、评估、正确性、重要性五个维度识别科学弱点的能力)中:

 

系统类型

弱点检测召回率

简单LLM生成评审

42.9%

AAAI-26多阶段AI系统

63.9%

提升幅度

21个百分点

 

这说明:架构设计比模型大小更重要。一个精心设计的多阶段流水线,远胜于简单的“把论文丢给大模型”。

 

四、AI不是来抢饭碗的——人类仍然在掌舵

 

看到这里,你可能会担心:AI是不是要取代审稿人了?

 

AAAI-26的答案是否定的。这个项目的核心设计原则是:不取代任何人类审稿人

 

具体来说:

               AI评审是在第一阶段审稿中添加的,与至少两位人类评审并行

               AI评审不包含任何分数或推荐意见——它只提供分析性反馈

               最终决策完全由人类控制(领域主席和高级程序委员会成员)

 

AAAI-26项目负责人、德克萨斯大学奥斯汀分校副教授Joydeep Biswas明确表示:“AI评审的目的是为同行评审过程提供额外输入,而不是替代人类的判断。”

这与参会者的感受一致。学者们普遍认为人机协同审稿是未来的方向——AI负责初筛、技术核查、格式检查,人类聚焦于创新性判断、重要性评估和伦理考量。

 

五、AI审稿的局限:能看清树木,但可能错过森林

 

当然,AI审稿并不完美。研究团队也坦诚地列出了当前系统的局限性:

 

           1.    过分强调小问题:受访者认为AI评审比人类评审更可能过分强调次要问题

           2.    评审偏长:AI生成的评审往往比人类评审更长(不过这个问题相对容易通过控制输出长度来改进)

           3.    难以评估新颖性和重要性:这是人类评审仍然占优的领域

           4.    复杂格式解析仍有错误:特殊图形、复杂表格仍可能导致OCR错误

           5.    偶尔包含错误或不切实际的建议:比人类评审略多

 

一位受访者在定性反馈中写道:“AI帮我发现了三处我漏掉的实验细节问题,但它仍然需要我来判断:这些问题到底有多严重?”

 

用一句话总结:AI能数清每一棵树,但可能看不到森林的全貌。

 

这正是人机协同的价值所在——让AI做它擅长的事(系统性检查、一致性验证、技术细节核查),让人类做人类擅长的事(战略判断、创新性评估、上下文理解)。

 

六、这项实验意味着什么?

 

AAAI-26的AI审稿试点,是学术同行评审历史上的一个里程碑。

 

它证明了:在真实会议规模下,AI系统已经能够生成技术上可靠、对学者真正有用的评审意见。 22,977篇论文、不到24小时、每篇不到1美元——这些数字意味着,AI可以帮助学术界破解“投稿量暴涨但审稿人不够”的困局。

 

但它也划清了边界:AI是助手,不是替代者。最终的学术判断,仍然需要人类专家的智慧。

 

正如AAAI-26项目组在论文中所写:“最先进的AI方法已经能够为会议规模的科学同行评审做出有意义的贡献,为下一代用于评估研究的协同人机团队合作开辟了道路。”

 

人机协同的同行评审时代,正在到来。

 

AAAI 的试点证明了一件事:通用模型需要经过精细调整,才能在真实学术任务中变得可靠。而这恰好也是 LlamaFactory Online 一直在解决的问题——只不过场景不限于审稿,而是让更多人能以更低成本把大模型微调到自己的特定任务上。

目录
相关文章
|
4月前
|
人工智能 搜索推荐 物联网
告别深夜批改:用Qwen3-VL大模型打造会“理解”的作文阅卷助手
基于Qwen3-VL打造作文阅卷助手,通过对300篇高中作文进行LoRA微调,将教师从繁重批改中解放,更通过即时、客观的反馈助力学生写作能力提升,展现了垂直领域大模型应用的实用价值与高效落地路径。
633 2
|
5月前
|
机器学习/深度学习 人工智能 数据处理
我用单张显卡跑了个“法律顾问”,靠它成功追回了加班费
面对劳动纠纷,你是否因法律条款难懂、律师费用高昂而束手无策?本文分享如何用单张显卡本地部署Qwen3-8B模型,结合RAG技术打造专属劳动法AI顾问。相比通用模型,该系统能精准解析加班费争议、证据链构建等实战问题,提供可操作的仲裁策略。从数据处理到服务上线,全流程轻量高效,助力普通人也能“专业维权”。
515 152
|
1月前
|
机器学习/深度学习 人工智能 JSON
从“脸盲”到“火眼金睛”:我用Qwen3.5教会AI看懂春晚同款机器人
春晚人形机器人刷屏,你的 AI 能认出几个?基于 LlamaFactory Online 微调 Qwen3.5-35B-A3B,数百条数据一键训练,模型可精准识别宇树 H1 及应用场景,准确率大幅提升,彰显平台化工具垂直落地价值。
494 2
|
5月前
|
数据采集 人工智能 搜索推荐
别再“调教”ChatGPT了!用Qwen2.5打造24小时在线数字分身
在AI时代,专属“数字分身”正从科幻走向现实。依托Qwen2.5-14B大模型、LoRA微调技术及LLaMA-Factory Online平台,仅需四步即可打造会说话、懂风格、能办事的个性化AI助手,让每个人拥有自己的“贾维斯”。
840 153
|
人工智能 安全 物联网
还在做93道MBTI选择题?我们训了个AI,聊8句就能看透你
还在为做93道MBTI选择题纠结不已吗?我们开发了一款AI,只需与你进行8轮自然聊天,就能看透你的性格底色,准确率高达99%。其核心在于我们设计了能绕开自我评估的多轮对话数据集,并通过高效微调让模型掌握了分析技巧。测试表明,AI在MBTI四个维度上的判断均表现优秀,真正实现了“对话即测评”。
244 0
还在做93道MBTI选择题?我们训了个AI,聊8句就能看透你
|
6月前
|
人工智能 架构师 物联网
2小时打造专业医疗助手:基于CareGPT与Qwen3-8B的微调实战
基于CareGPT和Qwen3-8B模型,采用LoRA方法在专业医疗数据集上进行微调实践,该技术方案在保持模型通用能力的同时,显著提升了医疗问答的专业性和实用性,系统性地构建一个真正“懂症状、能判断”的智能医疗助手。从技术演进角度看,微调后的模型与医疗系统深度融合将释放更大价值。这种"领域微调+系统集成"的技术路径,为AI在医疗等专业场景的落地提供了经过验证的解决方案。
739 3
|
3月前
|
人工智能 自然语言处理 安全
别让你的私有模型变成“泄密高手”:微调中那些看不见的陷阱
本文深度剖析大模型微调的安全隐患:内网私有化部署下,微调实为“记忆重塑”,易致敏感信息固化泄露。详解记忆密度质变、过拟合风险与模型无“羞耻感”等底层机制,并提供数据深度清洗、PEFT/差分隐私微调、红蓝对抗测试等实操方案,强调RAG替代策略,助企业安全落地。
215 0
|
2月前
|
传感器 JSON 前端开发
深度复盘:Qwen3-4B-Instruct-2507微调实战——打造“快思考、强执行”的 ReAct IoT Agent
随着大模型与物联网的深度融合,传统“指令—执行”式的智能家居系统已难以应对真实场景中复杂、模糊的用户需求。为此,我们推出IoT Agent v3.2——一个基于ReAct(Reasoning + Acting)架构的主动式物联网智能体,旨在从“被动执行者”进化为具备主动感知、逻辑推理、动态技能调用能力的“全能管家”。本文将全面解析其设计理念、数据集构建、工程实现与训练过程,为行业提供可复用的最佳实践案例。
506 0
深度复盘:Qwen3-4B-Instruct-2507微调实战——打造“快思考、强执行”的 ReAct IoT Agent
|
3月前
|
人工智能 数据可视化 物联网
《显卡 4090 就能跑!小白也能炼出私有大模型》
大模型微调是AI落地的关键技术,通过定向训练让通用模型在特定领域“从会到精”。本文详解微调原理、LoRA/QLoRA等高效方法,并提供评估与实操建议,助力新手快速上手,实现低成本、高精度的模型定制。
511 4