跳出 SOTA 内卷,我们发了个“好用至上”的文档解析模型

简介: MinerU2.5-Pro发布:不改1.2B模型架构,专注数据工程革新——通过多样性-难度感知采样、跨模型一致性验证、渲染校验迭代标注与三阶段分层训练,显著提升复杂表格、公式及非常规排版解析能力,在OmniDocBench v1.6达95.69分(SOTA),践行“好用至上”理念。

最新的MinerU2.5-Pro模型发布了。

但这次最想聊的,还不是它的排名。(预告下,文末还是会放成绩单)

这两年,大模型很热,OCR模型可能更热。

大家都在卷文档解析,具体卷什么呢?

卷架构,卷参数,卷谁又换了新的backbone,卷谁又把模型做得更复杂。但文档解析这件事,真还在“拼命改模型结构”这个阶段吗?团队认真研究了下,发现未必。

在最新的MinerU2.5-Pro这篇论文里讲得很直接:把多个不同架构、不同参数规模的主流模型,放到同一批真实世界PDF上做系统性交叉分析,最后看到一个很关键的现象——这些模型在同一批难样本上,失败模式高度一致。复杂嵌套表格,大家一起翻车;密集公式,大家一起丢符号;非常规排版,大家一起识别混乱。既然连不同路线的模型都会在同一个地方摔跤,那问题多半就不只是谁的模型架构设计得更巧,而是大家共用的训练数据,本身存在系统性短板。

这其实是个挺值得琢磨的判断。过去文档解析圈子里,一个很自然的思路是:效果不够,就改模型。但MinerU2.5-Pro这次偏偏反着来。模型架构,一行不改。对,就是这么干脆。论文里写得很清楚:MinerU2.5-Pro保持了MinerU2.5原有的1.2B参数架构完全不变,所有性能提升都来自数据工程和训练策略优化。不是换了新结构,不是堆了更大的模型,而是把所有精力押在“数据到底怎么做”这件事上


为什么敢这么做?因为看到了真正的瓶颈。

一边,是覆盖不够。团队在论文中提到,MinerU2.5之前的训练数据不到1000万页,而且高频类别占比过大,标准论文、单栏报告很多,但复杂嵌套表格、密集公式布局这些真正拉开差距的长尾场景,反而明显不足。另一边,是难样本标注难。越是能提升模型上限的数据,自动标注反而越不靠谱。表格结构容易错,公式转写容易偏,噪声一旦进了训练集,后面模型学到的东西也会跟着歪。

所以MinerU2.5-Pro这次干的,不是“换个模型再发一遍”。而是先把数据这口井,重新挖深


第一步,先把数据规模做大。

不是一般的大。

是从不到1000万,扩到6550万。这里真正重要的,不是“多了几倍”,而是如何变多。因为简单堆数据,很多时候只是把旧偏差再复制一遍。MinerU2.5-Pro用的是一套Diversity-and-Difficulty-Aware Sampling,也就是多样性—难度感知采样,不只是补量,更是补短板,专门去修正长尾场景覆盖不足的问题。


第二步,让多个模型互相“阅卷”。

这一步很妙。

一个样本到底难不难,让单个模型自己打分,容易被它的盲区骗到。那就换个办法:让多个异构模型分别去解析同一份文档,再看它们输出的一致性(背靠背打分)。论文里把这套方法叫Cross-Model Consistency Verification。更直白点说:大家都一致,就是Easy;外部模型一致、团队的模型偏差大,就是最有学习价值的Medium;所有模型都不一致,那就是真正的Hard。


第三步,专门啃最难的那批数据。

这也是最“费功夫”的地方。

因为Hard样本最值钱,但也最容易标错。于是MinerU2.5-Pro设计了一套Judge-and-Refine流水线。说人话,就是把模型输出的公式和表格重新渲染出来,再跟原始文档一起做视觉对照。以前是看代码、看字符串,现在是直接看“成品”有没有跑偏。一个对齐符号丢了,一个表格结构错了,渲染后往往会特别显眼。自动校正实在搞不定的,再交给人工专家处理。论文里把这叫render-then-verify iterative correction,更形象的解释就是,像让一个校对员直接看排版成品,而不是只审源代码。


第四步,数据分层,训练也分层。

这点也很关键。

不是所有数据都该一锅炖,也不是所有训练都该一步到位。MinerU2.5-Pro这次是三阶段渐进训练:先用大规模自动标注数据做预训练,再用高质量难样本精调,最后再用进一步对齐输出格式、结构习惯,以及任务级指标( 用GRPO做对齐)。论文里的消融结果给得很清楚:Stage 1带来+1.31,是最大单阶段增益;Stage 2再加+0.96,其中表格TEDS提升最明显;Stage 3再加+0.45,主要把公式CDM继续往上推。三步下来,把总分从92.98推到95.69。

说到底,这次MinerU2.5-Pro干成的,不是什么玄学。


它做的是一件很朴素、但行业里一直没有被系统做好过的事:把数据做得更全,把难样本找得更准,把标注做得更真

同样的模型架构,为什么最后能把分数继续往上顶?答案就在这张训练阶段消融表里:先做大规模训练,再攻难样本,最后用对齐训练把关键指标磨出来。


(在OmniDocBench v1.6 上的训练阶段消融实验)


这还没完。

MinerU2.5-Pro这次甚至连评测本身也一起往前推了一步。在做模型时发现,OmniDocBench v1.5的元素匹配逻辑存在系统性偏差:同样正确的解析结果,只因为输出分块粒度不同,比如一个多行公式被拆成多个单行,得分就可能差很多。这样一来,榜单看着热闹,比较却未必公平。

于是这次又做了OmniDocBench v1.6,发布出来了。团队引入多粒度自适应匹配,还单独加了Hard子集,把评测分成Base/Hard/Full三层。这样看成绩,才更接近真实能力。当然,团队也深知,评测榜单只可能无限逼近对模型真实能力进行公允的评价,却无法替代用户在使用时的真实主观感受。

写到这里,其实这篇文章真正想说的东西,已经差不多清楚了。这次发MinerU2.5-Pro,重点不只是“又做出一个更强的模型”。而是想回答一个更大的问题:当模型架构逐渐成熟,文档解析下一步到底该怎么往前走?

MinerU2.5-Pro给出的答案很明确:别只盯着架构,数据工程本身,就是增量。 在论文结论也说得很直白:在当前这个阶段,协同优化训练数据的覆盖度、信息量和标注准确性,带来的收益,可能比单纯继续改模型结构更大

这也正是“好用至上”这五个字背后的意思。

真正有需求的用户,没那么在乎你又换了什么模型新结构。

大家更在乎的是:

一份复杂论文,你能不能读准?

一个合同表格,你能不能抽全?

一页密集公式,你能不能少错几个符号?

一个表格内的图像和公式,你能不能解出来?

一个复杂版式的PDF,最后喂给知识库和Agent的数据,能不能真的可靠?


这些,才叫好用。

好了,讲到这里,也该看成绩单了。


(在 OmniDocBench v1.6 Base/Hard/Full 上的性能对比)


OmniDocBench v1.6上,MinerU2.5-Pro的综合得分做到95.69,从同架构基线92.98提升2.71;Base子集96.12,Hard子集94.08。其中,公式识别CDM 97.29、表格识别TEDS 93.42 都拿到了最佳表现;在Hard子集上,它比第二名92.01拉开了2.07分差。更关键的是,这一切是在1.2B参数、且不改模型架构的前提下实现的。论文里也明确写到,它超过了包括200倍以上参数规模模型在内的现有方法。


总之,这次最想讲的不只是“我们又拿了个SOTA”。而是:

跳出SOTA内卷,文档解析这件事,也许该重新回到“是不是真好用”上来了,能不能让用户使用的过程中觉得“真的好”,而不是卷在某个评测集上 的SOTA


从MinerU,到MinerU2.5,再到MinerU2.5-Pro,团队一直在做的,其实是同一件事:把文档解析这块地基打得更牢。目前,模型权重、推理代码和论文已经开源。本月,MinerU各类在线产品(含API)也会更新上线最强的MinerU2.5-Pro模型,并接入MinerU官方 Skill,用户一键安装就能体验。


榜单会变,SOTA会换,这都正常。

但“好用”这件事,不该跟着OCR的热度一起起落。它应该是一个更硬的标准:复杂文档来了,长尾场景来了,真到生产环境里了,到底好不要用。

说到底,benchmark上的分数是结果,排行是故事。而“好用”,才是文档解析领域真正的分量。


MinerU2.5-Pro模型(可下载模型进行体验)

● 论文地址:

https://arxiv.org/pdf/2604.04771

● HuggingFace的模型地址:

https://huggingface.co/opendatalab/MinerU2.5-Pro-2604-1.2B

● ModelScope的模型地址:

https://modelscope.cn/models/OpenDataLab/MinerU2.5-Pro-2604-1.2B

目录
相关文章
|
10天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34596 28
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
3天前
|
人工智能 机器人 开发工具
Windows 也能跑 Hermes Agent!完整安装教程 + 飞书接入,全程避坑
Hermes Agent 是一款自学习AI智能体系统,支持一键安装与飞书深度集成。本教程详解Windows下从零部署全流程,涵盖依赖自动安装、模型配置、飞书机器人接入及四大典型兼容性问题修复,助你快速构建企业级AI协作平台。(239字)
4318 10
|
5天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
4632 19
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
22天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45447 151
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
12天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
5218 21
|
4天前
|
机器学习/深度学习 存储 人工智能
还在手写Skill?hermes-agent 让 Agent 自己进化能力
Hermes-agent 是 GitHub 23k+ Star 的开源项目,突破传统 Agent 依赖人工编写Aegnt Skill 的瓶颈,首创“自我进化”机制:通过失败→反思→自动生成技能→持续优化的闭环,让 Agent 在实践中自主构建、更新技能库,持续自我改进。
1019 3

热门文章

最新文章

下一篇
开通oss服务