跳出 SOTA 内卷，我们发了个“好用至上”的文档解析模型-阿里云开发者社区

最新的MinerU2.5-Pro模型发布了。

但这次最想聊的，还不是它的排名。（预告下，文末还是会放成绩单）

这两年，大模型很热，OCR模型可能更热。

大家都在卷文档解析，具体卷什么呢？

卷架构，卷参数，卷谁又换了新的backbone，卷谁又把模型做得更复杂。但文档解析这件事，真还在“拼命改模型结构”这个阶段吗？团队认真研究了下，发现未必。

在最新的MinerU2.5-Pro这篇论文里讲得很直接：把多个不同架构、不同参数规模的主流模型，放到同一批真实世界PDF上做系统性交叉分析，最后看到一个很关键的现象——这些模型在同一批难样本上，失败模式高度一致。复杂嵌套表格，大家一起翻车；密集公式，大家一起丢符号；非常规排版，大家一起识别混乱。既然连不同路线的模型都会在同一个地方摔跤，那问题多半就不只是谁的模型架构设计得更巧，而是大家共用的训练数据，本身存在系统性短板。

这其实是个挺值得琢磨的判断。过去文档解析圈子里，一个很自然的思路是：效果不够，就改模型。但MinerU2.5-Pro这次偏偏反着来。模型架构，一行不改。对，就是这么干脆。论文里写得很清楚：MinerU2.5-Pro保持了MinerU2.5原有的1.2B参数架构完全不变，所有性能提升都来自数据工程和训练策略优化。不是换了新结构，不是堆了更大的模型，而是把所有精力押在“数据到底怎么做”这件事上。

为什么敢这么做？因为看到了真正的瓶颈。

一边，是覆盖不够。团队在论文中提到，MinerU2.5之前的训练数据不到1000万页，而且高频类别占比过大，标准论文、单栏报告很多，但复杂嵌套表格、密集公式布局这些真正拉开差距的长尾场景，反而明显不足。另一边，是难样本标注难。越是能提升模型上限的数据，自动标注反而越不靠谱。表格结构容易错，公式转写容易偏，噪声一旦进了训练集，后面模型学到的东西也会跟着歪。

所以MinerU2.5-Pro这次干的，不是“换个模型再发一遍”。而是先把数据这口井，重新挖深。

第一步，先把数据规模做大。

不是一般的大。

是从不到1000万，扩到6550万。这里真正重要的，不是“多了几倍”，而是如何变多。因为简单堆数据，很多时候只是把旧偏差再复制一遍。MinerU2.5-Pro用的是一套Diversity-and-Difficulty-Aware Sampling，也就是多样性—难度感知采样，不只是补量，更是补短板，专门去修正长尾场景覆盖不足的问题。

第二步，让多个模型互相“阅卷”。

这一步很妙。

一个样本到底难不难，让单个模型自己打分，容易被它的盲区骗到。那就换个办法：让多个异构模型分别去解析同一份文档，再看它们输出的一致性（背靠背打分）。论文里把这套方法叫Cross-Model Consistency Verification。更直白点说：大家都一致，就是Easy；外部模型一致、团队的模型偏差大，就是最有学习价值的Medium；所有模型都不一致，那就是真正的Hard。

第三步，专门啃最难的那批数据。

这也是最“费功夫”的地方。

因为Hard样本最值钱，但也最容易标错。于是MinerU2.5-Pro设计了一套Judge-and-Refine流水线。说人话，就是把模型输出的公式和表格重新渲染出来，再跟原始文档一起做视觉对照。以前是看代码、看字符串，现在是直接看“成品”有没有跑偏。一个对齐符号丢了，一个表格结构错了，渲染后往往会特别显眼。自动校正实在搞不定的，再交给人工专家处理。论文里把这叫render-then-verify iterative correction，更形象的解释就是，像让一个校对员直接看排版成品，而不是只审源代码。

第四步，数据分层，训练也分层。

这点也很关键。

不是所有数据都该一锅炖，也不是所有训练都该一步到位。MinerU2.5-Pro这次是三阶段渐进训练：先用大规模自动标注数据做预训练，再用高质量难样本精调，最后再用进一步对齐输出格式、结构习惯，以及任务级指标（用GRPO做对齐）。论文里的消融结果给得很清楚：Stage 1带来+1.31，是最大单阶段增益；Stage 2再加+0.96，其中表格TEDS提升最明显；Stage 3再加+0.45，主要把公式CDM继续往上推。三步下来，把总分从92.98推到95.69。

说到底，这次MinerU2.5-Pro干成的，不是什么玄学。

它做的是一件很朴素、但行业里一直没有被系统做好过的事：把数据做得更全，把难样本找得更准，把标注做得更真。

同样的模型架构，为什么最后能把分数继续往上顶？答案就在这张训练阶段消融表里：先做大规模训练，再攻难样本，最后用对齐训练把关键指标磨出来。

（在OmniDocBench v1.6 上的训练阶段消融实验）

这还没完。

MinerU2.5-Pro这次甚至连评测本身也一起往前推了一步。在做模型时发现，OmniDocBench v1.5的元素匹配逻辑存在系统性偏差：同样正确的解析结果，只因为输出分块粒度不同，比如一个多行公式被拆成多个单行，得分就可能差很多。这样一来，榜单看着热闹，比较却未必公平。

于是这次又做了OmniDocBench v1.6，发布出来了。团队引入多粒度自适应匹配，还单独加了Hard子集，把评测分成Base/Hard/Full三层。这样看成绩，才更接近真实能力。当然，团队也深知，评测榜单只可能无限逼近对模型真实能力进行公允的评价，却无法替代用户在使用时的真实主观感受。

写到这里，其实这篇文章真正想说的东西，已经差不多清楚了。这次发MinerU2.5-Pro，重点不只是“又做出一个更强的模型”。而是想回答一个更大的问题：当模型架构逐渐成熟，文档解析下一步到底该怎么往前走？

MinerU2.5-Pro给出的答案很明确：别只盯着架构，数据工程本身，就是增量。在论文结论也说得很直白：在当前这个阶段，协同优化训练数据的覆盖度、信息量和标注准确性，带来的收益，可能比单纯继续改模型结构更大。

这也正是“好用至上”这五个字背后的意思。

真正有需求的用户，没那么在乎你又换了什么模型新结构。

大家更在乎的是：

一份复杂论文，你能不能读准？

一个合同表格，你能不能抽全？

一页密集公式，你能不能少错几个符号？

一个表格内的图像和公式，你能不能解出来？

一个复杂版式的PDF，最后喂给知识库和Agent的数据，能不能真的可靠？

这些，才叫好用。

好了，讲到这里，也该看成绩单了。

（在 OmniDocBench v1.6 Base/Hard/Full 上的性能对比）

OmniDocBench v1.6上，MinerU2.5-Pro的综合得分做到95.69，从同架构基线92.98提升2.71；Base子集96.12，Hard子集94.08。其中，公式识别CDM 97.29、表格识别TEDS 93.42 都拿到了最佳表现；在Hard子集上，它比第二名92.01拉开了2.07分差。更关键的是，这一切是在1.2B参数、且不改模型架构的前提下实现的。论文里也明确写到，它超过了包括200倍以上参数规模模型在内的现有方法。

总之，这次最想讲的不只是“我们又拿了个SOTA”。而是：

跳出SOTA内卷，文档解析这件事，也许该重新回到“是不是真好用”上来了，能不能让用户使用的过程中觉得“真的好”，而不是卷在某个评测集上的SOTA。

从MinerU，到MinerU2.5，再到MinerU2.5-Pro，团队一直在做的，其实是同一件事：把文档解析这块地基打得更牢。目前，模型权重、推理代码和论文已经开源。本月，MinerU各类在线产品（含API）也会更新上线最强的MinerU2.5-Pro模型，并接入MinerU官方 Skill，用户一键安装就能体验。

榜单会变，SOTA会换，这都正常。

但“好用”这件事，不该跟着OCR的热度一起起落。它应该是一个更硬的标准：复杂文档来了，长尾场景来了，真到生产环境里了，到底好不要用。

说到底，benchmark上的分数是结果，排行是故事。而“好用”，才是文档解析领域真正的分量。

MinerU2.5-Pro模型（可下载模型进行体验）

● 论文地址：

https://arxiv.org/pdf/2604.04771

● HuggingFace的模型地址：

https://huggingface.co/opendatalab/MinerU2.5-Pro-2604-1.2B

● ModelScope的模型地址：

https://modelscope.cn/models/OpenDataLab/MinerU2.5-Pro-2604-1.2B

跳出 SOTA 内卷，我们发了个“好用至上”的文档解析模型

ModelScope模型即服务

热门文章

最新文章

相关电子书