小红书开源FireRed-OCR,2B 参数登顶文档解析榜单

简介: 小红书FireRed团队开源的FireRed-OCR(仅20亿参数),在OmniDocBench v1.5端到端评测中以92.94%综合得分登顶,超越Gemini 3.0 Pro等大模型。专注解决文档解析中的“结构幻觉”问题,通过三阶段训练+格式约束强化学习,精准还原表格、公式、多栏等复杂结构。Apache 2.0协议,ModelScope开源,支持本地商用部署。(239字)

来自小红书超级智能团队的 FireRed-OCR,以仅 20 亿参数的轻量模型,在权威文档解析基准 OmniDocBench v1.5 上拿下端到端方案第一,综合得分 92.94%,超越 Gemini 3.0 Pro、DeepSeek-OCR 2 和 Qwen3-VL-235B。

模型已在ModelScope 开源,感兴趣可以直接体验 Demo 或下载权重本地部署,采用Apache 2.0协议,代码和权重均可商用,无需担心授权问题。

  • Model: https://modelscope.cn/models/FireRedTeam/FireRed-OCR
  • Demo: https://www.modelscope.cn/studios/FireRedTeam/FireRed-OCR
  • GitHub: http://github.com/FireRedTeam/FireRed-OCR
  • Technical report:https://github.com/FireRedTeam/FireRed-OCR/blob/main/assets/FireRed_OCR_Technical_Report.pdf

它解决了什么问题?

文档数字化是 AI 落地的重要一环——把 PDF、扫描件、学术论文转成结构化文本,才能喂给下游的 RAG、知识库、数据分析流程。

但通用大视觉语言模型(VLM)在处理复杂文档时,存在一个普遍痛点:"结构幻觉"。

什么叫结构幻觉?举几个典型例子:

  • 表格行列顺序被打乱,数据张冠李戴
  • 数学公式被"创作"出来,凭空多出符号
  • 多栏文档阅读顺序混乱,跨栏串行

这不是偶发 bug,而是通用 VLM 的天然缺陷——它们在训练的时候,更加擅长生成语义连贯的文字,但对文档的像素级空间结构缺乏精确约束。

FireRed-OCR 的思路是:把通用 VLM 改造成"结构工程师",用系统化的训练框架,让模型对格式语法拥有强制约束能力。

核心技术:三阶段渐进式训练

FireRed-OCR 并非简单微调,而是设计了一套完整的三阶段训练流水线:

第一阶段:多任务预对齐

在视觉感知层面建立"空间基础"。模型先学会目标检测、区域识别、版面到 Markdown 的映射,打好空间定位的底子。

第二阶段:专项监督微调(SFT)

在高质量、规范化的 Markdown 数据集上精调,确保输出具备逻辑一致性和层级表达能力。这一步把模型的输出风格统一成标准化结构。

第三阶段:格式约束强化学习(Format-Constrained GRPO)

这是整个框架最核心的创新。GRPO(组相对策略优化)是一种强化学习方法,FireRed-OCR 在此基础上引入了专门的格式奖励信号,覆盖四个维度:

  • 公式语法正确性(LaTeX 是否合法)
  • 表格结构完整性(标签是否闭合)
  • 层级标签闭合性(Markdown 嵌套是否正确)
  • 文本准确率(字符级别的识别精度)

简单说:模型每输出一次结果,系统就从这四个维度打分,反馈给模型自我纠正。长期下来,模型"学会了"格式守规矩。


数据引擎同样是亮点

团队还开发了一套"几何 + 语义"数据工厂:用几何特征聚类和多维度标注,合成均衡的训练数据集,专门针对长尾版式(比如奇特的多栏、嵌套表格)做数据增强,解决了真实世界文档分布不均衡的问题。

模型效果

OmniDocBench v1.5(标准文档解析基准)

FireRed-OCR-2B 在端到端方案中排名第一:


要注意的是:PaddleOCR-VL-1.5(94.50%)和 GLM-OCR(94.60%)作为流水线方案(多个专用模型串联)得分更高,这是两类不同的技术路线,FireRed-OCR 是端到端单模型中的最优解。

在文字识别单项(OCRBench TextRec),FireRed-OCR-2B 以 93.5 分位居所有参测模型首位,超过 GPT-5.2(93.0)和 Gemini-3.0 Pro(91.9)。


FireRedBench(复杂版式)

这个是团队自建的"压力测试"基准,专门收录现实中非标准版式的文档(歪斜、复杂多栏、低质量扫描件等)。

FireRed-OCR-2B 以 74.62 分拿下端到端方案第一,同时超越了流水线方案 GLM-OCR(74.33),仅略低于 PaddleOCR-VL-1.5(76.47)。而基座模型 Qwen3-VL-2B-Instruct 只有 65.58 分,提升幅度相当显著。

快速上手

模型基于 Qwen3-VL 架构,接入方式非常标准,几行代码即可跑起来。

安装依赖:

pip install transformers qwen-vl-utils


推理示例:

from modelscope import Qwen3VLForConditionalGeneration, AutoProcessor
from conv_for_infer import generate_conv
import torch
# 加载模型(推荐开启 flash_attention_2 提速)
model = Qwen3VLForConditionalGeneration.from_pretrained(
    "FireRedTeam/FireRed-OCR-2B",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
processor = AutoProcessor.from_pretrained("FireRedTeam/FireRed-OCR-2B")
# 准备输入
image_path = "./examples/complex_table.png"
messages = generate_conv(image_path)
# 推理
inputs = processor.apply_chat_template(
    messages, tokenize=True, add_generation_prompt=True,
    return_dict=True, return_tensors="pt"
).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True)
print(output_text)

输出即为标准 Markdown 格式,可直接用于下游处理。


实践和建议

适合的场景

FireRed-OCR 最擅长的是需要结构完整性的文档解析:学术论文(含公式)、财报表格、技术文档、多栏排版的书籍扫描件。如果你的下游任务对"表格不能乱行"、"公式不能出错"要求很高,它是目前端到端方案里最可靠的选择。


case1: 公式识别


Case 2: 手写体识别


硬件配置

2B 参数模型,bfloat16 精度下显存占用约 4-5GB,RTX 3090 / A10 单卡即可流畅推理。如果处理批量文档,强烈建议开启 flash_attention_2,可显著降低显存峰值并提升吞吐。


max_new_tokens 设置

官方示例使用 8192,对于密集型学术论文页面建议保持此值或更高。普通单页文档可以适当降低以加快推理速度。


图像质量影响较大

从 FireRedBench 的得分来看,即使是 FireRed-OCR,面对质量极差的扫描件也会有明显性能下滑(整体降至 74 分左右)。实际使用时,尽量提供 ≥150 DPI 的图像,效果会更稳定。


与流水线方案的取舍

如果对精度要求极致,且有工程资源维护多模型系统,PaddleOCR-VL-1.5 或 GLM-OCR 在标准基准上仍有约 1-2% 的优势。但如果追求部署简单、维护成本低、在复杂版式上表现稳健,FireRed-OCR 是更优解。


小结

FireRed-OCR 是一次漂亮的"专项优化"示范:不靠堆参数,而是靠精心设计的训练框架(三阶段渐进 + 格式约束强化学习 + 几何语义数据引擎),让 2B 小模型在专项任务上打赢 235B 的通用大模型。

这也给行业提了个醒:在垂直任务上,专项训练的效率高于扩大模型规模。


点击即可跳转模型链接

https://modelscope.cn/models/FireRedTeam/FireRed-OCR

目录
相关文章
|
6天前
|
人工智能 自然语言处理 JavaScript
2026年Windows+Ollama本地部署OpenClaw保姆级教程:本地AI Agent+阿里云上快速搭建
2026年OpenClaw凭借本地部署、私有化运行的特性,成为打造个人智能体的核心工具,而Ollama作为轻量级本地大模型管理工具,能让OpenClaw摆脱对云端大模型的依赖,实现**本地推理、数据不泄露、全流程私有化**的智能体验。本文基于Windows 11系统,从硬件环境准备、Ollama安装与模型定制、OpenClaw部署配置、技能扩展到常见问题排查,打造保姆级本地部署教程,同时补充阿里云OpenClaw(Clawdbot)快速部署步骤,兼顾本地私有化需求与云端7×24小时运行需求,文中所有代码命令均可直接复制执行,确保零基础用户也能快速搭建属于自己的本地智能体。
7376 53
|
3天前
|
人工智能 安全 API
CoPaw:3分钟部署你的 AI助理
源自阿里巴巴开源生态的个人 AI 助理——CoPaw。作为阿里倾力打造的开源力作,CoPaw 完美打通钉钉、飞书、Discord 等多平台对话通道,支持定时任务自动化。内置 PDF/Office 深度处理、新闻摘要等强大技能,更开放自定义扩展接口。坚持数据全程私有化部署,绝不上传云端,让每一位用户都能在大厂技术加持下,拥有安全、专属的智能助手。
|
6天前
|
人工智能 JSON JavaScript
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
手把手教你用 OpenClaw(v2026.2.22-2)+ 飞书,10分钟零代码搭建专属AI机器人!内置飞书插件,无需额外安装;支持Claude等主流模型,命令行一键配置。告别复杂开发,像聊同事一样自然对话。
3547 10
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
|
4天前
|
人工智能 自然语言处理 机器人
保姆级教程:Mac本地搭建OpenClaw及阿里云上1分钟部署OpenClaw+飞书集成实战指南
OpenClaw(曾用名Clawdbot、Moltbot)作为2026年最热门的开源个人AI助手平台,以“自然语言驱动自动化”为核心,支持对接飞书、Telegram等主流通讯工具,可替代人工完成文件操作、日历管理、邮件处理等重复性工作。其模块化架构适配多系统环境,既可以在Mac上本地化部署打造私人助手,也能通过阿里云实现7×24小时稳定运行,完美兼顾隐私性与便捷性。
3032 4
|
3天前
|
人工智能 安全 JavaScript
阿里云上+本地部署OpenClaw(小龙虾)新手攻略:解锁10大必备Skills,零基础也能玩转AI助手
2026年,开源AI代理工具OpenClaw(昵称“小龙虾”)凭借“能实际做事”的核心优势,在GitHub斩获25万+星标,成为现象级AI工具。它最强大的魅力在于可扩展的Skills(技能包)系统——通过ClawHub插件市场的数百个技能,能让AI助手从简单聊天升级为处理办公、学习、日常事务的全能帮手。
2585 7
|
5天前
|
人工智能 监控 机器人
2026年零门槛部署 OpenClaw(Clawdbot)接入A股数据,实现24小时股票分析保姆级教程
在AI赋能金融分析的浪潮中,OpenClaw(原Clawdbot/Moltbot)凭借开源灵活的架构,成为个人投资者打造专属智能分析助手的首选。通过接入A股实时数据,它能实现24小时市场监控、涨跌预警、潜力股推荐等核心功能,彻底解放人工盯盘的繁琐。而阿里云的稳定部署环境,更让这套系统实现全天候不间断运行,成为真正的“金融AI助手”。 本文基于OpenClaw v2026.1.25稳定版与QVeris免费A股数据接口,详细拆解阿里云OpenClaw部署步骤、A股数据接入流程、高级分析功能配置及多平台联动技巧,所有代码命令均可直接复制复用,即使无技术基础也能在1小时内完成从部署到实战的全流程。
2513 8
|
8天前
|
存储 人工智能 BI
2026年OpenClaw(Clawdbot)极简部署:接入小红书全自动运营,一个人=一支团队
2026年的小红书运营赛道,AI自动化工具已成为核心竞争力。OpenClaw(原Clawdbot)凭借“Skill插件化集成、全流程自动化、跨平台联动”的核心优势,彻底颠覆传统运营模式——从热点追踪、文案创作、封面设计到自动发布、账号互动,仅需一句自然语言指令,即可实现全链路闭环。而阿里云作为OpenClaw官方推荐的云端部署载体,2026年推出专属秒级部署方案,预装全套运行环境与小红书运营插件,让零基础用户也能10分钟完成部署,轻松拥有7×24小时在线的“专属运营团队”。
2412 10
|
3天前
|
人工智能 JavaScript 安全
OpenClaw(Clawdbot)阿里云及Windows上部署指南:接入Ollama本地模型,隐私与效率兼得
2026年,AI代理框架OpenClaw(原Clawdbot)的生态持续完善,其支持本地大模型接入的特性备受关注——通过Ollama工具,可在本地部署Qwen3、GLM-4.7-Flash等上百款开源模型,实现数据不出设备、响应迅速、完全可控的自动化体验,完美解决云端模型的隐私泄露风险与调用成本问题。
1433 2

热门文章

最新文章