PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 前言9月24日云栖大会现场,由阿里巴巴爱橙科技数据技术及产品团队自主研发的 PDF解析神器正式亮相并同步开源模型。这款基于Logics-Parsing模型构建的AI工具直指当前PDF解析领域的技术痛点,显著提升复杂文档的结构…

前言

9月24日云栖大会现场,由阿里巴巴爱橙科技数据技术及产品团队自主研发的PDF解析神器正式亮相并同步开源模型。这款基于Logics-Parsing模型构建的AI工具直指当前PDF解析领域的技术痛点,显著提升复杂文档的结构化处理能力。

PDF 文档作为各行业信息存储与传播的主要载体,通常包含丰富的多模态内容,如文本、图像、表格、数学公式等。不论是为了支持大语言模型(LLM)的训练、构建结构化知识库或是实现智能问答系统(如 RAG),都需要将 PDF 文档中的非结构化内容高效、准确地转换为结构化、机器可读的数据。因此,高质量的PDF 解析能力是支撑下游人工智能应用的关键基础。

然而,现有的 PDF 解析技术在处理复杂文档时仍存在显著缺陷。特别是在高信息密度、多栏布局、图文混排、嵌套表格等复杂场景下,传统方法普遍存在阅读顺序错误、表格结构还原不完整、公式识别错误等问题,严重影响了知识提取的准确性与可用性。

基于上述问题,数据技术及产品团队提出了Logics-Parsing——一个强大的开源文档解析模型。该模型基于Qwen2.5-VL架构,通过在监督微调中融入化学式、手写汉字等多样化数据类型,进一步提升了模型在文档解析领域的通用性。此外,该模型引入精心设计的奖励机制,以优化复杂布局分析和阅读顺序推断。

Logics-Parsing可以轻松理解复杂排版,在保留自然的阅读顺序的同时,精准提取文字、表格、公式、手写字、化学分子式等内容,将PDF或图片转化为qwen-html或mathpix-markdow格式,解决文档解析作为AI应用落地的"最后一公里"难题。团队在自建评测集上验证了Logics-Parsing模型在多种文档分析场景下的SOTA性能,该评测集专为评估模型在STEM学科文档和复杂排版的文档上的解析能力而设计,后续也会开源。

项目主页:

https://logics.alibaba-inc.com/parsing/

Demo地址:

https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary

Github:

https://github.com/alibaba/Logics-Parsing

核心亮点

轻松实现端到端处理

  • 端到端模型架构无需多阶段流水线处理,从文档图像一步到位生成结构化输出
  • 全局优化,在处理具有挑战性的布局的文档时表现优秀

先进的内容元素识别能力

  • 准确识别和结构化复杂内容,包括精确的科学公式、手写字等
  • 智能识别化学结构,并可将其表示为标准的 SMILES 格式

丰富的结构化输出

  • 生成 Qwen HTML 来表示文档,保留其逻辑结构和阅读顺序
  • 每个内容块(如段落、表格、图片、公式)都会被标记上其类别、边界框坐标和OCR 内容
  • 自动识别并过滤掉页眉、页脚等无关元素,仅关注核心内容

业界领先的性能表现 (SOTA)

  • 该产品在团队自建的PDF解析综合评测集上取得了业界最佳(SOTA) 的结果
  • 该评测集专为评估模型在 STEM 学科文档和复杂排版的文档上的解析能力而设计

实战案例

  • 数学公式复现:

实现复杂数学符号的语义级识别,精确复现上下标、运算符等元素的空间结构关系,确保复杂公式的语义完整性和格式还原度。

动图封面

动图封面

  • 化学分子式还原:
    精准解析原子连接拓扑与化学键类型,完整还原环状结构、官能团等特征的空间排布关系,支持转换输出为SMILES表达式。

动图封面

动图封面

  • 复杂表格解析:
    保留合并单元格,保持行列对应关系,输出结构化表格数据,避免字符粘连及错行等问题,可直接用于数据分析与可视化处理。

动图封面

动图封面

  • 手写文字识别:
    有效识别连笔字和个性化书写变体,支持印刷体与手写体混合识别,保留原始段落结构,适用于试卷批改、课堂笔记等典型场景。

动图封面

动图封面

ModelScope上在线体验

目前,该产品已上线ModelScope魔搭社区,面向所有用户开放体验。

产品地址🔗:
https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary

初次使用时,用户可直接进入产品首页点击“在线体验”按钮,系统已内置英文数学论文、化学试卷等多份不同类型pdf、png格式的样例模版作为参考,选择【Examples】中的任意样例后点击“Convert”即可开始解析,整个过程无需注册或上传文件,帮助用户快速熟悉流程,验证解析效果。

解析结果采用双栏可视化界面,左侧呈现原始文档,右侧实时显示渲染结果,并展示进度及耗时,方便校验内容,确保解析质量。输出格式支持qwen-html或mathpix-markdow解析格式,满足不同开发场景需求。

Github查看

用户现可前往GitHub获取Logics-Parsing模型及推理代码,如需了解更多细节,请参阅团队发布的技术报告。开源项目持续更新维护,欢迎开发者社区共同参与技术迭代。

目录
相关文章
|
2月前
|
缓存 自然语言处理 并行计算
腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!
腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!
261 2
|
2月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
659 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
2月前
|
人工智能 数据处理 云栖大会
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
342 9
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
|
1月前
|
人工智能 自然语言处理 监控
110_微调数据集标注:众包与自动化
在大语言模型(LLM)的微调过程中,高质量的标注数据是模型性能提升的关键因素。随着模型规模的不断扩大和应用场景的日益多样化,如何高效、准确地创建大规模标注数据集成为了研究者和工程师面临的重要挑战。众包与自动化标注技术的结合,为解决这一挑战提供了可行的方案。
|
2月前
|
机器学习/深度学习 并行计算 小程序
DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价
今天,我们正式发布 DeepSeek-V3.2-Exp 模型,这是一个实验性( Experimental)的版本。作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制…
529 0
DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价
|
2月前
|
机器学习/深度学习 数据采集 人工智能
Tongyi DeepResearch的技术报告探秘
引言阿里通义实验室悄悄(其实动静不小)发布了一个叫 Tongyi DeepResearch 的 Agent 项目。它没有开发布会,没请明星站台,甚至没发通稿——但它在 GitHub 上架当天,就登顶了“每日趋势榜”。这速度,比人类发现…
455 2
Tongyi DeepResearch的技术报告探秘
|
21天前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
587 5
仅100多元,他给视障人群装上AI“眼睛”
|
2月前
|
自然语言处理 开发者
拿下30个第1名的腾讯混元翻译模型,开源!
腾讯混元又带来一个在国际机器翻译比赛拿下30个第1名的翻译模型Hunyuan-MT-7B,它总参数量仅7B,支持33个语种、5种民汉语言/方言互译,是一个能力全面的轻量级翻译模型。
413 0
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
232 2

热门文章

最新文章