NeurIPS 2025!电子科大同济等提出Table2LaTeX-RL:表格转 LaTeX 精准度再突破

简介: Table2LaTeX-RL:基于强化多模态大模型,实现从表格图像到高保真LaTeX代码的生成。创新提出VSGRPO双奖励机制与百万级数据集,显著提升复杂表格的结构与视觉一致性,推动学术文档自动化重建新进展。

论文标题:Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models

作者团队:电子科技大学、浙江实验室科学数据枢纽研究中心、同济大学

发布时间:2025年9月22日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。

⭐研究背景

在科学文档与技术报告的自动化处理过程中,表格作为数据呈现与结构化表达的重要形式,其准确重建对于文档数字化具有关键意义。现有的表格识别方法多聚焦于生成 HTML 结构,难以满足学术出版中对版式、语法及数学内容精度的严格要求。特别是对于包含多级表头、复杂合并单元格及符号表达的表格,现有系统往往在结构一致性和可编译性方面表现不足。因此,如何从表格图像中直接生成语法正确、视觉一致的 LaTeX 代码,成为表格理解领域的核心挑战。

⭐核心创新

提出一个基于强化多模态大语言模型的高保真表格生成框架:Table2LaTeX-RL,旨在实现表格图像到 LaTeX 代码的精确映射。

⭐主要创新点

  1. 大规模数据构建:构建首个超过 120 万对表格图像–LaTeX 源代码的高质量训练数据集,依据结构复杂度划分为简单、中等与复杂三级,为模型提供了全面的结构学习基础。
  2. 双重奖励强化学习策略(VSGRPO):在 Group Relative Policy Optimization(GRPO)框架下,引入结构层奖励(TEDS-Structure)与视觉层奖励(CW-SSIM)的联合优化机制,有效提升了模型对复杂表格的生成稳定性与结构保真度。
  3. 混合评估体系:提出结合结构相似度与视觉相似度的综合评估协议,克服传统指标仅依赖文本层面对视觉一致性缺乏刻画的问题,更准确地反映生成结果的质量。
相关文章
|
8月前
|
机器学习/深度学习 人工智能 程序员
StackOverflow已经死亡了吗
StackOverflow曾是程序员的“圣地”,但AI崛起正改变这一格局。ChatGPT等工具以高效即时的优势分流用户,使其面临流量下滑与社区文化挑战。而新兴的大模型实验室Lab4AI则融合算力、实践与协作,构建AI时代下的开发者新生态。从问答到实践,开发者社区正在进化。
444 2
StackOverflow已经死亡了吗
|
Java Spring
Spring Cloud OpenFeign 远程调用传递请求头信息
import feign.RequestInterceptor; import feign.RequestTemplate; import lombok.extern.slf4j.Slf4j; import org.springframework.util.Assert; import org.springframework.web.context.request.RequestContextHolder; import org.springframework.web.context.request.ServletRequestAttributes;
715 0
Latex更改字体颜色以及快速生成 SCI 论文的 revised version 和 pure version
Latex更改字体颜色以及快速生成 SCI 论文的 revised version 和 pure version
Latex更改字体颜色以及快速生成 SCI 论文的 revised version 和 pure version
|
3月前
|
存储 人工智能 JavaScript
Prompt、Context、Harness:AI Agent 工程的三层架构解析
2023年重“Prompt”(如何说),2025年重“Context”(看到什么),2026年跃升至“Harness”(系统级约束与验证)。三者非替代而是分层:Prompt优化表达,Context管理信息环境,Harness构建可信执行系统——模型是马,Harness才是缰绳、马鞍与路。
1072 10
Prompt、Context、Harness:AI Agent 工程的三层架构解析
|
7月前
|
搜索推荐
掌握三大核心技巧,快速成为1688运营高手!
1688运营需聚焦三大核心:提升店铺综合权重、优化搜索相关性、挖掘流量价值。通过商品、转化、服务等多维度协同,精准匹配关键词与类目,强化客户体验与复购,系统提升L等级与动销表现,实现曝光、转化双增长。每月复盘,稳步推进,打造高竞争力店铺。
|
8月前
|
机器学习/深度学习 数据采集 存储
NeurlPS2025| 告别手动制表:电子科大+之江实验室提出Table2LaTeX-RL创新性高保真表格生成方法
电子科技大学联合之江实验室提出Table2LaTeX-RL,利用多模态大模型与双奖励强化学习(VSGRPO),实现高保真表格图像到LaTeX转换。该方法在复杂表上表现卓越,CW-SSIM达0.6145,TEDS-Structure达0.9218,编译率高达0.9917,显著优于现有方法,尤其适用于科学文档中含合并单元格、嵌套结构的复杂表格重建。
283 1
|
8月前
|
机器学习/深度学习 传感器 自然语言处理
Orion-MSP:深度学习终于在表格数据上超越了XGBoost
Orion-MSP提出多尺度稀疏注意力机制,攻克表格数据建模难题。通过多粒度特征交互、块稀疏注意力降复杂度、Perceiver内存实现双向信息流,在宽表与层次化数据中显著超越XGBoost及现有Transformer模型,推动表格数据深度学习新进展。(239字)
418 3
Orion-MSP:深度学习终于在表格数据上超越了XGBoost
|
人工智能 自然语言处理 Rust
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准,包含1632个真实GitHub问题样本,通过严格筛选与人工验证确保数据质量。
1415 0
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
|
开发者 Python
【Python】已解决:TypeError: __init__() got an unexpected keyword argument ‘port’
【Python】已解决:TypeError: __init__() got an unexpected keyword argument ‘port’
3121 0
【Python】已解决:TypeError: __init__() got an unexpected keyword argument ‘port’
|
监控 安全 数据安全/隐私保护
如何有效防止验证码盗刷?
验证码盗刷是攻击者利用程序批量请求短信验证码,对用户和企业造成经济损失与骚扰的安全威胁。为更安全地完成身份验证,企业可以采用阿里云提供的防盗刷监控、号码认证及图形认证等服务。
1408 11