NeurIPS 2025!电子科大同济等提出Table2LaTeX-RL:表格转 LaTeX 精准度再突破

简介: Table2LaTeX-RL:基于强化多模态大模型,实现从表格图像到高保真LaTeX代码的生成。创新提出VSGRPO双奖励机制与百万级数据集,显著提升复杂表格的结构与视觉一致性,推动学术文档自动化重建新进展。

论文标题:Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models

作者团队:电子科技大学、浙江实验室科学数据枢纽研究中心、同济大学

发布时间:2025年9月22日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。

⭐研究背景

在科学文档与技术报告的自动化处理过程中,表格作为数据呈现与结构化表达的重要形式,其准确重建对于文档数字化具有关键意义。现有的表格识别方法多聚焦于生成 HTML 结构,难以满足学术出版中对版式、语法及数学内容精度的严格要求。特别是对于包含多级表头、复杂合并单元格及符号表达的表格,现有系统往往在结构一致性和可编译性方面表现不足。因此,如何从表格图像中直接生成语法正确、视觉一致的 LaTeX 代码,成为表格理解领域的核心挑战。

⭐核心创新

提出一个基于强化多模态大语言模型的高保真表格生成框架:Table2LaTeX-RL,旨在实现表格图像到 LaTeX 代码的精确映射。

⭐主要创新点

  1. 大规模数据构建:构建首个超过 120 万对表格图像–LaTeX 源代码的高质量训练数据集,依据结构复杂度划分为简单、中等与复杂三级,为模型提供了全面的结构学习基础。
  2. 双重奖励强化学习策略(VSGRPO):在 Group Relative Policy Optimization(GRPO)框架下,引入结构层奖励(TEDS-Structure)与视觉层奖励(CW-SSIM)的联合优化机制,有效提升了模型对复杂表格的生成稳定性与结构保真度。
  3. 混合评估体系:提出结合结构相似度与视觉相似度的综合评估协议,克服传统指标仅依赖文本层面对视觉一致性缺乏刻画的问题,更准确地反映生成结果的质量。
相关文章
|
5月前
|
机器学习/深度学习 人工智能 程序员
StackOverflow已经死亡了吗
StackOverflow曾是程序员的“圣地”,但AI崛起正改变这一格局。ChatGPT等工具以高效即时的优势分流用户,使其面临流量下滑与社区文化挑战。而新兴的大模型实验室Lab4AI则融合算力、实践与协作,构建AI时代下的开发者新生态。从问答到实践,开发者社区正在进化。
381 2
StackOverflow已经死亡了吗
|
存储 Prometheus 监控
K3S环境下接入Prometheus,grafana,等监控套件
因为常规的监控都是用K8S做的,而K3S上的监控方案少之又少,如果直接用rancher上的prometheus监控,会消耗至少2G的内存,于是我们就自己做了K3S和pg数据库的监控,并且通过我们自己做的监控,可以减少一些不必要的性能开销。主要监控容器资源消耗,宿主机资源消耗,pg数据库资源消耗
4994 0
K3S环境下接入Prometheus,grafana,等监控套件
|
4月前
|
搜索推荐
掌握三大核心技巧,快速成为1688运营高手!
1688运营需聚焦三大核心:提升店铺综合权重、优化搜索相关性、挖掘流量价值。通过商品、转化、服务等多维度协同,精准匹配关键词与类目,强化客户体验与复购,系统提升L等级与动销表现,实现曝光、转化双增长。每月复盘,稳步推进,打造高竞争力店铺。
|
5月前
|
机器学习/深度学习 数据采集 存储
NeurlPS2025| 告别手动制表:电子科大+之江实验室提出Table2LaTeX-RL创新性高保真表格生成方法
电子科技大学联合之江实验室提出Table2LaTeX-RL,利用多模态大模型与双奖励强化学习(VSGRPO),实现高保真表格图像到LaTeX转换。该方法在复杂表上表现卓越,CW-SSIM达0.6145,TEDS-Structure达0.9218,编译率高达0.9917,显著优于现有方法,尤其适用于科学文档中含合并单元格、嵌套结构的复杂表格重建。
231 1
|
5月前
|
机器学习/深度学习 传感器 自然语言处理
Orion-MSP:深度学习终于在表格数据上超越了XGBoost
Orion-MSP提出多尺度稀疏注意力机制,攻克表格数据建模难题。通过多粒度特征交互、块稀疏注意力降复杂度、Perceiver内存实现双向信息流,在宽表与层次化数据中显著超越XGBoost及现有Transformer模型,推动表格数据深度学习新进展。(239字)
346 3
Orion-MSP:深度学习终于在表格数据上超越了XGBoost
|
弹性计算 算法 Linux
使用SM4算法加密LUKS格式磁盘
本文介绍了在Anolis 8操作系统使用cryptsetup对磁盘进行分区、加密和挂载的过程。采用SM4加密算法。具体步骤包括:初始化加密卷、解锁加密分区、格式化并挂载设备。最后,展示了如何取消挂载并关闭加密卷以确保数据安全。整个过程确保了磁盘数据的安全性和隐私保护。
1126 2
使用SM4算法加密LUKS格式磁盘
|
数据采集 机器学习/深度学习 人工智能
Sitcom-Crafter:动画师失业警告!AI黑科技自动生成3D角色动作,剧情脚本秒变动画
Sitcom-Crafter 是一款基于剧情驱动的 3D 动作生成系统,通过多模块协同工作,支持人类行走、场景交互和多人交互,适用于动画、游戏及虚拟现实等领域。
900 4
|
机器学习/深度学习
苹果发布高效双EMA梯度优化方法,适配Transformer、Mamba模型
苹果公司在arXiv上发布论文《The AdEMAMix Optimizer: Better, Faster, Older》,提出了一种基于双指数移动平均(EMA)的新型优化器AdEMAMix。该优化器通过使用快速和慢速EMA,同时利用近期和远期梯度信息,显著提升了模型训练的速度和效果。实验表明,AdEMAMix在语言建模和图像分类等任务上表现出色,尤其在大型语言模型的训练中,相比传统优化器如AdamW,训练效率提高了95%。
387 32
|
人工智能 自然语言处理 安全
DALL·E 介绍
【10月更文挑战第9天】
2269 2
|
数据可视化 JavaScript 数据挖掘
2024年最值得关注的5款数据可视化工具
在信息爆炸的时代,数据可视化工具帮助我们从海量数据中提取有价值的信息,并以直观、易于理解的方式展现。本文介绍五款主流工具:板栗看板、Power BI、Datawrapper、QlikView 和 Highcharts,从产品特色、使用场景等角度分析,帮助用户根据自身需求选择合适的工具。
1968 0
2024年最值得关注的5款数据可视化工具