结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世

简介: 在AI快速发展中,大型语言模型(LLMs)如GPTs等展现了巨大潜力。然而,表格数据整合这一关键领域发展不足。浙江大学提出TableGPT2,使用593.8K张表格和2.36M查询-表格-输出三元组进行预训练和微调。该模型创新性地引入了表格编码器,增强了处理模糊查询、缺失列名和不规则表格的能力。TableGPT2在23个基准测试指标上表现出色,7B模型性能提升35.20%,72B模型提升49.32%。其开源代码和模型为社区提供了强大的研究工具。

在人工智能(AI)的迅猛发展中,大型语言模型(LLMs)如GPTs、Claude、LLaMA和Qwen等,已经在各个行业中展现出了巨大的潜力和应用价值。然而,尽管结构化表格数据在许多实际应用领域中具有基础性的作用,但表格数据的整合问题却一直没有得到充分的发展。

表格数据整合的重要性体现在以下几个方面:

  1. 高级应用需求:在许多高级应用中,数据库或数据仓库的数据整合是必不可少的。例如,在金融领域,实时市场数据的整合对于股票投资推荐等应用至关重要。

  2. 未开发的资源:表格数据是一种丰富且尚未被充分利用的资源。据估计,全球超过70%的数据以结构化表格形式存在,这为数据分析提供了巨大的潜力。

  3. 商业智能需求:商业智能(BI)领域对灵活、精确的解决方案有着特定的需求。然而,当前的LLMs在处理复杂查询和多步骤推理时可能面临挑战。

为了解决这些问题,浙江大学的研究人员提出了TableGPT2,一个经过严格预训练和微调的模型,使用了超过593.8K张表格和2.36M高质量的查询-表格-输出三元组。这一规模的表格相关数据在之前的研究工作中是前所未有的。

TableGPT2的关键创新之一是其新颖的表格编码器,该编码器专门设计用于捕捉模式级别和单元格级别的信息。这种编码器增强了模型处理模糊查询、缺失列名和不规则表格的能力,这些在实际应用中经常遇到。

TableGPT2在23个基准测试指标上表现出色,与之前的基准中立LLMs相比,7B模型的平均性能提高了35.20%,72B模型的平均性能提高了49.32%。同时,TableGPT2保持了强大的通用语言和编码能力。

TableGPT2的另一个重要特点是其对多模态的探索。它创新性地引入了一个单独的模态模块,用于读取和解释表格数据。类似于视觉语言模型(VLMs),TableGPT2将表格数据读取模块生成的特殊嵌入与文本输入的令牌嵌入进行连接,从而更好地捕捉表格数据的结构与语义。

研究人员已经开源了TableGPT2的代码和模型,并提供了一个全面的代理工作流。此外,他们还发布了RealTabBench数据集的一部分,以促进在实际数据驱动和BI生产环境中的进一步探索和应用。

TableGPT2的问世为表格数据的处理和分析带来了巨大的潜力和可能性。其在多个基准测试上的出色表现证明了其在表格相关任务上的强大能力。同时,TableGPT2的开源也为社区提供了一个强大的工具和平台,用于进一步的研究和开发。

然而,TableGPT2也面临一些挑战和限制。例如,其对表格数据的处理能力可能受到表格规模和复杂性的限制。此外,TableGPT2的训练数据主要来自特定的领域和来源,这可能限制了其在其他领域的泛化能力。

论文地址:https://arxiv.org/pdf/2411.02059

目录
相关文章
|
8月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
9月前
|
人工智能 安全 API
HiMarket 正式开源,为企业落地开箱即用的 AI 开放平台
我们发起 HiMarket 的初心:帮助用户从 80% 开始构建 AI 开放平台。
1505 64
|
8月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
7789 109
|
9月前
|
人工智能 运维 安全
|
9月前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段三:自定义 Advisor 与结构化输出实现以及对话记忆持久化开发
本文介绍如何在Spring AI中自定义Advisor实现日志记录、结构化输出、对话记忆持久化及多模态开发,结合阿里云灵积模型Qwen-Plus,提升AI应用的可维护性与功能性。
1844 125
AI 超级智能体全栈项目阶段三:自定义 Advisor 与结构化输出实现以及对话记忆持久化开发
|
9月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
3125 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
8月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
752 5
我们开源了一款 AI 驱动的用户社区
|
8月前
|
人工智能 搜索推荐 UED
一个牛逼的国产AI自动化工具,开源了 !
AiPy是国产开源AI工具,结合大语言模型与Python,支持本地部署。用户只需用自然语言描述需求,即可自动生成并执行代码,轻松实现数据分析、清洗、可视化等任务,零基础也能玩转编程,被誉为程序员的智能助手。
|
9月前
|
人工智能 安全 架构师
开放、协同,2025 云栖大会“操作系统开源与 AI 进化分论坛”精彩回顾
唯有通过生态开放与技术共享,才能加速 AI 技术的普惠与产业化落地。