结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世

简介: 在AI快速发展中,大型语言模型(LLMs)如GPTs等展现了巨大潜力。然而,表格数据整合这一关键领域发展不足。浙江大学提出TableGPT2,使用593.8K张表格和2.36M查询-表格-输出三元组进行预训练和微调。该模型创新性地引入了表格编码器,增强了处理模糊查询、缺失列名和不规则表格的能力。TableGPT2在23个基准测试指标上表现出色,7B模型性能提升35.20%,72B模型提升49.32%。其开源代码和模型为社区提供了强大的研究工具。

在人工智能(AI)的迅猛发展中,大型语言模型(LLMs)如GPTs、Claude、LLaMA和Qwen等,已经在各个行业中展现出了巨大的潜力和应用价值。然而,尽管结构化表格数据在许多实际应用领域中具有基础性的作用,但表格数据的整合问题却一直没有得到充分的发展。

表格数据整合的重要性体现在以下几个方面:

  1. 高级应用需求:在许多高级应用中,数据库或数据仓库的数据整合是必不可少的。例如,在金融领域,实时市场数据的整合对于股票投资推荐等应用至关重要。

  2. 未开发的资源:表格数据是一种丰富且尚未被充分利用的资源。据估计,全球超过70%的数据以结构化表格形式存在,这为数据分析提供了巨大的潜力。

  3. 商业智能需求:商业智能(BI)领域对灵活、精确的解决方案有着特定的需求。然而,当前的LLMs在处理复杂查询和多步骤推理时可能面临挑战。

为了解决这些问题,浙江大学的研究人员提出了TableGPT2,一个经过严格预训练和微调的模型,使用了超过593.8K张表格和2.36M高质量的查询-表格-输出三元组。这一规模的表格相关数据在之前的研究工作中是前所未有的。

TableGPT2的关键创新之一是其新颖的表格编码器,该编码器专门设计用于捕捉模式级别和单元格级别的信息。这种编码器增强了模型处理模糊查询、缺失列名和不规则表格的能力,这些在实际应用中经常遇到。

TableGPT2在23个基准测试指标上表现出色,与之前的基准中立LLMs相比,7B模型的平均性能提高了35.20%,72B模型的平均性能提高了49.32%。同时,TableGPT2保持了强大的通用语言和编码能力。

TableGPT2的另一个重要特点是其对多模态的探索。它创新性地引入了一个单独的模态模块,用于读取和解释表格数据。类似于视觉语言模型(VLMs),TableGPT2将表格数据读取模块生成的特殊嵌入与文本输入的令牌嵌入进行连接,从而更好地捕捉表格数据的结构与语义。

研究人员已经开源了TableGPT2的代码和模型,并提供了一个全面的代理工作流。此外,他们还发布了RealTabBench数据集的一部分,以促进在实际数据驱动和BI生产环境中的进一步探索和应用。

TableGPT2的问世为表格数据的处理和分析带来了巨大的潜力和可能性。其在多个基准测试上的出色表现证明了其在表格相关任务上的强大能力。同时,TableGPT2的开源也为社区提供了一个强大的工具和平台,用于进一步的研究和开发。

然而,TableGPT2也面临一些挑战和限制。例如,其对表格数据的处理能力可能受到表格规模和复杂性的限制。此外,TableGPT2的训练数据主要来自特定的领域和来源,这可能限制了其在其他领域的泛化能力。

论文地址:https://arxiv.org/pdf/2411.02059

目录
相关文章
|
7天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
179585 20
|
14天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
16天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
9360 23
|
20天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
5040 15
资料合集|Flink Forward Asia 2024 上海站
|
20天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
28天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
16天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
|
15天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
1183 72