DB-GPT 0.7.4 版本更新|开源蚂蚁集团Text2SQL数据集:Falcon、支持GLM-4.5大模型

简介: DB-GPT 0.7.4 版本更新,快速预览新特性

V0.7.4 版本主要新增、增强了以下核心特性

🍀 DB-GPT开源蚂蚁集团Text2SQL数据集:Falconhttps://github.com/eosphoros-ai/Falcon

🍀 DB-GPT支持基于Falcon Text2SQL评测集的LLM评测功能

🍀 支持GLM-4.5大模型

🍀 支持BurnCloud API大模型平台集成

数据集评测新特性

面向Text2SQL任务,我们提供了数据集评测能力,用于评测不同大模型、Agent在Text2SQL任务上的表现,评测语法正确性、语义准确性、执行有效性等维度内容,输出可执行率、正确率等指标,并提供了评测报告。

介绍

https://github.com/eosphoros-ai/Falcon

为了客观、公正地评估不同模型在Text2SQL任务的表现,我们推出了评测模块和评测数据集,该模块支持对DB-GPT框架下的所有模型进行全面评测,并为用户提供评测报告。

评测模块使用的Benchmark数据集:Falcon蚂蚁集团开源的一个不断发展的高质量Text2SQL数据集。

该数据集旨在对复杂、跨域分析场景下的模型进行压力测试,特别关注以下方面:

  • SQL 计算难题——多表连接、嵌套 CTE、窗口函数、排名、类型转换、正则表达式过滤器……
  • 语言困难——中文模糊时间表达、口语化商业术语、省略号、多意图疑问句……
评测集包含了28个数据集、90张表,截止当前发已正式发布500道不同难度的中文题目其中,easy难度题目:151道,medium难度题目:130道,hard难度题目:219道

核心特性

  • ✅ 多维度评测:包含语法正确性、语义准确性、执行有效性三重验证体系
  • 🧠 动态难度分级:来自 Kaggle 数据集的 500 道中文问题(不同难度),包含大量需要多步推理、复杂嵌套查询和高级 SQL 特性
  • ✍️ 细致的 Schema 标注: 提供了丰富的 Schema 信息,包括数据类型和自然语言别名、表间关系、采样数据,为模型理解数据库结构提供了有力支持
  • 🌐 真实场景建模:更多有关模糊/含糊语言表达、更多从蚂蚁集团真实生产场景中收集的问题(准备中)

评测指标

指标名称 计算公式 说明
可执行率 语法正确样本数 / 总样本数 模型生成的SQL语句语法正确、且可以在数据库中正确执行的比例
正确率 语义正确样本数 / 总样本数 大模型生成的SQL语句语法正确、语义正确的比例

评测模块核心能力如下:

  • Text2SQL 评测API:提供API创建评测任务
  • 评测集执行框架:根据评测集的问题执行Text2SQL任务
  • 评测集结果对比框架:基于标准评测集和LLM SQL结果执行结果对比并汇总评测结果
  • 评测数据集安装及数据库映射:安装评测数据集并将数据映射到数据库中提供LLM SQL查询服务


使用方式

环境准备

  • 第一步:升级到V0.7.4版本,并升级元数据库

对于 SQLite 的升级,默认会自动升级表结构对于 MySQL 的升级,需要手动执行 DDL ,其中 assets/schema/dbgpt.sql文件是当前版本完整的 DDL 文件,具体版本变更的 DDL 可以查看 assets/schema/upgrade下面的变更 DDL,例如您是从 v0.7.1升级到v0.7.4,可以执行下列的 DDL:

mysql -h127.0.0.1 -uroot -p{your_password} < assets/schema/upgrade/v0_7_4/upgrade_to_v0.7.4.sql

image.gif

  • 第二步:启动DB-GPT服务,等待评测集自动加载完成,看到这行日志表示评测集加载完成(大约 1~3 分钟左右)


  • 第三步:在DB-GPT平台录入大模型

创建评测任务

  • Step1: 点击"创建评测"按钮,创建评测任务
  • Step2: 输入任务名称、选择评测模型列表等信息
  • Step3: 提交评测任务


  • Step4: 等待评测任务执行完成(评测任务耗时较长)


查看评测报告

  • 等待评测状态为"已完成",点击"查看详情"按钮,查看评测报告
  • 评测报告展示信息:
  • 总的模型数量、题目数量、正确题目数量、错误题目数量、失败题目数量
  • 每轮、每个模型的执行结果:执行题目数、正确题目数、错误题目数、失败题目数、可执行率、正确率
  • 可执行率、正确率的可视化柱状图
正确题目:表示该问题模型回答正确;错误题目:模型生成的SQL语法正确,但是语义不正确;失败题目:一般是模型生成的SQL语法、语义都不正确


下载评测结果

  • 点击"下载评测结果"按钮,下载评测的Excel详细报告

  • 下载的Excel报告包含了评测任务LLM执行详情、评测对比结果等信息(通过不同Sheet展示)


数据集详情

  • 点击"查看数据集详情"按钮,查看评测集详情
  • 展示Falcon数据集的数据表、字段、样例数据等


详细的使用文档见:

🐞 Bug 修复

  • 修复AWEL datasourcerag算子参数不生效问题(#2862)
  • 处理知识库文档自定义chunk分隔符\n不生效(#2870)
  • 修复知识库上传URL模式文档(#2874)
  • 修复 DorisDB 使用 MySQL 协议连接的问题 (#2875)
  • 修复使用TuGraph时Milvus的数据清理问题(#2858)
  • 优化图数据库的配置错误信息 (#2906)
  • 修复Excel文档中合并单元格解析问题 (#2907)
  • 优化PGVectorStore从环境变量读取链接配置 (#2887)
  • 修复ChatExcel应用Excel文件中包含time类型的解析(#2915)

🛠️其他

  • 新增泰米尔语版本README文件 (#2914)
  • 新增印地语版本README文件 (#2909)
  • 修复通义千问配置文件 (#2884)
  • 新增DB-GPT DeepWiki文档 (#2892)

升级指南:

  1. 元数据库升级

对于 SQLite 的升级,默认会自动升级表结构。对于 MySQL 的升级,需要手动执行 DDL ,其中 assets/schema/dbgpt.sql文件是当前版本完整的 DDL 文件,具体版本变更的 DDL 可以查看 assets/schema/upgrade下面的变更 DDL,例如您是从 v0.7.1升级到v0.7.4,可以执行下列的 DDL:

mysql -h127.0.0.1 -uroot -p{your_password} < assets/schema/upgrade/v0_7_4/upgrade_to_v0.7.4.sql


  1. 依赖升级

对于源码安装,建议通过 uv sync 更新依赖。

✨官方文档地址

英文

http://docs.dbgpt.site/docs/overview

中文

https://www.yuque.com/eosphoros/dbgpt-docs/bex30nsv60ru0fmx

✨致谢

🎉新贡献者

  • @yaoyifan-yyf
  • @iterminatorheart
  • @liuhill
  • @zuiyue-com
  • @wxiao1002

🔥🔥感谢所有贡献者使这次发布成为可能!

@Aries-ckt, @Mishu03, @chenliang15405, @fangyinc, @kobzevvv, @stevenlx96, @wxiao1002, @liuhill, @yaoyifan-yyf, @iterminatorheart and @zuiyue-com


✨附录

相关文章
|
SQL 前端开发 关系型数据库
LLM大模型实战 —— DB-GPT阿里云部署指南
DB-GPT 是一个实验性的开源应用,它基于FastChat,并使用vicuna-13b作为基础模型, 模型与数据全部本地化部署, 绝对保障数据的隐私安全。 同时此GPT项目可以直接本地部署连接到私有数据库, 进行私有数据处理, 目前已支持SQL生成、SQL诊断、数据库知识问答、数据处理等一系列的工作。
10907 75
|
2月前
|
人工智能 安全 API
近期 AI 领域的新发布所带来的启示
2024 年以来,AI 基础设施的快速发展过程中,PaaS 层的 AI 网关是变化最明显的基建之一。从传统网关的静态规则和简单路由开始,网关的作用被不断拉伸。用户通过使用网关来实现多模型的流量调度、智能路由、Agent 和 MCP 服务管理、AI 治理等,试图让系统更灵活、更可控、更可用。国庆期间 AI 界发布/升级了一些产品,我们在此做一个简报,从中窥探下对 AI 网关演进新方向的启示。
399 41
|
2月前
|
人工智能 开发框架 安全
浅谈 Agent 开发工具链演进历程
模型带来了意识和自主性,但在输出结果的确定性和一致性上降低了。无论是基础大模型厂商,还是提供开发工具链和运行保障的厂家,本质都是希望提升输出的可靠性,只是不同的团队基因和行业判断,提供了不同的实现路径。本文按四个阶段,通过串联一些知名的开发工具,来回顾 Agent 开发工具链的演进历程。
604 50
|
2月前
|
运维 监控 数据可视化
从巴比馒头的“洗菜流水线”,来看“telemetry pipeline”工具的火热兴起
以巴比馒头自动化洗菜为喻,探讨运维领域“数据清洗”难题。DataHub作为国产可视化遥测管道工具,支持多源数据接入与低代码编排,实现日志、指标、链路等数据的高效处理与统一管理,助力企业构建高质量可观测体系。(238字)
|
2月前
|
运维 监控 安全
如何搭建RWA代币化落地实操流程清单
系统化推进RWA代币化落地,从目标拆解、模块验收到资源盘点,构建可复用的流程模板。覆盖合约设计、合规审查、数据对接等关键环节,配套标准化操作蓝图与风险应对清单,支持快速迭代与跨团队协作,确保项目可控、可验、可持续交付。(238字)
|
4月前
|
负载均衡 并行计算 异构计算
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
|
4月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
1月前
|
SQL 自然语言处理 关系型数据库
构建AI智能体:二十九、Text2SQL:告别繁琐SQL!用大模型自助生成数据报表
Text2SQL技术通过自然语言处理将用户查询转换为SQL语句,解决企业数据查询效率低下的痛点。该技术包含语义理解、模式对齐、SQL生成和优化等核心处理过程,核心组件包括自然语言理解模块、Schema管理模块和SQL生成模块。文章介绍了闭源和开源模型的选择策略,并提供了基于Function Calling的Text2SQL实现示例,展示如何安全高效地将自然语言转换为数据库查询。
715 4