📖近日,阿里云飞天实验室自研数据分析智能体 “析言 XiYan-SQL” 在全球权威SQL诊断评测基准 BIRD-CRITIC(又名 SWE-SQL) 的所有开放榜单中位居第一,超越多家国内外顶尖团队,再次刷新SQL诊断与修复能力的行业纪录。
❓ BIRD-CRITIC基准 (亦称SWE-SQL),由学界与Google Cloud合作推出,为了回答一个核心问题:“大语言模型能否解决真实数据库应用中的用户问题?”。它把企业里常见的数据库报错、性能问题、查询需求整理成题目,覆盖 MySQL、PostgreSQL、SQL Server、Oracle 等主流数据库系统,既有简单查询,也有插入、更新、删除等复杂操作,还包含大量模型从未见过的新场景,整体难度远高于传统的 “自然语言生成 SQL” 测试。
✍️在这套“真实难题”上,析言XiYan-SQL在 BIRD-CRITIC-1.0-Open、BIRD-CRITIC-PG、BIRD-CRITIC-Flash 三个重要榜单上全部斩获第一,在跨方言鲁棒性、复杂 SQL 处理能力、真实问题修复率和分布外泛化等维度获得权威验证。
技术上,析言 XiYan-SQL 通过 相关模式筛选(Schema Filter)、多生成器集成(Multi-Generator Ensemble)、候选重组与最优选择(Selection with Candidate Reorganization) 等创新,使模型既能生成高质量 SQL,又兼顾可执行性与可维护性,能够在存在脏数据、异构模式和跨方言差异的真实系统中,给出高可用的诊断与修复方案。
👏目前,XiYan-SQL相关模型与核心组件已于 GitHub、ModelScope和Hugging Face 社区开源,欢迎开发者前往体验与贡献。