NeurIPS 2025 | Code Graph Model (CGM):图融合架构重塑代码大模型,探索AI代码研发新范式

简介: 代码图模型(CGM)通过专用适配器将仓库代码图集成到LLM的注意力机制中,在 SWE-Bench Lite 基准上实现了44.00%的问题解决率,相比先前开源方法提升了12.33%

在 NeurIPS 2025 上,我们将展示 Code Graph Model (CGM):一种将代码库图结构无缝集成到开源 LLM 中的创新方法。截止 2025 年 5 月,CGM 在权威榜单 SWE-bench Lite 上达到 44.00% 的解决率,首次在代码库级任务上以非 Agent 方案登顶开放权重模型榜首,性能超越现有最佳开源模型 12.33%,解决了复杂软件工程的 Agent 依赖难题!

关于CGM的详细技术解读在我们之前的公众号文章中:CGM背后的黑科技——代码图融合架构深度解析

Arxiv:https://arxiv.org/abs/2505.16901

GitHub:https://github.com/codefuse-ai/CodeFuse-CGM

HuggingFace:https://huggingface.co/codefuse-ai

▍背景:代码库级任务的挑战与Agent的局限

随着大语言模型(LLM)的发展,函数级的代码生成已日趋成熟,但代码库级的软件工程任务(如修复复杂 Bug、跨文件功能开发)仍然是一个巨大的挑战。

现有的主流解决方案通常依赖于智能体(Agent)框架。这些框架通过模拟人类开发者的行为,进行多轮的规划、浏览和调试。然而,Agent 方案也带来了明显的局限性:

  • 不可预测性:多轮交互容易导致误差累积,路径难以控制。
  • 效率瓶颈:反复调用模型和工具,推理成本高昂。
  • 隐私与部署难题:高性能 Agent 往往依赖闭源模型(如 GPT, Claude),难以在本地私有化部署。

我们思考了一个核心问题:开源 LLM 能否不依赖复杂的 Agent 流程,直接通过理解代码库结构来解决这些难题?

▍CGM:图与文的深度融合

为了回答上述问题,我们提出了 Code Graph Model (CGM)。这是一种全新的架构,它不再将代码库仅仅视为一堆文本文件的集合,而是通过 代码图(Code Graph)来显式建模代码实体之间的层级与依赖关系。

image.png

1. 代码图构建 (Code Graph Construction)

CGM 首先将代码库解析为一个结构化的图。

  • 节点(Nodes):代表代码实体,如函数(Function)、类(Class)、文件(File)和包(Package)。
  • 边(Edges):代表依赖关系,如调用(Call)、包含(Include/Import)和继承(Inheritance)。

这种结构化表示能够跨越文件边界,精准捕捉代码的逻辑脉络。

image.png

2. 语义与结构的双重集成

不同于简单的 RAG(检索增强生成),CGM 深入模型底层进行了改造:

  • 结构集成:我们将代码图的拓扑结构直接融入 LLM 的注意力机制中,通过 Graph Mask 让模型在注意力计算时能“感知”到代码的依赖关系。
  • 语义集成:利用专门设计的 Adapter,将图中节点的属性映射到 LLM 的输入空间,使模型能同时理解代码的语义文本和结构信息。

image.png

3. Agentless Graph RAG 框架

为了处理超大规模的代码库,我们设计了一套非 Agent 的 Graph RAG 流程:

  1. Rewriter:重写用户问题,使其更适合检索。
  2. Retriever & Reranker:在代码图中检索与问题最相关的子图。
  3. Reader (CGM):CGM 模型接收检索到的子图和问题,利用其对结构的深刻理解,一次性生成解决方案。

这种“一次检索,一次生成”的模式,彻底摒弃了 Agent 繁琐的循环迭代。

image.png

▍实验结果:开源模型的新高度

在权威的代码库级基准测试 SWE-bench Lite 的评估中,CGM 取得了 44.00% 的问题解决率,展现出卓越的 SOTA 性能。这一成绩不仅超越了多数复杂 Agent 方案,更在开放权重模型中位列榜首(截至2025年5月)。相比于此前最佳的开源模型,CGM 实现了 12.33% 的显著性能跃升。

image.png

▍总结

CGM 的提出证明了:通过有效地融合代码图结构,开源模型完全具备在单次推理中解决复杂代码库级任务的能力。这不仅大幅降低了推理成本和延迟,也为私有化部署高性能代码助手提供了一条切实可行的技术路径。

让我们 NeurIPS 2025 见,See you in San Diego!

image.png

关于我们

我们是蚂蚁集团智能平台工程的全模态代码算法团队,团队成立 3 年以来,在 ACL、ICLR、NeurIPS、KDD 等顶级会论发表论文20余篇,参与获得两次蚂蚁技术最高奖 T-Star, 1 次蚂蚁集团最高奖 SuperMA。团队常年招聘研究型实习生,有做NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com。


如果您想更快地获取到最新信息,欢迎加入我们的微信群。

image.png

企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~


目录
相关文章
|
7月前
|
机器学习/深度学习 自然语言处理 安全
ACL 2025 | GALLa:用图结构增强代码大模型,让代码理解更精准!
通过级联多模态架构将代码结构图对齐到大模型表征中
584 69
|
1月前
|
Linux 数据安全/隐私保护 Windows
CentOS-6.3-x86_64-minimal 安装教程详细步骤新手入门指南(附安装包)
准备2G以上U盘及ISO刻录工具,下载CentOS 6.3 minimal版镜像,使用Rufus或dd写入U盘。将U盘插入目标电脑,通过BIOS选择U盘启动,进入安装界面后按提示选择语言、键盘布局,自动分区并设置主机名、网络及时区,配置root密码后开始安装。安装完成后重启,拔出U盘,以root账号登录系统,即可使用命令行进行操作。
423 157
|
2月前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
本文系统解析Android崩溃捕获原理,涵盖Java与Native层崩溃的捕获机制、核心技术难点及解决方案,介绍基于Breakpad的Minidump生成、堆栈回溯与符号化解析实践,实现崩溃信息可靠采集与精准归因。
240 5
|
2月前
|
机器人 数据挖掘 API
一个销售数据分析机器人的诞生:看 Dify 如何在 DMS 助力下实现自动化闭环
Dify 作为一款低代码 AI 应用开发平台,凭借其直观的可视化工作流编排能力,极大降低了大模型应用的开发门槛。
491 22
一个销售数据分析机器人的诞生:看 Dify 如何在 DMS 助力下实现自动化闭环
|
2月前
|
存储 SQL 运维
数据湖 vs 数据仓库 vs 数据湖仓一体:何时选哪种架构?——写给正在做数据平台的你
数据湖 vs 数据仓库 vs 数据湖仓一体:何时选哪种架构?——写给正在做数据平台的你
172 12
|
2月前
|
前端开发 Java 关系型数据库
诊所管理软件门诊系统源码,采用SpringBoot+Vue2.0+MySQL技术栈开发,已成功落地百余项目
诊所管理软件门诊系统,基于SpringBoot+Vue2.0+MySQL开发,专为中小诊所及连锁门诊打造信息化平台。支持电子处方、病历、检验检查、会员管理、智能诊断等功能,助力医疗机构实现数字化、智能化运营,已成功落地百余项目,稳定可靠,支持二次开发。
165 1
|
1月前
|
Oracle 安全 关系型数据库
Oracle Linux 9.7 发布 - Oracle 提供支持 RHEL 兼容发行版
Oracle Linux 9.7 发布 - Oracle 提供支持 RHEL 兼容发行版
260 114
Oracle Linux 9.7 发布 - Oracle 提供支持 RHEL 兼容发行版
|
1月前
|
自然语言处理 供应链 监控
电商RPA怎么选?从痛点到落地,这款LLM+RPA产品帮你全搞定
双11订单暴增、客服瘫痪、错单频发?电商“人海战术”已成增长枷锁。RPA技术正破解效率困局:自动处理订单、7×24小时智能客服、多平台数据同步、财务自动化核账。本文拆解电商RPA核心价值,揭秘LLM+RPA如何实现“所说即所得”,并推荐真正适配电商的智能助手——实在Agent,助企业降本提效,迈向自动化运营新时代。
414 110
|
2月前
|
PHP 数据库
告别蛮力:用生成器(Generator)优雅处理PHP海量数据
告别蛮力:用生成器(Generator)优雅处理PHP海量数据
|
1月前
|
存储 安全 数据安全/隐私保护
Joplin:一款真正属于你的开源笔记与待办事项应用
Joplin是一款免费开源的笔记工具,支持Markdown、多端同步与端到端加密,保障数据自主权。支持全平台使用,可同步至云存储,真正实现隐私安全与知识自由管理,是信息时代的理想笔记伴侣。(239字)
591 13

热门文章

最新文章