在 NeurIPS 2025 上,我们将展示 Code Graph Model (CGM):一种将代码库图结构无缝集成到开源 LLM 中的创新方法。截止 2025 年 5 月,CGM 在权威榜单 SWE-bench Lite 上达到 44.00% 的解决率,首次在代码库级任务上以非 Agent 方案登顶开放权重模型榜首,性能超越现有最佳开源模型 12.33%,解决了复杂软件工程的 Agent 依赖难题!
关于CGM的详细技术解读在我们之前的公众号文章中:CGM背后的黑科技——代码图融合架构深度解析
Arxiv:https://arxiv.org/abs/2505.16901
GitHub:https://github.com/codefuse-ai/CodeFuse-CGM
HuggingFace:https://huggingface.co/codefuse-ai
▍背景:代码库级任务的挑战与Agent的局限
随着大语言模型(LLM)的发展,函数级的代码生成已日趋成熟,但代码库级的软件工程任务(如修复复杂 Bug、跨文件功能开发)仍然是一个巨大的挑战。
现有的主流解决方案通常依赖于智能体(Agent)框架。这些框架通过模拟人类开发者的行为,进行多轮的规划、浏览和调试。然而,Agent 方案也带来了明显的局限性:
- 不可预测性:多轮交互容易导致误差累积,路径难以控制。
- 效率瓶颈:反复调用模型和工具,推理成本高昂。
- 隐私与部署难题:高性能 Agent 往往依赖闭源模型(如 GPT, Claude),难以在本地私有化部署。
我们思考了一个核心问题:开源 LLM 能否不依赖复杂的 Agent 流程,直接通过理解代码库结构来解决这些难题?
▍CGM:图与文的深度融合
为了回答上述问题,我们提出了 Code Graph Model (CGM)。这是一种全新的架构,它不再将代码库仅仅视为一堆文本文件的集合,而是通过 代码图(Code Graph)来显式建模代码实体之间的层级与依赖关系。
1. 代码图构建 (Code Graph Construction)
CGM 首先将代码库解析为一个结构化的图。
- 节点(Nodes):代表代码实体,如函数(Function)、类(Class)、文件(File)和包(Package)。
- 边(Edges):代表依赖关系,如调用(Call)、包含(Include/Import)和继承(Inheritance)。
这种结构化表示能够跨越文件边界,精准捕捉代码的逻辑脉络。
2. 语义与结构的双重集成
不同于简单的 RAG(检索增强生成),CGM 深入模型底层进行了改造:
- 结构集成:我们将代码图的拓扑结构直接融入 LLM 的注意力机制中,通过 Graph Mask 让模型在注意力计算时能“感知”到代码的依赖关系。
- 语义集成:利用专门设计的 Adapter,将图中节点的属性映射到 LLM 的输入空间,使模型能同时理解代码的语义文本和结构信息。
3. Agentless Graph RAG 框架
为了处理超大规模的代码库,我们设计了一套非 Agent 的 Graph RAG 流程:
- Rewriter:重写用户问题,使其更适合检索。
- Retriever & Reranker:在代码图中检索与问题最相关的子图。
- Reader (CGM):CGM 模型接收检索到的子图和问题,利用其对结构的深刻理解,一次性生成解决方案。
这种“一次检索,一次生成”的模式,彻底摒弃了 Agent 繁琐的循环迭代。
▍实验结果:开源模型的新高度
在权威的代码库级基准测试 SWE-bench Lite 的评估中,CGM 取得了 44.00% 的问题解决率,展现出卓越的 SOTA 性能。这一成绩不仅超越了多数复杂 Agent 方案,更在开放权重模型中位列榜首(截至2025年5月)。相比于此前最佳的开源模型,CGM 实现了 12.33% 的显著性能跃升。
▍总结
CGM 的提出证明了:通过有效地融合代码图结构,开源模型完全具备在单次推理中解决复杂代码库级任务的能力。这不仅大幅降低了推理成本和延迟,也为私有化部署高性能代码助手提供了一条切实可行的技术路径。
让我们 NeurIPS 2025 见,See you in San Diego!
▍关于我们
我们是蚂蚁集团智能平台工程的全模态代码算法团队,团队成立 3 年以来,在 ACL、ICLR、NeurIPS、KDD 等顶级会论发表论文20余篇,参与获得两次蚂蚁技术最高奖 T-Star, 1 次蚂蚁集团最高奖 SuperMA。团队常年招聘研究型实习生,有做NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com。
如果您想更快地获取到最新信息,欢迎加入我们的微信群。
企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~