NeurIPS 2025 | Code Graph Model (CGM):图融合架构重塑代码大模型,探索AI代码研发新范式

简介: 代码图模型(CGM)通过专用适配器将仓库代码图集成到LLM的注意力机制中,在 SWE-Bench Lite 基准上实现了44.00%的问题解决率,相比先前开源方法提升了12.33%

在 NeurIPS 2025 上,我们将展示 Code Graph Model (CGM):一种将代码库图结构无缝集成到开源 LLM 中的创新方法。截止 2025 年 5 月,CGM 在权威榜单 SWE-bench Lite 上达到 44.00% 的解决率,首次在代码库级任务上以非 Agent 方案登顶开放权重模型榜首,性能超越现有最佳开源模型 12.33%,解决了复杂软件工程的 Agent 依赖难题!

关于CGM的详细技术解读在我们之前的公众号文章中:CGM背后的黑科技——代码图融合架构深度解析

Arxiv:https://arxiv.org/abs/2505.16901

GitHub:https://github.com/codefuse-ai/CodeFuse-CGM

HuggingFace:https://huggingface.co/codefuse-ai

▍背景:代码库级任务的挑战与Agent的局限

随着大语言模型(LLM)的发展,函数级的代码生成已日趋成熟,但代码库级的软件工程任务(如修复复杂 Bug、跨文件功能开发)仍然是一个巨大的挑战。

现有的主流解决方案通常依赖于智能体(Agent)框架。这些框架通过模拟人类开发者的行为,进行多轮的规划、浏览和调试。然而,Agent 方案也带来了明显的局限性:

  • 不可预测性:多轮交互容易导致误差累积,路径难以控制。
  • 效率瓶颈:反复调用模型和工具,推理成本高昂。
  • 隐私与部署难题:高性能 Agent 往往依赖闭源模型(如 GPT, Claude),难以在本地私有化部署。

我们思考了一个核心问题:开源 LLM 能否不依赖复杂的 Agent 流程,直接通过理解代码库结构来解决这些难题?

▍CGM:图与文的深度融合

为了回答上述问题,我们提出了 Code Graph Model (CGM)。这是一种全新的架构,它不再将代码库仅仅视为一堆文本文件的集合,而是通过 代码图(Code Graph)来显式建模代码实体之间的层级与依赖关系。

image.png

1. 代码图构建 (Code Graph Construction)

CGM 首先将代码库解析为一个结构化的图。

  • 节点(Nodes):代表代码实体,如函数(Function)、类(Class)、文件(File)和包(Package)。
  • 边(Edges):代表依赖关系,如调用(Call)、包含(Include/Import)和继承(Inheritance)。

这种结构化表示能够跨越文件边界,精准捕捉代码的逻辑脉络。

image.png

2. 语义与结构的双重集成

不同于简单的 RAG(检索增强生成),CGM 深入模型底层进行了改造:

  • 结构集成:我们将代码图的拓扑结构直接融入 LLM 的注意力机制中,通过 Graph Mask 让模型在注意力计算时能“感知”到代码的依赖关系。
  • 语义集成:利用专门设计的 Adapter,将图中节点的属性映射到 LLM 的输入空间,使模型能同时理解代码的语义文本和结构信息。

image.png

3. Agentless Graph RAG 框架

为了处理超大规模的代码库,我们设计了一套非 Agent 的 Graph RAG 流程:

  1. Rewriter:重写用户问题,使其更适合检索。
  2. Retriever & Reranker:在代码图中检索与问题最相关的子图。
  3. Reader (CGM):CGM 模型接收检索到的子图和问题,利用其对结构的深刻理解,一次性生成解决方案。

这种“一次检索,一次生成”的模式,彻底摒弃了 Agent 繁琐的循环迭代。

image.png

▍实验结果:开源模型的新高度

在权威的代码库级基准测试 SWE-bench Lite 的评估中,CGM 取得了 44.00% 的问题解决率,展现出卓越的 SOTA 性能。这一成绩不仅超越了多数复杂 Agent 方案,更在开放权重模型中位列榜首(截至2025年5月)。相比于此前最佳的开源模型,CGM 实现了 12.33% 的显著性能跃升。

image.png

▍总结

CGM 的提出证明了:通过有效地融合代码图结构,开源模型完全具备在单次推理中解决复杂代码库级任务的能力。这不仅大幅降低了推理成本和延迟,也为私有化部署高性能代码助手提供了一条切实可行的技术路径。

让我们 NeurIPS 2025 见,See you in San Diego!

image.png

关于我们

我们是蚂蚁集团智能平台工程的全模态代码算法团队,团队成立 3 年以来,在 ACL、ICLR、NeurIPS、KDD 等顶级会论发表论文20余篇,参与获得两次蚂蚁技术最高奖 T-Star, 1 次蚂蚁集团最高奖 SuperMA。团队常年招聘研究型实习生,有做NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com。


如果您想更快地获取到最新信息,欢迎加入我们的微信群。

image.png

企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~


目录
相关文章
|
机器学习/深度学习 自然语言处理 安全
ACL 2025 | GALLa:用图结构增强代码大模型,让代码理解更精准!
通过级联多模态架构将代码结构图对齐到大模型表征中
893 69
|
3月前
|
机器学习/深度学习 人工智能 算法
ICLR 2026|面向问题 + 锚点验证,解锁 LLM 代码优化新范式
软件工程中代码效率优化至关重要。本文提出一种全新大模型代码优化方案,采用面向问题的优化视角与锚点验证框架,突破局部改进局限与优化税瓶颈,显著提升优化效果、执行效率与代码可靠性,为大模型自动化高性能代码生成开辟实用化新路径。
339 0
|
4月前
|
机器学习/深度学习 数据采集 人工智能
OpAgent:登顶WebArena的多模态Web GUI Agent
蚂蚁集团自研多模态Web智能体OpAgent,以71.6%的成功率登顶WebArena榜单。该方案通过层次化多任务微调构建基座,利用在线强化学习与混合奖励机制应对环境动态性,并结合模块化架构实现复杂任务的稳健执行与自我修正,刷新了Web智能体领域的SOTA纪录。
530 11
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
代码检索新王登基!CodeFuse开源C2LLM,用“注意力池化”刷新MTEB-Code榜单
CodeFuse Embedding 家族最新成员 C2LLM 登顶 MTEB-Code 代码检索榜单,用注意力池化打破平均池化与 EOS 的僵局。
408 0
代码检索新王登基!CodeFuse开源C2LLM,用“注意力池化”刷新MTEB-Code榜单
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
开源 | OpAgent v0.2.0 发布,开放在线体验 Demo 和量化模型!
SOTA Web 智能体 OpAgent 发布 v0.2.0 版本,新增在线体验 Demo 和量化模型,教你部署属于自己的 Web 智能体。
262 1
开源 | OpAgent v0.2.0 发布,开放在线体验 Demo 和量化模型!
|
7月前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
本文系统解析Android崩溃捕获原理,涵盖Java与Native层崩溃的捕获机制、核心技术难点及解决方案,介绍基于Breakpad的Minidump生成、堆栈回溯与符号化解析实践,实现崩溃信息可靠采集与精准归因。
494 5
|
6月前
|
自然语言处理 供应链 监控
电商RPA怎么选?从痛点到落地,这款LLM+RPA产品帮你全搞定
双11订单暴增、客服瘫痪、错单频发?电商“人海战术”已成增长枷锁。RPA技术正破解效率困局:自动处理订单、7×24小时智能客服、多平台数据同步、财务自动化核账。本文拆解电商RPA核心价值,揭秘LLM+RPA如何实现“所说即所得”,并推荐真正适配电商的智能助手——实在Agent,助企业降本提效,迈向自动化运营新时代。
777 110
|
6月前
|
Oracle 安全 关系型数据库
Oracle Linux 9.7 发布 - Oracle 提供支持 RHEL 兼容发行版
Oracle Linux 9.7 发布 - Oracle 提供支持 RHEL 兼容发行版
557 114
Oracle Linux 9.7 发布 - Oracle 提供支持 RHEL 兼容发行版
|
6月前
|
前端开发 JavaScript 容器
Element UI 多级菜单缩进的动态控制:从原理到工程化实践
本文深入解析Element UI多级菜单缩进无法动态配置的痛点,通过分析其CSS实现机制,提出基于预设类和CSS变量的两种高效解决方案,支持Vue 2/3环境,兼顾性能与可维护性,并提供工程化封装建议,助力遗留系统优雅实现动态缩进,同时倡导向Element Plus迁移。
284 1