代码检索新王登基!CodeFuse开源C2LLM,用“注意力池化”刷新MTEB-Code榜单

简介: CodeFuse Embedding 家族最新成员 C2LLM 登顶 MTEB-Code 代码检索榜单,用注意力池化打破平均池化与 EOS 的僵局。

写代码时,你是否也曾在大海捞针,在海量代码库中苦苦寻找一个函数或解决方案?

在 RAG-for-Code 时代,一个强大的代码 Embedding 模型就是你的“智能导航仪”。但问题是,专为自然语言设计的 Embedding 模型,在理解结构严谨、逻辑性强的代码时,常常会“水土不服”。传统的池化策略,要么是平均池化,无法充分发挥大模型潜力,要么直接使用 EOS 表征,会因信息瓶颈而丢失关键细节。

现在,代码检索领域迎来了新的王者!

蚂蚁集团与上海交通大学继 F2LLM 后再度联手,重磅推出 C2LLM (Contrastive Code Large Language Models) 系列模型。我们通过基于注意力的创新池化机制,精准解决了代码表征的痛点,一举登顶权威代码榜单 MTEB-Code。

最重要的是,C2LLM 作为 CodeFuse Embedding 开源家族的第四位成员,将继续秉承开放精神,将模型权重、技术报告、使用方式全套回馈社区,希望能为代码大模型的研发提供一个更强的基线!

image.png

✨ C2LLM 核心亮点一览

  • 🏆 登顶榜首:C2LLM-7B 在权威的 MTEB-Code 代码榜单上力压群雄,总分排名第一,超越包括闭源模型在内的一众强手
  • 👑 小模型之王:C2LLM-0.5B 在 1B 以下尺寸模型中勇夺桂冠,性能甚至超越了许多 7B 参数量的模型,是轻量化部署的绝佳选择
  • 💡 独创架构:创新性地将注意力池化(PMA)引入代码 Embedding,让模型学会“抓重点”,告别信息瓶颈
  • 💯 完全开源:模型权重、训练细节以及使用方式全部开放,方便社区复现与二次开发

话不多说,直接上数据,感受 C2LLM 在 MTEB-Code 榜单上的王者表现:

image.png

💡 C2LLM 的独家秘方:会“抓重点”的注意力池化

如此卓越的性能背后,是我们在模型架构上的大胆创新。

我们发现,对于代码这种长序列、结构化的数据,传统的池化方法存在天然缺陷:

  • 平均池化 (Mean Pooling):像“大锅饭”,粗暴地将所有 Token 信息平均,无法体现代码中函数签名、关键逻辑等核心部分的重要性。
  • EOS 池化 (End-of-Sequence Pooling):将所有信息压缩到最后一个 Token,容易造成“信息瓶颈”,对于动辄上千行的代码文件尤其致命。

为了解决这个难题,我们为 C2LLM 引入了一个轻量而强大的模块——注意力池化 (PMA, Pooling by Multihead Attention)

image.png

你可以把 PMA 想象成给模型配上了一位聪明的“项目经理”。这位经理(一个可学习的查询向量)会审阅所有员工(代码 Token)的工作报告,然后根据当前的项目目标(检索任务),智能地为不同部分分配权重,提炼出最核心的信息,最终形成一份高度浓缩、直击要点的最终报告(也就是代码 Embedding)。

这种设计的优势显而易见:

  1. 精准聚合:模型能自主学习哪些代码部分(如函数定义、核心算法)对于理解代码意图最关键。
  2. 保留潜力:完美兼容 Qwen2.5-Coder 等先进代码大模型的因果注意力结构,充分释放其预训练能力。
  3. 灵活高效:在几乎不增加计算开销的同时,还能灵活控制输出的 Embedding 维度,对向量数据库非常友好。

📊 实力霸榜!MTEB-Code 成绩见真章

是骡子是马,拉出来遛遛!在被广泛认可的 MTEB-Code 榜单上,C2LLM 家族用实力证明了一切。该榜单包含 12 项不同的代码检索任务,全面考察模型的综合能力。

  • C2LLM-7B:总分高达 80.75,在所有开源和闭源模型中排名第一,尤其在面向代码的复杂自然语言查询任务上表现出色。
  • C2LLM-0.5B:75.46 的高分,不仅在 1B 以下模型中一骑绝尘,更是超越了 Qwen3-Embed-0.6B、INF-Retriever-7B 等更大参数的模型。

这一成绩充分证明,通过先进的架构设计,我们可以在不依赖海量私有数据的情况下,实现代码表征能力的巨大飞跃。

🚀 立即体验 C2LLM!

我们相信,开放是推动技术进步的最佳燃料。C2LLM 的所有成果现已开放,欢迎大家使用、研究和反馈!

期待 C2LLM 能成为你下一个 AI for Code 项目的得力干将,也欢迎社区在此基础上构建更强大的模型!

🌟 彩蛋预告:更全、更强的 CodeFuse Embedding 模型即将亮相

开源不息,进化不止。感谢社区一直以来对 CodeFuse 的支持与厚爱!

我们在此也提前向大家透露一个好消息:性能更强悍、语言支持更丰富的新版 C2LLMF2LLM 已经在加急研发中!我们致力于打造全能的 Embedding 模型,让 AI 能理解每一种自然语言和编程语言,让每一位开发者都能在海量代码中“精准导航”。代码智能的未来,邀您一同见证,敬请关注!

关于我们

我们是蚂蚁集团智能平台工程的全模态代码算法团队。C2LLM 是我们继 D2LLM、E2LLM、F2LLM 之后,在 CodeFuse Embedding 开源模型系列的又一力作。

团队成立3年以来,在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶级会议发表论文20余篇,两次获得蚂蚁技术最高奖 T-Star,1次蚂蚁集团最高奖 SuperMA,CodeFuse 项目连续两年蝉联学术开源先锋项目。团队常年招聘研究型实习生,有志于 NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com,期待科研路上与你同行!


如果您想更快地获取到最新信息,欢迎加入我们的微信群。







企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~

目录
相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 安全
ACL 2025 | GALLa:用图结构增强代码大模型,让代码理解更精准!
通过级联多模态架构将代码结构图对齐到大模型表征中
623 69
|
3月前
|
人工智能 自然语言处理 架构师
跳槽加分项:掌握Dify工作流,我薪资涨了40%
一年前我还是月薪25K的全栈工程师,如今凭借掌握Dify工作流,成功转型为AI应用架构师,拿下35K offer,薪资涨幅40%。通过实战项目积累、简历优化与面试话术升级,我将Dify技能转化为职场竞争力,实现职业跃迁。Dify不仅降低了AI开发门槛,更成为我涨薪的“密码”。你也可以!
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2025 | Code Graph Model (CGM):图融合架构重塑代码大模型,探索AI代码研发新范式
代码图模型(CGM)通过专用适配器将仓库代码图集成到LLM的注意力机制中,在 SWE-Bench Lite 基准上实现了44.00%的问题解决率,相比先前开源方法提升了12.33%
304 9
|
18天前
|
存储 机器学习/深度学习 人工智能
大模型应用:LangChain核心组件深度解析:llms与embeddings.3
LangChain是构建大语言模型(LLM)应用的开源框架,核心包含LLMs(文本生成/对话)与Embeddings(文本向量化/语义检索)两大组件。其典型RAG架构实现“查询嵌入→向量检索→Prompt构建→LLM生成”闭环,支持文档问答等智能应用。(239字)
286 8
|
2月前
|
SpringCloudAlibaba Java Nacos
SpringCloud概述
Spring Cloud是Spring推出的微服务一站式解决方案,整合多种技术,实现服务注册发现、配置管理、负载均衡等功能。约定大于配置,开箱即用,支持云原生。Netflix组件停更后,Spring Cloud Alibaba成为主流,集成Nacos、Sentinel、Seata等阿里开源组件,提供完整微服务生态支持。
233 0
|
21天前
|
测试技术 API
小而强,GLM-4.7-Flash开源
GLM-4.7-Flash正式开源,30B总参、3B激活参数,兼顾性能与效率,支持免费调用。在编程、中文写作、翻译等多场景表现优异,已上线智谱平台,替代GLM-4.5-Flash,提供全新轻量化部署选择。
871 1
|
3月前
|
人工智能 IDE Java
我们从零开始实现了一个cursor的codebase功能(踩了很多RAG的坑)
VoidMuse 是一个以学习为目标的开源AI IDE插件,支持IntelliJ IDEA与VS Code,集成20+优秀开源组件,助力开发者在实践中掌握AI工程化技术。本文深入解析其基于混合检索的Codebase实现,涵盖向量化、索引构建与检索优化,助你真正理解并应用Function Call等核心技术。
630 5
我们从零开始实现了一个cursor的codebase功能(踩了很多RAG的坑)
|
7月前
|
XML 安全 数据安全/隐私保护
Okta核心协议SAML
SAML(安全断言标记语言)是一种开放标准,用于在身份提供商和服务提供商之间安全传递用户身份和权限信息,常用于实现单点登录(SSO),提升用户体验与安全性,简化企业用户管理。
727 89
|
12月前
|
云安全 人工智能 安全
《大模型安全研究报告(2024年)》正式发布
《大模型安全研究报告(2024年)》正式发布