代码检索新王登基!CodeFuse开源C2LLM,用“注意力池化”刷新MTEB-Code榜单

简介: CodeFuse Embedding 家族最新成员 C2LLM 登顶 MTEB-Code 代码检索榜单,用注意力池化打破平均池化与 EOS 的僵局。

写代码时,你是否也曾在大海捞针,在海量代码库中苦苦寻找一个函数或解决方案?

在 RAG-for-Code 时代,一个强大的代码 Embedding 模型就是你的“智能导航仪”。但问题是,专为自然语言设计的 Embedding 模型,在理解结构严谨、逻辑性强的代码时,常常会“水土不服”。传统的池化策略,要么是平均池化,无法充分发挥大模型潜力,要么直接使用 EOS 表征,会因信息瓶颈而丢失关键细节。

现在,代码检索领域迎来了新的王者!

蚂蚁集团与上海交通大学继 F2LLM 后再度联手,重磅推出 C2LLM (Contrastive Code Large Language Models) 系列模型。我们通过基于注意力的创新池化机制,精准解决了代码表征的痛点,一举登顶权威代码榜单 MTEB-Code。

最重要的是,C2LLM 作为 CodeFuse Embedding 开源家族的第四位成员,将继续秉承开放精神,将模型权重、技术报告、使用方式全套回馈社区,希望能为代码大模型的研发提供一个更强的基线!

image.png

✨ C2LLM 核心亮点一览

  • 🏆 登顶榜首:C2LLM-7B 在权威的 MTEB-Code 代码榜单上力压群雄,总分排名第一,超越包括闭源模型在内的一众强手
  • 👑 小模型之王:C2LLM-0.5B 在 1B 以下尺寸模型中勇夺桂冠,性能甚至超越了许多 7B 参数量的模型,是轻量化部署的绝佳选择
  • 💡 独创架构:创新性地将注意力池化(PMA)引入代码 Embedding,让模型学会“抓重点”,告别信息瓶颈
  • 💯 完全开源:模型权重、训练细节以及使用方式全部开放,方便社区复现与二次开发

话不多说,直接上数据,感受 C2LLM 在 MTEB-Code 榜单上的王者表现:

image.png

💡 C2LLM 的独家秘方:会“抓重点”的注意力池化

如此卓越的性能背后,是我们在模型架构上的大胆创新。

我们发现,对于代码这种长序列、结构化的数据,传统的池化方法存在天然缺陷:

  • 平均池化 (Mean Pooling):像“大锅饭”,粗暴地将所有 Token 信息平均,无法体现代码中函数签名、关键逻辑等核心部分的重要性。
  • EOS 池化 (End-of-Sequence Pooling):将所有信息压缩到最后一个 Token,容易造成“信息瓶颈”,对于动辄上千行的代码文件尤其致命。

为了解决这个难题,我们为 C2LLM 引入了一个轻量而强大的模块——注意力池化 (PMA, Pooling by Multihead Attention)

image.png

你可以把 PMA 想象成给模型配上了一位聪明的“项目经理”。这位经理(一个可学习的查询向量)会审阅所有员工(代码 Token)的工作报告,然后根据当前的项目目标(检索任务),智能地为不同部分分配权重,提炼出最核心的信息,最终形成一份高度浓缩、直击要点的最终报告(也就是代码 Embedding)。

这种设计的优势显而易见:

  1. 精准聚合:模型能自主学习哪些代码部分(如函数定义、核心算法)对于理解代码意图最关键。
  2. 保留潜力:完美兼容 Qwen2.5-Coder 等先进代码大模型的因果注意力结构,充分释放其预训练能力。
  3. 灵活高效:在几乎不增加计算开销的同时,还能灵活控制输出的 Embedding 维度,对向量数据库非常友好。

📊 实力霸榜!MTEB-Code 成绩见真章

是骡子是马,拉出来遛遛!在被广泛认可的 MTEB-Code 榜单上,C2LLM 家族用实力证明了一切。该榜单包含 12 项不同的代码检索任务,全面考察模型的综合能力。

  • C2LLM-7B:总分高达 80.75,在所有开源和闭源模型中排名第一,尤其在面向代码的复杂自然语言查询任务上表现出色。
  • C2LLM-0.5B:75.46 的高分,不仅在 1B 以下模型中一骑绝尘,更是超越了 Qwen3-Embed-0.6B、INF-Retriever-7B 等更大参数的模型。

这一成绩充分证明,通过先进的架构设计,我们可以在不依赖海量私有数据的情况下,实现代码表征能力的巨大飞跃。

🚀 立即体验 C2LLM!

我们相信,开放是推动技术进步的最佳燃料。C2LLM 的所有成果现已开放,欢迎大家使用、研究和反馈!

期待 C2LLM 能成为你下一个 AI for Code 项目的得力干将,也欢迎社区在此基础上构建更强大的模型!

🌟 彩蛋预告:更全、更强的 CodeFuse Embedding 模型即将亮相

开源不息,进化不止。感谢社区一直以来对 CodeFuse 的支持与厚爱!

我们在此也提前向大家透露一个好消息:性能更强悍、语言支持更丰富的新版 C2LLMF2LLM 已经在加急研发中!我们致力于打造全能的 Embedding 模型,让 AI 能理解每一种自然语言和编程语言,让每一位开发者都能在海量代码中“精准导航”。代码智能的未来,邀您一同见证,敬请关注!

关于我们

我们是蚂蚁集团智能平台工程的全模态代码算法团队。C2LLM 是我们继 D2LLM、E2LLM、F2LLM 之后,在 CodeFuse Embedding 开源模型系列的又一力作。

团队成立3年以来,在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶级会议发表论文20余篇,两次获得蚂蚁技术最高奖 T-Star,1次蚂蚁集团最高奖 SuperMA,CodeFuse 项目连续两年蝉联学术开源先锋项目。团队常年招聘研究型实习生,有志于 NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com,期待科研路上与你同行!


如果您想更快地获取到最新信息,欢迎加入我们的微信群。







企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~

目录
相关文章
|
26天前
|
机器学习/深度学习 数据采集 人工智能
OpAgent:登顶WebArena的多模态Web GUI Agent
蚂蚁集团自研多模态Web智能体OpAgent,以71.6%的成功率登顶WebArena榜单。该方案通过层次化多任务微调构建基座,利用在线强化学习与混合奖励机制应对环境动态性,并结合模块化架构实现复杂任务的稳健执行与自我修正,刷新了Web智能体领域的SOTA纪录。
135 11
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2025 | Code Graph Model (CGM):图融合架构重塑代码大模型,探索AI代码研发新范式
代码图模型(CGM)通过专用适配器将仓库代码图集成到LLM的注意力机制中,在 SWE-Bench Lite 基准上实现了44.00%的问题解决率,相比先前开源方法提升了12.33%
386 9
|
1月前
|
机器学习/深度学习
机器学习特征工程:分类变量的数值化处理方法
分类特征编码是机器学习关键却常被低估的环节。Ordinal Encoding适用于有序类别(如学历),One-Hot Encoding消除顺序假象但易致维度爆炸,Target Encoding则通过目标均值处理高基数特征,需配合平滑与交叉验证防过拟合与数据泄露。
99 5
|
26天前
|
安全 C++
关系记忆不是越完整越好:chunk size 的隐性代价
本文揭示关系型RAG(如祝福/道歉生成)中一个反直觉真相:关系信息并非越完整越好。大chunk会将“可引用的触发点”异化为“需总结的材料”,诱使模型转向安全、抽象、概括性表达,丧失走心感。核心原则是——切分重在“可被直接引用”,而非“逻辑完整”。
|
13天前
|
人工智能 安全 JavaScript
阿里云上+本地部署OpenClaw(小龙虾)新手攻略:解锁10大必备Skills,零基础也能玩转AI助手
2026年,开源AI代理工具OpenClaw(昵称“小龙虾”)凭借“能实际做事”的核心优势,在GitHub斩获25万+星标,成为现象级AI工具。它最强大的魅力在于可扩展的Skills(技能包)系统——通过ClawHub插件市场的数百个技能,能让AI助手从简单聊天升级为处理办公、学习、日常事务的全能帮手。
13399 44
|
9月前
|
机器学习/深度学习 自然语言处理 安全
ACL 2025 | GALLa:用图结构增强代码大模型,让代码理解更精准!
通过级联多模态架构将代码结构图对齐到大模型表征中
662 69
|
26天前
|
人工智能 安全 测试技术
最近AI信息爆炸,但你现在最不该做的3个决定
面对AI冲击下的职业焦虑,本文以15年测试老兵视角提醒:春节前切勿盲目转行、冲动报课或自我否定。技术变革是渐进重构,而非一夜淘汰。稳住现有积累,梳理经验、优化简历、保持交流,方为当下最优解。
|
4月前
|
机器学习/深度学习 人工智能 前端开发
终端里的 AI 编程助手:OpenCode 使用指南
OpenCode 是开源的终端 AI 编码助手,支持 Claude、GPT-4 等模型,可在命令行完成代码编写、Bug 修复、项目重构。提供原生终端界面和上下文感知能力,适合全栈开发者和终端用户使用。
37961 10
|
8月前
|
XML 安全 数据安全/隐私保护
Okta核心协议SAML
SAML(安全断言标记语言)是一种开放标准,用于在身份提供商和服务提供商之间安全传递用户身份和权限信息,常用于实现单点登录(SSO),提升用户体验与安全性,简化企业用户管理。
763 89

热门文章

最新文章