代码检索新王登基！CodeFuse开源C2LLM，用“注意力池化”刷新MTEB-Code榜单-阿里云开发者社区

代码检索新王登基！CodeFuse开源C2LLM，用“注意力池化”刷新MTEB-Code榜单

2026-01-13 180

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CodeFuse Embedding 家族最新成员 C2LLM 登顶 MTEB-Code 代码检索榜单，用注意力池化打破平均池化与 EOS 的僵局。

写代码时，你是否也曾在大海捞针，在海量代码库中苦苦寻找一个函数或解决方案？

在 RAG-for-Code 时代，一个强大的代码 Embedding 模型就是你的“智能导航仪”。但问题是，专为自然语言设计的 Embedding 模型，在理解结构严谨、逻辑性强的代码时，常常会“水土不服”。传统的池化策略，要么是平均池化，无法充分发挥大模型潜力，要么直接使用 EOS 表征，会因信息瓶颈而丢失关键细节。

现在，代码检索领域迎来了新的王者！

蚂蚁集团与上海交通大学继 F2LLM 后再度联手，重磅推出 C2LLM (Contrastive Code Large Language Models) 系列模型。我们通过基于注意力的创新池化机制，精准解决了代码表征的痛点，一举登顶权威代码榜单 MTEB-Code。

最重要的是，C2LLM 作为 CodeFuse Embedding 开源家族的第四位成员，将继续秉承开放精神，将模型权重、技术报告、使用方式全套回馈社区，希望能为代码大模型的研发提供一个更强的基线！

✨ C2LLM 核心亮点一览

🏆 登顶榜首：C2LLM-7B 在权威的 MTEB-Code 代码榜单上力压群雄，总分排名第一，超越包括闭源模型在内的一众强手
👑 小模型之王：C2LLM-0.5B 在 1B 以下尺寸模型中勇夺桂冠，性能甚至超越了许多 7B 参数量的模型，是轻量化部署的绝佳选择
💡 独创架构：创新性地将注意力池化（PMA）引入代码 Embedding，让模型学会“抓重点”，告别信息瓶颈
💯 完全开源：模型权重、训练细节以及使用方式全部开放，方便社区复现与二次开发

话不多说，直接上数据，感受 C2LLM 在 MTEB-Code 榜单上的王者表现：

💡 C2LLM 的独家秘方：会“抓重点”的注意力池化

如此卓越的性能背后，是我们在模型架构上的大胆创新。

我们发现，对于代码这种长序列、结构化的数据，传统的池化方法存在天然缺陷：

平均池化 (Mean Pooling)：像“大锅饭”，粗暴地将所有 Token 信息平均，无法体现代码中函数签名、关键逻辑等核心部分的重要性。
EOS 池化 (End-of-Sequence Pooling)：将所有信息压缩到最后一个 Token，容易造成“信息瓶颈”，对于动辄上千行的代码文件尤其致命。

为了解决这个难题，我们为 C2LLM 引入了一个轻量而强大的模块——注意力池化 (PMA, Pooling by Multihead Attention) 。

你可以把 PMA 想象成给模型配上了一位聪明的“项目经理”。这位经理（一个可学习的查询向量）会审阅所有员工（代码 Token）的工作报告，然后根据当前的项目目标（检索任务），智能地为不同部分分配权重，提炼出最核心的信息，最终形成一份高度浓缩、直击要点的最终报告（也就是代码 Embedding）。

这种设计的优势显而易见：

精准聚合：模型能自主学习哪些代码部分（如函数定义、核心算法）对于理解代码意图最关键。
保留潜力：完美兼容 Qwen2.5-Coder 等先进代码大模型的因果注意力结构，充分释放其预训练能力。
灵活高效：在几乎不增加计算开销的同时，还能灵活控制输出的 Embedding 维度，对向量数据库非常友好。

📊 实力霸榜！MTEB-Code 成绩见真章

是骡子是马，拉出来遛遛！在被广泛认可的 MTEB-Code 榜单上，C2LLM 家族用实力证明了一切。该榜单包含 12 项不同的代码检索任务，全面考察模型的综合能力。

C2LLM-7B：总分高达 80.75，在所有开源和闭源模型中排名第一，尤其在面向代码的复杂自然语言查询任务上表现出色。
C2LLM-0.5B：以 75.46 的高分，不仅在 1B 以下模型中一骑绝尘，更是超越了 Qwen3-Embed-0.6B、INF-Retriever-7B 等更大参数的模型。

这一成绩充分证明，通过先进的架构设计，我们可以在不依赖海量私有数据的情况下，实现代码表征能力的巨大飞跃。

🚀 立即体验 C2LLM！

我们相信，开放是推动技术进步的最佳燃料。C2LLM 的所有成果现已开放，欢迎大家使用、研究和反馈！

📄 论文链接:https://arxiv.org/abs/2512.21332
💻 GitHub 代码库: https://github.com/codefuse-ai/CodeFuse-Embeddings
🤗 Hugging Face 模型: https://huggingface.co/collections/codefuse-ai/codefuse-embeddings

期待 C2LLM 能成为你下一个 AI for Code 项目的得力干将，也欢迎社区在此基础上构建更强大的模型！

🌟 彩蛋预告：更全、更强的 CodeFuse Embedding 模型即将亮相

开源不息，进化不止。感谢社区一直以来对 CodeFuse 的支持与厚爱！

我们在此也提前向大家透露一个好消息：性能更强悍、语言支持更丰富的新版 C2LLM 和 F2LLM 已经在加急研发中！我们致力于打造全能的 Embedding 模型，让 AI 能理解每一种自然语言和编程语言，让每一位开发者都能在海量代码中“精准导航”。代码智能的未来，邀您一同见证，敬请关注！

关于我们

我们是蚂蚁集团智能平台工程的全模态代码算法团队。C2LLM 是我们继 D2LLM、E2LLM、F2LLM 之后，在 CodeFuse Embedding 开源模型系列的又一力作。

团队成立3年以来，在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶级会议发表论文20余篇，两次获得蚂蚁技术最高奖 T-Star，1次蚂蚁集团最高奖 SuperMA，CodeFuse 项目连续两年蝉联学术开源先锋项目。团队常年招聘研究型实习生，有志于 NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com，期待科研路上与你同行！

如果您想更快地获取到最新信息，欢迎加入我们的微信群。

企业用户如有需求，加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~

代码检索新王登基！CodeFuse开源C2LLM，用“注意力池化”刷新MTEB-Code榜单

✨ C2LLM 核心亮点一览

💡 C2LLM 的独家秘方：会“抓重点”的注意力池化

📊 实力霸榜！MTEB-Code 成绩见真章

🚀 立即体验 C2LLM！

🌟 彩蛋预告：更全、更强的 CodeFuse Embedding 模型即将亮相

关于我们

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

代码检索新王登基！CodeFuse开源C2LLM，用“注意力池化”刷新MTEB-Code榜单

✨ C2LLM 核心亮点一览

💡 C2LLM 的独家秘方：会“抓重点”的注意力池化

📊 实力霸榜！MTEB-Code 成绩见真章

🚀 立即体验 C2LLM！

🌟 彩蛋预告：更全、更强的 CodeFuse Embedding 模型即将亮相

关于我们

热门文章

最新文章

相关电子书