横扫11项榜单SOTA：高性能、全尺寸、超高效的多语嵌入模型F2LLM-v2来了-阿里云开发者社区

横扫11项榜单SOTA：高性能、全尺寸、超高效的多语嵌入模型F2LLM-v2来了

2026-03-26 12

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： F2LLM-v2问世，支持超200种语言，问鼎11项MTEB榜单，以全尺寸、全透明、全开源的姿态推动AI技术走向全球普惠。

在人工智能席卷全球的今天，你是否发现：大多数顶尖的 Embedding（嵌入）模型，在英语和中文环境下表现惊艳，但一旦切换到日语、韩语、德语或是小众语种，表现就大打折扣？你是否也曾在搭建 RAG（检索增强生成）系统时因为可选 Embedding 模型太少，找不到一款适合你算力的模型而发愁？

今天，蚂蚁集团 CodeFuse 团队联合上海交通大学给出了答案：F2LLM-v2 系列正式发布！它不仅打破了“英语中心主义”的壁垒，更以全开源的姿态，为全球开发者提供了一套高性能、全尺寸、极致高效的语义表征方案。

🚀 实力霸榜：横扫11项MTEB榜单

在衡量 Embedding 模型最权威的 MTEB（Massive Text Embedding Benchmark）评测中，F2LLM-v2 展现了统治级的表现：

11项冠军：在德语、法语、波兰语、日语以及代码等 11 个语种/领域榜单中位列第一。
全线碾压：即使是家族中的小个子成员，在同尺寸下也多次击败了 Qwen3-Embedding 和 EmbeddingGemma 等业界大模型。
深度覆盖：从代码检索、医疗问答到语义相似度分析，430 个评测任务无死角覆盖。

🌍 极度包容：听懂世界，也听懂代码

F2LLM-v2 的强，源于其精心收集的训练语料：

282 种自然语言：不仅仅是中英，我们特别强化了此前被忽视的中低资源语言（如北欧语言、东南亚语言、日语、韩语、波斯语等），真正实现了语言包容性。
40+ 种编程语言：深入理解 Python, Java, Go 等主流代码及各类小众语言，是 RAG 和代码助手开发者的首选。
6000 万高质量样本：全部来自公开资源，经过严苛清洗，确保模型学到的是最纯粹、最广泛的知识。

⚡ 极致高效：从端侧到云端，随心所欲

我们深知，开发者在不同场景下对速度和性能的平衡有不同需求。F2LLM-v2 不止提供一个模型，而是一个完整的家族：

全尺寸覆盖：从轻量化的 80M 到性能怪兽 14B，共 8 个不同尺寸。
端侧友好：80M-330M 的小模型通过“模型裁剪”与“知识蒸馏”技术，在保持高性能的同时，能够完美运行在各种移动端设备上。
俄罗斯套娃黑科技：支持动态维度调整！你可以在 8 维到全维度之间自由切换，在推理速度、存储成本与应用性能之间找到完美平衡点，无需重新训练。

🔓 纯粹开源：透明，才是对社区最好的回馈

目前市面上许多表现优异的模型往往是“黑盒”模型，要么只提供 API，要么不公开训练细节。但F2LLM-v2 选择走完全开源的路线。为了推动多语言 AI 的公平发展，我们宣布：

模型全开源：所有尺寸权重均可下载。
训练细节全透明：技术报告公开，揭秘如何构建这一庞大体系。
代码与检查点全释放：让每一位研究者都能复现并更进一步。

🔗 立即体验

无论你是想提升多语言 RAG 的准确率，还是在寻找更高效的代码检索方案，F2LLM-v2 都是你不容错过的利器。

技术报告：https://arxiv.org/abs/2603.19223
GitHub 仓库：https://github.com/codefuse-ai/CodeFuse-Embeddings
HuggingFace 模型库：https://huggingface.co/collections/codefuse-ai/f2llm

关于我们

我们是蚂蚁集团智能平台工程的全模态代码算法团队。F2LLM-v2 是我们继 C2LLM、D2LLM、E2LLM、F2LLM 之后，在 CodeFuse Embedding 开源模型系列的又一力作。

团队成立 3 年以来，在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶级会议发表论文 20 余篇，两次获得蚂蚁技术最高奖 T-Star ，1 次蚂蚁集团最高奖 SuperMA ，我们研发的 CodeFuse 项目连续两年蝉联学术开源先锋项目。

团队常年招聘研究型实习生，有志于 NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com，期待与你一起，探索AI的无限可能！🌟

如果您想更快地获取到最新信息，欢迎加入我们的微信群。

企业用户如有需求，加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~

横扫11项榜单SOTA：高性能、全尺寸、超高效的多语嵌入模型F2LLM-v2来了

🚀 实力霸榜：横扫11项MTEB榜单

🌍 极度包容：听懂世界，也听懂代码

⚡ 极致高效：从端侧到云端，随心所欲

🔓 纯粹开源：透明，才是对社区最好的回馈

🔗 立即体验

关于我们

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

横扫11项榜单SOTA：高性能、全尺寸、超高效的多语嵌入模型F2LLM-v2来了

🚀 实力霸榜：横扫11项MTEB榜单

🌍 极度包容：听懂世界，也听懂代码

⚡ 极致高效：从端侧到云端，随心所欲

🔓 纯粹开源：透明，才是对社区最好的回馈

🔗 立即体验

关于我们

热门文章

最新文章

相关电子书