在人工智能席卷全球的今天,你是否发现:大多数顶尖的 Embedding(嵌入)模型,在英语和中文环境下表现惊艳,但一旦切换到日语、韩语、德语或是小众语种,表现就大打折扣?你是否也曾在搭建 RAG(检索增强生成)系统时因为可选 Embedding 模型太少,找不到一款适合你算力的模型而发愁?
今天,蚂蚁集团 CodeFuse 团队联合上海交通大学给出了答案:F2LLM-v2 系列正式发布!它不仅打破了“英语中心主义”的壁垒,更以全开源的姿态,为全球开发者提供了一套高性能、全尺寸、极致高效的语义表征方案。
🚀 实力霸榜:横扫11项MTEB榜单
在衡量 Embedding 模型最权威的 MTEB(Massive Text Embedding Benchmark)评测中,F2LLM-v2 展现了统治级的表现:
- 11项冠军:在德语、法语、波兰语、日语以及代码等 11 个语种/领域榜单中位列第一。
- 全线碾压:即使是家族中的小个子成员,在同尺寸下也多次击败了 Qwen3-Embedding 和 EmbeddingGemma 等业界大模型。
- 深度覆盖:从代码检索、医疗问答到语义相似度分析,430 个评测任务无死角覆盖。
🌍 极度包容:听懂世界,也听懂代码
F2LLM-v2 的强,源于其精心收集的训练语料:
- 282 种自然语言:不仅仅是中英,我们特别强化了此前被忽视的中低资源语言(如北欧语言、东南亚语言、日语、韩语、波斯语等),真正实现了语言包容性。
- 40+ 种编程语言:深入理解 Python, Java, Go 等主流代码及各类小众语言,是 RAG 和代码助手开发者的首选。
- 6000 万高质量样本:全部来自公开资源,经过严苛清洗,确保模型学到的是最纯粹、最广泛的知识。
⚡ 极致高效:从端侧到云端,随心所欲
我们深知,开发者在不同场景下对速度和性能的平衡有不同需求。F2LLM-v2 不止提供一个模型,而是一个完整的家族:
- 全尺寸覆盖:从轻量化的 80M 到性能怪兽 14B,共 8 个不同尺寸。
- 端侧友好:80M-330M 的小模型通过“模型裁剪”与“知识蒸馏”技术,在保持高性能的同时,能够完美运行在各种移动端设备上。
- 俄罗斯套娃黑科技:支持动态维度调整!你可以在 8 维到全维度之间自由切换,在推理速度、存储成本与应用性能之间找到完美平衡点,无需重新训练。
🔓 纯粹开源:透明,才是对社区最好的回馈
目前市面上许多表现优异的模型往往是“黑盒”模型,要么只提供 API,要么不公开训练细节。但F2LLM-v2 选择走完全开源的路线。为了推动多语言 AI 的公平发展,我们宣布:
- 模型全开源:所有尺寸权重均可下载。
- 训练细节全透明:技术报告公开,揭秘如何构建这一庞大体系。
- 代码与检查点全释放:让每一位研究者都能复现并更进一步。
🔗 立即体验
无论你是想提升多语言 RAG 的准确率,还是在寻找更高效的代码检索方案,F2LLM-v2 都是你不容错过的利器。
- 技术报告:https://arxiv.org/abs/2603.19223
- GitHub 仓库:https://github.com/codefuse-ai/CodeFuse-Embeddings
- HuggingFace 模型库:https://huggingface.co/collections/codefuse-ai/f2llm
关于我们
我们是蚂蚁集团智能平台工程的全模态代码算法团队。F2LLM-v2 是我们继 C2LLM、D2LLM、E2LLM、F2LLM 之后,在 CodeFuse Embedding 开源模型系列的又一力作。
团队成立 3 年以来,在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶级会议发表论文 20 余篇,两次获得蚂蚁技术最高奖 T-Star ,1 次蚂蚁集团最高奖 SuperMA ,我们研发的 CodeFuse 项目连续两年蝉联学术开源先锋项目。
团队常年招聘研究型实习生,有志于 NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com,期待与你一起,探索AI的无限可能!🌟
如果您想更快地获取到最新信息,欢迎加入我们的微信群。
企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~