横扫11项榜单SOTA:高性能、全尺寸、超高效的多语嵌入模型F2LLM-v2来了

简介: F2LLM-v2问世,支持超200种语言,问鼎11项MTEB榜单,以全尺寸、全透明、全开源的姿态推动AI技术走向全球普惠。

在人工智能席卷全球的今天,你是否发现:大多数顶尖的 Embedding(嵌入)模型,在英语和中文环境下表现惊艳,但一旦切换到日语、韩语、德语或是小众语种,表现就大打折扣?你是否也曾在搭建 RAG(检索增强生成)系统时因为可选 Embedding 模型太少,找不到一款适合你算力的模型而发愁?

今天,蚂蚁集团 CodeFuse 团队联合上海交通大学给出了答案:F2LLM-v2 系列正式发布!它不仅打破了“英语中心主义”的壁垒,更以全开源的姿态,为全球开发者提供了一套高性能、全尺寸、极致高效的语义表征方案。

image.png


🚀 实力霸榜:横扫11项MTEB榜单

在衡量 Embedding 模型最权威的 MTEB(Massive Text Embedding Benchmark)评测中,F2LLM-v2 展现了统治级的表现:

  • 11项冠军:在德语、法语、波兰语、日语以及代码等 11 个语种/领域榜单中位列第一。
  • 全线碾压:即使是家族中的小个子成员,在同尺寸下也多次击败了 Qwen3-Embedding 和 EmbeddingGemma 等业界大模型。
  • 深度覆盖:从代码检索、医疗问答到语义相似度分析,430 个评测任务无死角覆盖。

image.png


🌍 极度包容:听懂世界,也听懂代码

F2LLM-v2 的强,源于其精心收集的训练语料:

  1. 282 种自然语言:不仅仅是中英,我们特别强化了此前被忽视的中低资源语言(如北欧语言、东南亚语言、日语、韩语、波斯语等),真正实现了语言包容性。
  2. 40+ 种编程语言:深入理解 Python, Java, Go 等主流代码及各类小众语言,是 RAG 和代码助手开发者的首选。
  3. 6000 万高质量样本:全部来自公开资源,经过严苛清洗,确保模型学到的是最纯粹、最广泛的知识。

image.png


⚡ 极致高效:从端侧到云端,随心所欲

我们深知,开发者在不同场景下对速度和性能的平衡有不同需求。F2LLM-v2 不止提供一个模型,而是一个完整的家族:

  • 全尺寸覆盖:从轻量化的 80M 到性能怪兽 14B,共 8 个不同尺寸。
  • 端侧友好:80M-330M 的小模型通过“模型裁剪”与“知识蒸馏”技术,在保持高性能的同时,能够完美运行在各种移动端设备上。
  • 俄罗斯套娃黑科技:支持动态维度调整!你可以在 8 维到全维度之间自由切换,在推理速度、存储成本与应用性能之间找到完美平衡点,无需重新训练。

image.png


🔓 纯粹开源:透明,才是对社区最好的回馈

目前市面上许多表现优异的模型往往是“黑盒”模型,要么只提供 API,要么不公开训练细节。但F2LLM-v2 选择走完全开源的路线。为了推动多语言 AI 的公平发展,我们宣布:

  • 模型全开源:所有尺寸权重均可下载。
  • 训练细节全透明:技术报告公开,揭秘如何构建这一庞大体系。
  • 代码与检查点全释放:让每一位研究者都能复现并更进一步。


🔗 立即体验

无论你是想提升多语言 RAG 的准确率,还是在寻找更高效的代码检索方案,F2LLM-v2 都是你不容错过的利器。


关于我们

我们是蚂蚁集团智能平台工程的全模态代码算法团队。F2LLM-v2 是我们继 C2LLM、D2LLM、E2LLM、F2LLM 之后,在 CodeFuse Embedding 开源模型系列的又一力作。

团队成立 3 年以来,在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶级会议发表论文 20 余篇,两次获得蚂蚁技术最高奖 T-Star ,1 次蚂蚁集团最高奖 SuperMA ,我们研发的 CodeFuse 项目连续两年蝉联学术开源先锋项目。

团队常年招聘研究型实习生,有志于 NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com,期待与你一起,探索AI的无限可能!🌟


如果您想更快地获取到最新信息,欢迎加入我们的微信群。







企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~

目录
相关文章
|
4天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
10686 60
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
4天前
|
人工智能 IDE API
2026年国内 Codex 安装教程和使用教程:GPT-5.4 完整指南
Codex已进化为AI编程智能体,不仅能补全代码,更能理解项目、自动重构、执行任务。本文详解国内安装、GPT-5.4接入、cc-switch中转配置及实战开发流程,助你从零掌握“描述需求→AI实现”的新一代工程范式。(239字)
2967 126
|
1天前
|
人工智能 自然语言处理 供应链
【最新】阿里云ClawHub Skill扫描:3万个AI Agent技能中的安全度量
阿里云扫描3万+AI Skill,发现AI检测引擎可识别80%+威胁,远高于传统引擎。
1188 1
|
10天前
|
人工智能 JavaScript API
解放双手!OpenClaw Agent Browser全攻略(阿里云+本地部署+免费API+网页自动化场景落地)
“让AI聊聊天、写代码不难,难的是让它自己打开网页、填表单、查数据”——2026年,无数OpenClaw用户被这个痛点困扰。参考文章直击核心:当AI只能“纸上谈兵”,无法实际操控浏览器,就永远成不了真正的“数字员工”。而Agent Browser技能的出现,彻底打破了这一壁垒——它给OpenClaw装上“上网的手和眼睛”,让AI能像真人一样打开网页、点击按钮、填写表单、提取数据,24小时不间断完成网页自动化任务。
2535 6
|
24天前
|
人工智能 JavaScript Ubuntu
5分钟上手龙虾AI!OpenClaw部署(阿里云+本地)+ 免费多模型配置保姆级教程(MiniMax、Claude、阿里云百炼)
OpenClaw(昵称“龙虾AI”)作为2026年热门的开源个人AI助手,由PSPDFKit创始人Peter Steinberger开发,核心优势在于“真正执行任务”——不仅能聊天互动,还能自动处理邮件、管理日程、订机票、写代码等,且所有数据本地处理,隐私完全可控。它支持接入MiniMax、Claude、GPT等多类大模型,兼容微信、Telegram、飞书等主流聊天工具,搭配100+可扩展技能,成为兼顾实用性与隐私性的AI工具首选。
24315 122

热门文章

最新文章