Qwen3-VL-Embedding系列上新:探索统一多模态表征与排序

简介: 2025年6月,Qwen3-VL-Embedding与Qwen3-VL-Reranker开源,基于Qwen3-VL打造,支持文本、图像、视频等多模态检索与跨模态理解,具备统一表示学习、高精度重排序能力,广泛适用于全球化多语言场景,助力高效多模态信息检索。

2025年6月,我们开源了面向文本的Qwen3-Embedding和Qwen3-ReRanker 模型系列,在多语言文本检索、聚类和分类等多项下游任务中取得了业界领先的性能,被社区开发者广泛使用。 今天,我们非常荣幸地推出Qwen家族的最新成员:Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列。这些模型基于我们最近开源的Qwen3-VL模型构建,专为多模态信息检索和跨模态理解场景设计。


欢迎体验

Qwen3-VL-Embedding:

https://www.modelscope.cn/models/Qwen/Qwen3-VL-Embedding-8B

https://www.modelscope.cn/models/Qwen/Qwen3-VL-Embedding-2B

https://huggingface.co/Qwen/Qwen3-VL-Embedding-8B

https://huggingface.co/Qwen/Qwen3-VL-Embedding-2B

Qwen3-VL-Reranker:

https://www.modelscope.cn/models/Qwen/Qwen3-VL-Reranker-8B

https://www.modelscope.cn/models/Qwen/Qwen3-VL-Reranker-2B

https://huggingface.co/Qwen/Qwen3-VL-Reranker-8B

https://huggingface.co/Qwen/Qwen3-VL-Reranker-2B

GitHub仓库地址:

https://github.com/QwenLM/Qwen3-VL-Embedding

----

核心特性

  • 多模态通用性:两个模型系列均可在统一框架内处理包含文本、图像、截图和视频的输入。它们在图文检索、视频文本匹配、视觉问答(VQA)以及多模态内容聚类等多样化任务中达到了业界领先水平。
  • 统一表示学习(Embedding):通过充分利用Qwen3-VL基础模型的优势,Qwen3-VL-Embedding模型能够生成语义丰富的向量表示,在共享空间中同时捕获视觉和文本信息,从而实现高效的跨模态相似度计算和检索。
  • 高精度重排序(Reranker):我们同步提供Qwen3-VL-Reranker系列作为 Embedding模型的补充。Qwen3-VL-Reranker接收输入对(Query, Document), 其中查询和文档均可包含任意单一或混合模态——并输出精确的相关性分数。在实际检索场景中,Embedding和Reranker模型通常协同工作:Embedding模型负责初始召回阶段,Reranker模型负责重排序阶段,这种两阶段流程显著提升了最终检索精度。
  • 卓越的实用性:继承Qwen3-VL的多语言能力,该系列支持超过30种语言,适合全球化应用。模型提供灵活的向量维度选择、可定制的任务指令,以及向量量化后的强劲性能。这些特性使开发者能够轻松将两个模型集成到现有流程中,用于需要强大跨语言和跨模态理解能力的应用场景。

图1:统一多模态表示空间示意图。Qwen3-VL-Embedding模型系列将多源数据(文本、图像、视觉文档和视频)映射到共同的高维语义空间。

模型概览

下表展示了Qwen3-VL-Embedding和Qwen3-VL-Reranker的详细规格参数:

注:「量化支持表示Embedding支持的量化后处理;「MRL 支持」表示 Embedding 模型是否允许用户指定嵌入维度;「指令感知」表示模型是否支持针对特定任务自定义输入指令。

模型构架

与文本Qwen3-Embedding和Qwen3-ReRanker模型系列类似,Qwen3-VL-Embedding 采用双塔架构,Qwen3-VL-Reranker采用单塔架构。我们设计了一套多阶段训练范式,充分发挥Qwen3-VL底座模型的通用多模态语义理解能力,为复杂、大规模的多模态检索任务提供高质量的语义表示和精确的重排序机制。

图 2:Qwen3-VL-Embedding和Qwen3-VL-Reranker 架构概览。左侧为Embedding模型的双塔独立编码架构,右侧为Reranker 模型的单塔交叉注意力架构Embedding模型接收单模态或混合模态输入,并将其映射为高维语义向量。具体而言,我们提取基座模型最后一层中对应 [EOS] token 的隐藏状态向量,作为输入的最终语义表示。这种方法确保了大规模检索所需的高效独立编码能力。

Reranking模型接收输入对 (Query, Document) 并进行联合编码。它利用基座模型内的交叉注意力(Cross-Attention)机制,实现 Query 和 Document 之间更深层、更细粒度的跨模态交互和信息融合。模型最终通过预测两个特殊 token(yes 和 no)的生成概率来表达输入对的相关性分数。

功能特性对比:

评测结果

Qwen3-VL-Embedding

我们主要在MMEB-v2和MMTEB基准测试上评估了Qwen3-VL-Embedding 模型的性能。

Qwen3-VL-Embedding-8B模型在MMEB-V2上取得了业界领先的结果,超越了所有先前的开源模型和闭源商业服务。在不同检索模态的细分性能上,我们的模型在文本、图像、视觉文档和视频检索子任务中均取得了SOTA 结果。

在纯文本多语言MMTEB基准测试上,Qwen3-VL-Embedding模型与同等规模的纯文本 Qwen3-Embedding模型相比有少许的性能差距。与评测排行榜上其他同等规模的模型相比,它仍然展现出极具竞争力的性能表现。

图 3:Qwen3-VL-Embedding在MMEB-v2和MMTEB评测集上的性能对比。


Qwen3-VL-Reranker

我们使用了MMEB-v2和MMTEB检索基准中各子任务的检索数据集进行评测。对于视觉文档检索,我们采用了JinaVDR和ViDoRe v3数据集。

评测结果表明,所有Qwen3-VL-Reranker模型的性能均持续优于基础 Embedding模型和基线Reranker模型,其中8B版本在大多数任务中达到了最佳性能。

Qwen3-VL-Reranker 评测结果对比:

使用指南

Embedding 和 Reranking 模型通常在检索系统中协同使用,形成高效的两阶段检索流程: 1). 召回阶段:Embedding 模型执行初始召回,从海量数据中快速检索出大量候选结果。 2). 重排序阶段:Reranking 模型对候选结果进行精细化排序,基于重新计算的相关性分数为用户查询呈现最精确的结果。

Embedding模型使用示例


from scripts.qwen3_vl_embedding import Qwen3VLEmbedder
import numpy as np
import torch
# Define a list of query texts
queries = [
    {"text": "A woman playing with her dog on a beach at sunset."},
    {"text": "Pet owner training dog outdoors near water."},
    {"text": "Woman surfing on waves during a sunny day."},
    {"text": "City skyline view from a high-rise building at night."}
]

# Define a list ofdocument texts and images
documents = [
    {"text": "A woman shares a joyful moment with her golden retriever on a sun-drenched beach at sunset, as the dog offers its paw in a heartwarming display of companionship and trust."},
    {"image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"},
    {"text": "A woman shares a joyful moment with her golden retriever on a sun-drenched beach at sunset, as the dog offers its paw in a heartwarming display of companionship and trust.", "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"}
]

# Specify the model path
model_name_or_path = "Qwen/Qwen3-VL-Embedding-2B"

# Initialize the Qwen3VLEmbedder model
model = Qwen3VLEmbedder(model_name_or_path=model_name_or_path)
# We recommend enabling flash_attention_2 for better acceleration and memory saving,
# model = Qwen3VLEmbedder(model_name_or_path=model_name_or_path, dtype=torch.float16, attn_implementation="flash_attention_2")

# Combine queries and documents into a single input list
inputs = queries + documents

embeddings = model.process(inputs)

# Compute similarity scores between query embeddings and document embeddings
similarity_scores = (embeddings[:4] @ embeddings[4:].T)

# Print out the similarity scores in a list format
print(similarity_scores.tolist())

# [[0.83203125, 0.74609375, 0.73046875], [0.5390625, 0.373046875, 0.48046875], [0.404296875, 0.326171875, 0.357421875], [0.1298828125, 0.06884765625, 0.10595703125]]

Reranking模型使用示例:

from scripts.qwen3_vl_reranker import Qwen3VLReranker
import numpy as np
import torch

# Specify the model path
model_name_or_path = "Qwen/Qwen3-VL-Reranker-2B"

# Initialize the Qwen3VLEmbedder model
model = Qwen3VLReranker(model_name_or_path=model_name_or_path)
# We recommend enabling flash_attention_2 for better acceleration and memory saving,
# model = Qwen3VLReranker(model_name_or_path=model_name_or_path, dtype=torch.float16, attn_implementation="flash_attention_2")

# Combine queries and documents into a single input list

inputs = {
    "instruction": "Retrieval relevant image or text with user's query",
    "query": {"text": "A woman playing with her dog on a beach at sunset."},
    "documents": [
        {"text": "A woman shares a joyful moment with her golden retriever on a sun-drenched beach at sunset, as the dog offers its paw in a heartwarming display of companionship and trust."},
        {"image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"},
        {"text": "A woman shares a joyful moment with her golden retriever on a sun-drenched beach at sunset, as the dog offers its paw in a heartwarming display of companionship and trust.", "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"}
    ],
    "fps": 1.0
}

scores = model.process(inputs)
print(scores)
# [0.8408790826797485, 0.6197134852409363, 0.7778129577636719]

更多使用示例,请访问我们的 GitHub 仓库。

未来展望

Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列是我们在统一多模态表示和检索领域的初步探索。 相比纯文本的Embedding和Reranking模型,多模态学习,尤其是统一多模态表征和重排序在模型成熟度提升,易用性优化,应用场景扩展等方面仍有巨大的探索空间。 Qwen3-VL-Embedding和Qwen3-VL-Reranker的开源是一个新的起点。我们期待与社区携手合作,共同探索和构建更加通用的统一多模态检索能力,推动多模态AI技术的发展与落地应用。

相关文章
|
26天前
|
人工智能 自然语言处理 数据挖掘
Qwen3-VL-Embedding & Qwen3-VL-Reranker:统一多模态表征与排序
通义千问Qwen团队于2025年1月8日推出多模态模型新成员:Qwen3-VL-Embedding与Qwen3-VL-Reranker,基于Qwen3-VL构建,支持文本、图像、视频等多模态统一表示与跨模态检索,在图文匹配、视觉问答等任务中表现卓越,具备高精度、多语言、易集成等优势,助力全球开发者构建高效多模态应用。
686 4
|
16天前
|
传感器 人工智能 架构师
2026实战蓝图:AI Agent全栈开发培训流程与AI Agent职业路线进阶指南
摘要: 2026年,大模型正式进入“行动元年”。AI Agent(智能体)已从的对话接口转变为具备自主逻辑、环境感知与复杂协作能力的数字员工。本文将深度拆解从LLM向Agent覆盖的技术基础逻辑,规划从初级开发者到Agent架构师的职业路径,并提供一套简单的工程化的培训方法论。
333 3
|
2月前
|
机器学习/深度学习 安全 API
MAI-UI 开源:通用 GUI 智能体基座登顶 SOTA!
MAI-UI是通义实验室推出的全尺寸GUI智能体基座模型,原生集成用户交互、MCP工具调用与端云协同能力。支持跨App操作、模糊语义理解与主动提问澄清,通过大规模在线强化学习实现复杂任务自动化,在出行、办公等高频场景中表现卓越,已登顶ScreenSpot-Pro、MobileWorld等多项SOTA评测。
2288 7
|
15天前
|
机器学习/深度学习 存储 人工智能
大模型部署算力账本:手把手教你算清GPU显存这笔账
本文详解大模型部署中GPU显存计算的关键:以Llama 70B为例,拆解模型权重、KV Cache、其他开销三大部分,揭示高并发下显存需求超1TB的真相,并提供量化、并行优化等降本策略,助你精准规划硬件投入,避免资源浪费或服务崩溃。
|
20天前
|
传感器 机器学习/深度学习 人工智能
构建AI智能体:九十七、YOLO多模态智能感知系统:从理论到实践的实时目标检测探讨
本文介绍了基于YOLO的多模态智能感知系统的设计与实现。系统通过YOLOv8模型实现高效目标检测,并采用多模态数据融合、行为分析和时空预测等技术提升检测性能。文章详细解析了YOLOv8架构,包括CSPDarknet骨干网络、PANet特征融合和解耦检测头设计;探讨了数据级、特征级和决策级三种多模态融合方法;设计了行为分析模块,涵盖个体/群体行为识别、交互分析和异常检测;实现了时空分析与预测功能。该系统可应用于安防监控、自动驾驶等领域,在复杂场景下展现出更好的鲁棒性和准确性。
140 7
|
9天前
|
人工智能 自然语言处理 Shell
🦞 如何在 Moltbot (原 Clawdbot)轻松配置阿里云百炼 API 享Coding Plan 特惠套餐
阿里云百炼Coding Plan套餐现已支持Moltbot(原Clawdbot)接入,可抵扣Qwen3-Max-Thinking等大模型,新客首月每天仅0.3元!该开源AI助手支持本地部署、多平台兼容及主流大模型调用,助力自动化办公与个人知识管理。
819 6
|
5天前
|
人工智能 JSON 自然语言处理
阿里云百炼产品月报【2026年1月】
阿里云百炼本月重磅升级:应用与知识库全面商业化,支持音视频多模态检索;Qwen3-Max模型直降60%,推出AI通用型节省计划;上线134+开箱即用模板及8款新模型;新客 Coding Plan 首月仅10元,配套“打工人AI提效课”与新春创意活动。
316 8
阿里云百炼产品月报【2026年1月】
|
21天前
|
网络协议 Dubbo Java
从 TCP 到 RPC:彻底搞懂「HTTP 与 RPC用法区别」
本文深入剖析HTTP与RPC的本质区别,从TCP底层原理讲起,解析粘包拆包、协议封装等核心问题,梳理二者演进脉络。通过对比服务发现、传输性能、适用场景等维度,结合Dubbo、gRPC等框架,帮你按场景精准选型,彻底搞懂微服务通信的技术逻辑。
171 5
|
25天前
|
存储 自然语言处理 数据库
RAG(检索增强生成)技术简介
RAG(检索增强生成)通过结合信息检索与文本生成,提升大模型回答的准确性与时效性。它利用向量数据库实现语义检索,支持智能客服、医疗诊断、法律咨询等场景,解决知识更新难、专业性不足等问题,并以“按需取用”机制突破上下文限制,兼顾效率与隐私。
312 4

热门文章

最新文章