阿里云在复杂视觉文档检索和多模态对齐方向获得突破性成果,再次入选CVPR

简介: 近日,阿里云专有云团队的《Evo-Retriever: LLM-Guided Curriculum Evolution with Viewpoint-Pathway Collaboration for Multimodal Document Retrieval》论文成功入选计算机视觉领域顶级会议CVPR 2026主会。该论文首创“模型-课程协同进化”范式,通过LLM元控制器动态调整训练难度,解决静态训练限制。CVPR 2026一共16092篇投稿,接收率仅25.42%。

CVPR评审委员会评价:“Evo-Retriever提出了一个可靠的多模态检索框架,面向多模态检索模型训练过程中难负样本静态阈值失效导致梯度衰减的痛点,引入LLM作为元控制器实现动态课程调度与自适应难负样本挖掘,规避噪声监督风险,设计具备前瞻性;结合多视图对齐和双向对比学习等设计,经充分消融验证,在ViDoRe V2、MMEB等基准及3B/7B模型上稳定取得一致性SOTA,展现强鲁棒性与应用价值。”


CVPR是计算机视觉和模式识别领域的最具影响力的顶级会议之一,在全球范围内具有重要影响力与广泛认可度。会议聚焦目标检测、图像分割、三维视觉、多模态学习与生成模型等人工智能前沿方向,代表该领域的国际最高研究水平,会议将于2026年6月3日至7日在美国科罗拉多州丹佛市举行。



技术突破——首创“模型-课程协同进化”范式

尽管现有视觉语言模型(VLMs)在数据映射方面表现优异,但现实场景中复杂的文档异构性和非结构化特征往往导致跨模态嵌入一致性受损。近期出现的后期交互方法通过多向量表征提升了图文对齐效果,但传统训练范式受限于样本规模与静态策略,难以适配模型的动态演进需求,最终引发检索结果混淆。


针对当前视觉语言模型(VLMs)在跨模态检索中的技术挑战,阿里云专有云团队提出了创新性解决方案,研发了Evo-Retriever多模态检索框架,该方案基于首创“模型-课程协同进化”范式,构建了大语言模型引导的课程进化体系,有效实现了跨模态表征的动态优化与精准对齐。


空间感知增强与语义消歧

利用多视图图像增强(MVA)技术,通过多尺度、多方向视角提升细粒度匹配能力,强化对文档布局变化的鲁棒性,并引入双向对比学习(BCL)及难负查询样本生成器,通过视觉与文本路径互补,有效锚定语义与视觉依据。

LLM引导的动态课程

由大语言模型作为元控制器,根据训练状态自动调整负样本难度,筛选难负图像和难负查询,确保监督信号始终具有挑战性。

检索性能SOTA

在ViDoRe V2和MMEB基准测试中取得当前最优效果,nDCG@5分数分别达到65.2%和77.1%,验证了动态课程策略显著优于传统。


此次论文入选CVPR2026主会,不仅代表阿里云专有云团队在多模态检索领域创新实力已受到国际认可,更是“模型-课程协同进化”在业界创新落地的重要里程碑。从理论突破到SOTA性能验证,Evo-Retriever展现了阿里云在AI基础设施与算法深度融合上的深厚积累。


未来,阿里云专有云团队将继续秉持“技术驱动价值”的理念,深耕多模态与大模型前沿技术,推动更多技术成果创新转化为可落地的生产力。


目前,Evo-Retriever相关模型已在ModelScope开源,欢迎全球开发者下载体验,共创多模态检索新生态。


「模型下载链接」

3B版本:

https://www.modelscope.cn/models/Apsara-Stack-MaaS/EvoQwen2.5-VL-Retriever-3B-v1

7B版本:

https://www.modelscope.cn/models/Apsara-Stack-MaaS/EvoQwen2.5-VL-Retriever-7B-v1

相关文章
|
16天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23519 12
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
3天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
1215 7
|
5天前
|
人工智能 BI 持续交付
Claude Code 深度适配 DeepSeek V4-Pro 实测:全场景通关与真实体验报告
在 AI 编程工具日趋主流的今天,Claude Code 凭借强大的任务执行、工具调用与工程化能力,成为开发者与自动化运维的核心效率工具。但随着原生模型账号稳定性问题频发,寻找一套兼容、稳定、能力在线的替代方案变得尤为重要。DeepSeek V4-Pro 作为新一代高性能大模型,提供了完整兼容 Claude 协议的 API 接口,只需简单配置即可无缝驱动 Claude Code,且在任务执行、工具调用、复杂流程处理上表现极为稳定。
1368 3
|
9天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
2516 4
|
3天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
930 0
|
20天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
6036 22
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
21天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
7289 18