阿里云在复杂视觉文档检索和多模态对齐方向获得突破性成果,再次入选CVPR

简介: 近日,阿里云专有云团队的《Evo-Retriever: LLM-Guided Curriculum Evolution with Viewpoint-Pathway Collaboration for Multimodal Document Retrieval》论文成功入选计算机视觉领域顶级会议CVPR 2026主会。该论文首创“模型-课程协同进化”范式,通过LLM元控制器动态调整训练难度,解决静态训练限制。CVPR 2026一共16092篇投稿,接收率仅25.42%。

CVPR评审委员会评价:“Evo-Retriever提出了一个可靠的多模态检索框架,面向多模态检索模型训练过程中难负样本静态阈值失效导致梯度衰减的痛点,引入LLM作为元控制器实现动态课程调度与自适应难负样本挖掘,规避噪声监督风险,设计具备前瞻性;结合多视图对齐和双向对比学习等设计,经充分消融验证,在ViDoRe V2、MMEB等基准及3B/7B模型上稳定取得一致性SOTA,展现强鲁棒性与应用价值。”


CVPR是计算机视觉和模式识别领域的最具影响力的顶级会议之一,在全球范围内具有重要影响力与广泛认可度。会议聚焦目标检测、图像分割、三维视觉、多模态学习与生成模型等人工智能前沿方向,代表该领域的国际最高研究水平,会议将于2026年6月3日至7日在美国科罗拉多州丹佛市举行。



技术突破——首创“模型-课程协同进化”范式

尽管现有视觉语言模型(VLMs)在数据映射方面表现优异,但现实场景中复杂的文档异构性和非结构化特征往往导致跨模态嵌入一致性受损。近期出现的后期交互方法通过多向量表征提升了图文对齐效果,但传统训练范式受限于样本规模与静态策略,难以适配模型的动态演进需求,最终引发检索结果混淆。


针对当前视觉语言模型(VLMs)在跨模态检索中的技术挑战,阿里云专有云团队提出了创新性解决方案,研发了Evo-Retriever多模态检索框架,该方案基于首创“模型-课程协同进化”范式,构建了大语言模型引导的课程进化体系,有效实现了跨模态表征的动态优化与精准对齐。


空间感知增强与语义消歧

利用多视图图像增强(MVA)技术,通过多尺度、多方向视角提升细粒度匹配能力,强化对文档布局变化的鲁棒性,并引入双向对比学习(BCL)及难负查询样本生成器,通过视觉与文本路径互补,有效锚定语义与视觉依据。

LLM引导的动态课程

由大语言模型作为元控制器,根据训练状态自动调整负样本难度,筛选难负图像和难负查询,确保监督信号始终具有挑战性。

检索性能SOTA

在ViDoRe V2和MMEB基准测试中取得当前最优效果,nDCG@5分数分别达到65.2%和77.1%,验证了动态课程策略显著优于传统。


此次论文入选CVPR2026主会,不仅代表阿里云专有云团队在多模态检索领域创新实力已受到国际认可,更是“模型-课程协同进化”在业界创新落地的重要里程碑。从理论突破到SOTA性能验证,Evo-Retriever展现了阿里云在AI基础设施与算法深度融合上的深厚积累。


未来,阿里云专有云团队将继续秉持“技术驱动价值”的理念,深耕多模态与大模型前沿技术,推动更多技术成果创新转化为可落地的生产力。


目前,Evo-Retriever相关模型已在ModelScope开源,欢迎全球开发者下载体验,共创多模态检索新生态。


「模型下载链接」

3B版本:

https://www.modelscope.cn/models/Apsara-Stack-MaaS/EvoQwen2.5-VL-Retriever-3B-v1

7B版本:

https://www.modelscope.cn/models/Apsara-Stack-MaaS/EvoQwen2.5-VL-Retriever-7B-v1

相关文章
|
30天前
|
机器学习/深度学习 负载均衡 专有云
性能翻倍!Qwen3.5与阿里云APG服务器完成深度优化
近日,Qwen3.5系列模型正式发布,正式迈向原生多模态智能体,并推出多款模型。阿里云专有云联合通义实验室等团队,基于APG服务器深度优化了Qwen3.5-397B-A17B模型,对比Qwen3-235B性能提升1.5倍以上。
214 3
|
30天前
|
人工智能 安全 专有云
深度访谈:阿里云×平头哥,模型推理提升13倍背后的秘密
2026年初,AI焦点正从“对话”转向“推理”:OpenClaw爆火、AI Coding成新基建、大模型迈向Agent化执行。算力瓶颈、成本压力与安全预警交织,推理效率成为产业主战场。本文深度对话阿里云与平头哥专家,剖析软硬协同、MoE优化、量化压缩等关键技术演进,揭示国产AI基础设施如何通过系统级创新突破“不可能三角”。
202 1
|
30天前
|
存储 人工智能 JSON
Litefuse 正式发布:Agent 可观测与效果评估, 比 Langfuse 成本低 88%
Litefuse 是一个 Agent 可观测与评估平台,兼容 Langfuse SDK 和 100 多个 AI 生态,并支持 Hermes、OpenClaw、Claude Code 等通用 Agent。存储成本比 Langfuse 降低 88%、简化部署架构、Trace 文本检索效率提升 10 倍,帮助团队以更低成本构建可靠的观测平台。
654 9
Litefuse 正式发布:Agent 可观测与效果评估, 比 Langfuse 成本低 88%
|
5月前
|
专有云
山海征程|2025年阿里云专有云年度盘点
专有云的山海征程——2025年阿里云专有云年度盘点
356 0
|
5月前
|
存储 人工智能 专有云
中智集团接入飞天企业版,行业云成果入选国资委AI标杆!
近日,中智集团接入阿里云飞天企业版打造的“中智行业云”成功入选国务院国资委首批“AI战略性高价值场景”。同时,该成果凭借先进的技术架构与场景赋能价值,还获评中国信息通信研究院“面向AI的智能化专有云底座”创新应用实践,成为AI与云计算在人力资源领域的标杆应用。
302 0
|
30天前
|
智能设计 人工智能 数据可视化
入选顶会ACM!阿里云DashChat重塑数据看板设计:从辅助工具进阶为智能设计伙伴
近日,阿里云DataV团队的论文《DashChat: Interactive Authoring of Performance Dashboard Design Prototypes through Conversation with LLM-Powered Agents》在经历多轮评审后,正式被计算机人机交互领域的全球顶级学术会议——ACM CHI 2026录用,将在会议全新改革的Poster赛道上进行宣读和展示。
138 2
入选顶会ACM!阿里云DashChat重塑数据看板设计:从辅助工具进阶为智能设计伙伴
|
30天前
|
SQL 小程序 Java
扫码点餐系统源码如何开发?从桌码到订单系统完整解析
扫码点餐已成餐饮标配,但其源码开发远不止“扫码下单”。本文深度解析核心模块:桌码管理、实时商品配置、复杂订单状态流转、厨房打印、高并发应对及多门店架构,助开发者构建稳定可扩展的数字化餐饮系统。(239字)
|
30天前
|
数据采集 存储 并行计算
基于MATLAB解决车辆路径问题(VRP)
基于MATLAB解决车辆路径问题(VRP)
286 4
|
30天前
|
存储 运维 数据可视化
2026年企业数据分析系统建设费用预算清单:详细成本解析
本文系统梳理企业数据分析系统建设的全成本构成,涵盖基础设施、软件许可、实施开发、运维支持及人员培训五大模块,并以瓴羊Quick BI为例详解其弹性计费模式与预算控制策略,助力企业制定可执行、可优化的2026年度数据分析预算清单。(239字)
|
30天前
|
人工智能 安全 专有云
飞天企业版、AI Stack集中亮相MWC,打造企业级AI新标杆
在2026 年世界移动通信大会(MWC)上,阿里云专有云以“Bring Alibaba Cloud Best Practices On-Premises 阿里云本地化最佳实践”为主题,集中展示飞天企业版(Apsara Stack)、AI Stack 融合的“软硬一体全栈AI云解决方案”,获得广泛关注。
129 1

热门文章

最新文章