ViDoRe V2榜单全球第一
ViDoRe V1榜单全球第二
基于Qwen2.5-VL-3B/7B-Instruct双基座模型,阿里云专有云算法团队创新研发Evo-Retriever进化式训练框架,实现跨模态语义理解的显著跃升。
- 图文表征优化:基于创新的LLM智能体驱动的进化式Embedding模型训练框架,可精准识别复杂文档的图文位置关系与语义关联。
- 跨模态深度理解:能够在跨模态语义对齐、密集查询抗干扰、复杂文档布局理解等方面实现领先性能。
- 复杂应用场景:该模型可应用于高异构、非结构化的复杂视觉文档检索、图文内容问答、多模态知识库构建等场景。
当前,该模型已集成至阿里云百炼专属版知识中心,可助力企业快速构建多模态知识库,实现非结构化数据的高效检索与智能问答。
本次突破是阿里云在多模态大模型领域长期投入的缩影,未来,阿里云会持续致力于将前沿技术转化为企业可落地的生产力工具,助力各行业实现知识管理的智能化升级。
关于ViDoRe
由Google Research与卡内基梅隆大学联合推出,是全球首个聚焦长视频与长文档深度语义对齐的顶级基准测试,突破了传统短视频简单匹配局限,基于维基百科/wikiHow等权威知识库构建真实评测体系,通过私有化隐藏测试集、国际公认评估指标及动态公开的全球排行榜机制,形成兼具保密性、公平性与透明度的多维度验证体系,被国际顶尖AI研究机构广泛采用为模型性能的基准性检测工具。