【OpenVI-图搜系列—多模态检索实战篇】基于表征大模型的多模态检索系统

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: 信息检索产品几乎是人们生活中必不可少的工具,经常用的有文本搜文本、图片搜图片等应用。以上任务均为单模态的检索。而多模态检索则处理涵盖原有的单模态检索任务以外,也包含跨模态检索任务,即文搜图、文搜视频等任务。要实现这一任务,则需要底层的表征模型具备图文对齐的能力,换句话说,要实现多模态检索,表征模型应实现将不同模态信息的特征映射到同一个域内,从而实现不同模态之间的相互检索。CLIP的多模态技术出现以来,给多模态检索领域带来了新的技术变革,使得实现基于通用表征大模型的大规模多模态检索系统成为可能。

表征大模型

     说起表征模型在图搜/多模态检索系统中的作用,可以用“核心作用”来形容。其主要目的是将图片和文本转化成特征向量,有了特征向量才得以进行向量检索索引的构建。模型提取的特征向量对于图片/文本等内容的表征是否贴切,直接影响着检索结果的精准度。得益于多模态技术的迅速发展,我们可以较为轻松的获取海量的图文训练对,通过基于contrastive loss的对比学习实现图文对齐训练。海量图文训练对通过弱监督对比学习的方式实现表征模型的训练是CLIP等大模型训练的一个基本思路,在这一指导思想的指引下,我们也研发了更加先进的表征大模型,其他文章中会进行介绍。由于大训练数据量和大模型参数量的加持,表征大模型相较于小模型而言,在泛化性和多任务领域有着无与伦比的优势,特别是在多模态检索领域,我们能够覆盖更加广泛地应用领域。基于阿里自研表征大模型,我们已经上线了多模态检索云产品:https://www.aliyun.com/activity/intelligent/AI-search


多模态检索系统

1.png  相较于其他的AI产品,多模态/图像检索系统的复杂度更高,涉及到串联检测、表征等多个模型以及向量引擎的联通等。为了叙述方便,下面以文搜图任务为例,进行多模态检索系统的讲解。从系统角度讲,多模态检索可以分成两个过程:入库和检索。入库旨在将图片导入到向量引擎中构建检索索引,其主要流程是先通过检测模型检测图片中实体目标,然后通过表征模型进行特征提取,最后使用特征向量在引擎中进行检索索引的构建。对于在线检索部分,与入库步骤相同,在线检索过程中,在得到query特征后,直接调用向量引擎召回相关图片,最后返回将结果传给用户。从上述的检索过程可以看出,整个多模态检索系统,以检测/表征算法服务和向量引擎服务这两部分为关键组成。算法模型在表征模型部分已经进行了简单的介绍,对于检索引擎服务,其核心目的是对图像库进行构建检索索引,从而在检索过程中使用ANN近似最近邻算法召回相关结果。从整体上看,模型算法服务和向量引擎的性能对于整体性能有比较关键的影响。对于这两项服务,我们的云产品都做了比较深入的优化提升,在保证模型效果的前提下,对服务时延和并发量做到明显提升。


多模态检索系统能做什么?

2.png

 基于多模态检索系统,我们能应用到哪些场景下呢?传统的文搜文、图搜图等单模态任务依然是支持的,除此之外,文搜图、文搜视频、图搜视频等跨模态的任务也得到了很好的支持。当然,基于检索链路,同样可以完成其他领域的任务,比如数据预标注任务,用户可以通过文搜图检索获取相关图片,对图片进行标签,或者说,在有标签数据的集合中进行图搜图,然后通过标签传递的方式进行打标。事实上,在现实生活中,很多应用场景都可以转化成检索任务进行完成,后续我们也会继续优化模型和整体检索系统,为客户提供更加精准和便捷的服务。

目录
打赏
0
0
0
0
465
分享
相关文章
闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨
本文探讨了自然语言处理中嵌入技术的应用,重点在于语义搜索及聚类方法。通过对比不同规模的开源与闭源模型,文章展示了如何利用聚类技术过滤无关结果,提高搜索精度。实验结果显示,较小模型如mxbai在某些任务上表现优异,提示我们在追求高性能的同时不应忽视计算效率与成本效益。最后,文章还介绍了重新排序技术,进一步优化检索结果的相关性。
155 6
闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨
超越传统搜索:探索基于GraphRAG的信息检索新范式
【10月更文挑战第10天】随着信息爆炸时代的到来,如何从海量的数据中快速准确地找到所需的信息成为了一个亟待解决的问题。传统的信息检索系统主要依赖于关键词匹配和文档排名算法来提供结果,但这种方法往往无法捕捉到数据间的复杂关系,也无法很好地理解用户的查询意图。近年来,一种新的信息检索方法——基于图的检索增强生成(Graph-based Retrieval-Augmented Generation, GraphRAG)应运而生,它通过结合知识图谱与机器学习技术,为信息检索带来了全新的视角。
144 1
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
127 1
淘宝搜索中的深度语义模型:从理论到实践
淘宝搜索系统通过引入深度语义模型,极大地提升了搜索质量和用户体验。这些模型不仅能够准确理解用户的需求,还能够智能地匹配和推荐商品,为用户提供了一个更加便捷、个性化的购物环境。随着技术的不断发展和完善,淘宝搜索将会变得更加智能和高效。
融合多视图行为信息的多任务查询补全推荐方法 | KDD 论文解读
本工作提出了一种融合多视图用户行为序列信息的多任务个性化查询补全推荐框架:通过同时建模和利用多视图用户行为序列中丰富的个性化信息,使QAC模型能够更准确地预测用户当前的搜索意图;通过候选排序与查询生成的多任务学习,同时利用多种学习目标与训练数据进行模型训练,实现了不同任务间的优势互补。整体框架在离线和在线的实验中均取得了不错的效果,为淘宝搜索引擎的查询补全推荐业务带来了显著的增益。
融合多视图行为信息的多任务查询补全推荐方法 | KDD 论文解读

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等