【OpenVI-图搜系列—多模态检索实战篇】基于表征大模型的多模态检索系统

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: 信息检索产品几乎是人们生活中必不可少的工具,经常用的有文本搜文本、图片搜图片等应用。以上任务均为单模态的检索。而多模态检索则处理涵盖原有的单模态检索任务以外,也包含跨模态检索任务,即文搜图、文搜视频等任务。要实现这一任务,则需要底层的表征模型具备图文对齐的能力,换句话说,要实现多模态检索,表征模型应实现将不同模态信息的特征映射到同一个域内,从而实现不同模态之间的相互检索。CLIP的多模态技术出现以来,给多模态检索领域带来了新的技术变革,使得实现基于通用表征大模型的大规模多模态检索系统成为可能。

表征大模型

     说起表征模型在图搜/多模态检索系统中的作用,可以用“核心作用”来形容。其主要目的是将图片和文本转化成特征向量,有了特征向量才得以进行向量检索索引的构建。模型提取的特征向量对于图片/文本等内容的表征是否贴切,直接影响着检索结果的精准度。得益于多模态技术的迅速发展,我们可以较为轻松的获取海量的图文训练对,通过基于contrastive loss的对比学习实现图文对齐训练。海量图文训练对通过弱监督对比学习的方式实现表征模型的训练是CLIP等大模型训练的一个基本思路,在这一指导思想的指引下,我们也研发了更加先进的表征大模型,其他文章中会进行介绍。由于大训练数据量和大模型参数量的加持,表征大模型相较于小模型而言,在泛化性和多任务领域有着无与伦比的优势,特别是在多模态检索领域,我们能够覆盖更加广泛地应用领域。基于阿里自研表征大模型,我们已经上线了多模态检索云产品:https://www.aliyun.com/activity/intelligent/AI-search


多模态检索系统

1.png  相较于其他的AI产品,多模态/图像检索系统的复杂度更高,涉及到串联检测、表征等多个模型以及向量引擎的联通等。为了叙述方便,下面以文搜图任务为例,进行多模态检索系统的讲解。从系统角度讲,多模态检索可以分成两个过程:入库和检索。入库旨在将图片导入到向量引擎中构建检索索引,其主要流程是先通过检测模型检测图片中实体目标,然后通过表征模型进行特征提取,最后使用特征向量在引擎中进行检索索引的构建。对于在线检索部分,与入库步骤相同,在线检索过程中,在得到query特征后,直接调用向量引擎召回相关图片,最后返回将结果传给用户。从上述的检索过程可以看出,整个多模态检索系统,以检测/表征算法服务和向量引擎服务这两部分为关键组成。算法模型在表征模型部分已经进行了简单的介绍,对于检索引擎服务,其核心目的是对图像库进行构建检索索引,从而在检索过程中使用ANN近似最近邻算法召回相关结果。从整体上看,模型算法服务和向量引擎的性能对于整体性能有比较关键的影响。对于这两项服务,我们的云产品都做了比较深入的优化提升,在保证模型效果的前提下,对服务时延和并发量做到明显提升。


多模态检索系统能做什么?

2.png

 基于多模态检索系统,我们能应用到哪些场景下呢?传统的文搜文、图搜图等单模态任务依然是支持的,除此之外,文搜图、文搜视频、图搜视频等跨模态的任务也得到了很好的支持。当然,基于检索链路,同样可以完成其他领域的任务,比如数据预标注任务,用户可以通过文搜图检索获取相关图片,对图片进行标签,或者说,在有标签数据的集合中进行图搜图,然后通过标签传递的方式进行打标。事实上,在现实生活中,很多应用场景都可以转化成检索任务进行完成,后续我们也会继续优化模型和整体检索系统,为客户提供更加精准和便捷的服务。

相关文章
|
4月前
|
机器学习/深度学习 人工智能 算法
没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练
【7月更文挑战第26天】Xidong Feng等研究人员提出了一项创新方法,通过采用AlphaZero式的树搜索算法来增强大语言模型(LLMs)的推理与训练能力。这项技术,称为TS-LLM(Tree-Search for LLMs),将LLMs的解码过程视为搜索问题,并运用AlphaZero的树搜索来指导这一过程。TS-LLM不仅提升了模型的通用性和适应性,还在多个任务中实现了显著的性能提升。此外,它能在训练阶段指导LLMs学习更优的解码策略。尽管如此,TS-LLM依赖于高质量的预训练LLM,并面临较高的计算成本挑战。[论文](https://arxiv.org/abs/2309.17179)
79 5
|
3月前
|
机器学习/深度学习 搜索推荐 知识图谱
深度学习之推荐系统中的图嵌入
基于深度学习的推荐系统中的图嵌入技术,结合了图神经网络(GNN)和推荐系统的优势,通过捕捉用户和项目之间的复杂关系,提升推荐性能。
45 2
|
3月前
|
数据采集 存储 算法
【2024泰迪杯】B 题:基于多模态特征融合的图像文本检索20页论文及Python代码
本文介绍了2024年泰迪杯B题的解决方案,该题目要求构建基于多模态特征融合的图像文本检索模型和算法,通过深入分析和预处理数据集,构建了OFA、BertCLIP和ChineseCLIP三种多模态特征融合模型,并通过投票融合机制优化检索效果,实验结果表明所提模型在图像与文本检索任务中显著提高了检索准确性和效率。
108 2
|
4月前
|
机器学习/深度学习 算法 文件存储
使用Python实现深度学习模型:神经架构搜索与自动机器学习
【7月更文挑战第5天】 使用Python实现深度学习模型:神经架构搜索与自动机器学习
79 2
|
6月前
|
人工智能 自然语言处理 Cloud Native
向量检索服务在语义检索、知识库搭建、AI多模态搜索等场景中有着广泛的应用
向量检索服务在语义检索、知识库搭建、AI多模态搜索等场景中有着广泛的应用
221 0
|
机器学习/深度学习 自然语言处理 算法
NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法
NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法
NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法
|
机器学习/深度学习 编解码 自然语言处理
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
410 0
|
机器学习/深度学习 数据采集 Oracle
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(二)
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(二)
384 0
|
算法 索引
单个Transformer完成信息检索,谷歌用可微搜索索引打败双编码器模型
单个Transformer完成信息检索,谷歌用可微搜索索引打败双编码器模型
226 0
|
机器学习/深度学习 自然语言处理 文字识别
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾(1)
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
356 0

热门文章

最新文章