【OpenVI-图搜系列—多模态检索实战篇】基于表征大模型的多模态检索系统

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: 信息检索产品几乎是人们生活中必不可少的工具,经常用的有文本搜文本、图片搜图片等应用。以上任务均为单模态的检索。而多模态检索则处理涵盖原有的单模态检索任务以外,也包含跨模态检索任务,即文搜图、文搜视频等任务。要实现这一任务,则需要底层的表征模型具备图文对齐的能力,换句话说,要实现多模态检索,表征模型应实现将不同模态信息的特征映射到同一个域内,从而实现不同模态之间的相互检索。CLIP的多模态技术出现以来,给多模态检索领域带来了新的技术变革,使得实现基于通用表征大模型的大规模多模态检索系统成为可能。

表征大模型

     说起表征模型在图搜/多模态检索系统中的作用,可以用“核心作用”来形容。其主要目的是将图片和文本转化成特征向量,有了特征向量才得以进行向量检索索引的构建。模型提取的特征向量对于图片/文本等内容的表征是否贴切,直接影响着检索结果的精准度。得益于多模态技术的迅速发展,我们可以较为轻松的获取海量的图文训练对,通过基于contrastive loss的对比学习实现图文对齐训练。海量图文训练对通过弱监督对比学习的方式实现表征模型的训练是CLIP等大模型训练的一个基本思路,在这一指导思想的指引下,我们也研发了更加先进的表征大模型,其他文章中会进行介绍。由于大训练数据量和大模型参数量的加持,表征大模型相较于小模型而言,在泛化性和多任务领域有着无与伦比的优势,特别是在多模态检索领域,我们能够覆盖更加广泛地应用领域。基于阿里自研表征大模型,我们已经上线了多模态检索云产品:https://www.aliyun.com/activity/intelligent/AI-search


多模态检索系统

1.png  相较于其他的AI产品,多模态/图像检索系统的复杂度更高,涉及到串联检测、表征等多个模型以及向量引擎的联通等。为了叙述方便,下面以文搜图任务为例,进行多模态检索系统的讲解。从系统角度讲,多模态检索可以分成两个过程:入库和检索。入库旨在将图片导入到向量引擎中构建检索索引,其主要流程是先通过检测模型检测图片中实体目标,然后通过表征模型进行特征提取,最后使用特征向量在引擎中进行检索索引的构建。对于在线检索部分,与入库步骤相同,在线检索过程中,在得到query特征后,直接调用向量引擎召回相关图片,最后返回将结果传给用户。从上述的检索过程可以看出,整个多模态检索系统,以检测/表征算法服务和向量引擎服务这两部分为关键组成。算法模型在表征模型部分已经进行了简单的介绍,对于检索引擎服务,其核心目的是对图像库进行构建检索索引,从而在检索过程中使用ANN近似最近邻算法召回相关结果。从整体上看,模型算法服务和向量引擎的性能对于整体性能有比较关键的影响。对于这两项服务,我们的云产品都做了比较深入的优化提升,在保证模型效果的前提下,对服务时延和并发量做到明显提升。


多模态检索系统能做什么?

2.png

 基于多模态检索系统,我们能应用到哪些场景下呢?传统的文搜文、图搜图等单模态任务依然是支持的,除此之外,文搜图、文搜视频、图搜视频等跨模态的任务也得到了很好的支持。当然,基于检索链路,同样可以完成其他领域的任务,比如数据预标注任务,用户可以通过文搜图检索获取相关图片,对图片进行标签,或者说,在有标签数据的集合中进行图搜图,然后通过标签传递的方式进行打标。事实上,在现实生活中,很多应用场景都可以转化成检索任务进行完成,后续我们也会继续优化模型和整体检索系统,为客户提供更加精准和便捷的服务。

相关文章
|
9天前
|
机器学习/深度学习 人工智能 编解码
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。
72 18
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
|
5月前
|
机器学习/深度学习 人工智能 算法
没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练
【7月更文挑战第26天】Xidong Feng等研究人员提出了一项创新方法,通过采用AlphaZero式的树搜索算法来增强大语言模型(LLMs)的推理与训练能力。这项技术,称为TS-LLM(Tree-Search for LLMs),将LLMs的解码过程视为搜索问题,并运用AlphaZero的树搜索来指导这一过程。TS-LLM不仅提升了模型的通用性和适应性,还在多个任务中实现了显著的性能提升。此外,它能在训练阶段指导LLMs学习更优的解码策略。尽管如此,TS-LLM依赖于高质量的预训练LLM,并面临较高的计算成本挑战。[论文](https://arxiv.org/abs/2309.17179)
93 5
|
2月前
|
自然语言处理 达摩院 数据挖掘
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
60 1
|
3月前
|
自然语言处理 数据处理
情感分析的终极形态:全景式细粒度多模态对话情感分析基准PanoSent
【9月更文挑战第24天】PanoSent是一种全新的多模态对话情感分析框架,旨在全景式地提取和分析情感元素,包括情感六元组提取与情感翻转分析两大任务。此框架依托大规模、高质量的多模态数据集PanoSent,涵盖文本、图像、音频等多种模态及多种语言,适应不同应用场景。为解决这些任务,研究人员提出了Chain-of-Sentiment推理框架,结合多模态大语言模型Sentica,实现细粒度的情感分析。尽管PanoSent在情感分析任务上表现优异,但仍面临多模态数据处理和跨领域适用性的挑战。
84 2
|
机器学习/深度学习 计算机视觉
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
163 0
|
机器学习/深度学习 人工智能 自然语言处理
系列解读:深度时空视觉表征学习方法及应用
系列解读:深度时空视觉表征学习方法及应用
261 0
|
机器学习/深度学习 自然语言处理 算法
CVPR 2022 | 大幅减少零样本学习所需的人工标注,马普所和北邮提出富含视觉信息的类别语义嵌入
CVPR 2022 | 大幅减少零样本学习所需的人工标注,马普所和北邮提出富含视觉信息的类别语义嵌入
126 0
|
自然语言处理 测试技术 语音技术
谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现SOTA
谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现SOTA
257 0
|
算法 索引
单个Transformer完成信息检索,谷歌用可微搜索索引打败双编码器模型
单个Transformer完成信息检索,谷歌用可微搜索索引打败双编码器模型
240 0
|
机器学习/深度学习 人工智能 自然语言处理
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
195 0

热门文章

最新文章