【OpenVI-图搜系列—多模态检索实战篇】基于表征大模型的多模态检索系统

2023-03-21 2999

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 信息检索产品几乎是人们生活中必不可少的工具，经常用的有文本搜文本、图片搜图片等应用。以上任务均为单模态的检索。而多模态检索则处理涵盖原有的单模态检索任务以外，也包含跨模态检索任务，即文搜图、文搜视频等任务。要实现这一任务，则需要底层的表征模型具备图文对齐的能力，换句话说，要实现多模态检索，表征模型应实现将不同模态信息的特征映射到同一个域内，从而实现不同模态之间的相互检索。CLIP的多模态技术出现以来，给多模态检索领域带来了新的技术变革，使得实现基于通用表征大模型的大规模多模态检索系统成为可能。

表征大模型

说起表征模型在图搜/多模态检索系统中的作用，可以用“核心作用”来形容。其主要目的是将图片和文本转化成特征向量，有了特征向量才得以进行向量检索索引的构建。模型提取的特征向量对于图片/文本等内容的表征是否贴切，直接影响着检索结果的精准度。得益于多模态技术的迅速发展，我们可以较为轻松的获取海量的图文训练对，通过基于contrastive loss的对比学习实现图文对齐训练。海量图文训练对通过弱监督对比学习的方式实现表征模型的训练是CLIP等大模型训练的一个基本思路，在这一指导思想的指引下，我们也研发了更加先进的表征大模型，其他文章中会进行介绍。由于大训练数据量和大模型参数量的加持，表征大模型相较于小模型而言，在泛化性和多任务领域有着无与伦比的优势，特别是在多模态检索领域，我们能够覆盖更加广泛地应用领域。基于阿里自研表征大模型，我们已经上线了多模态检索云产品：https://www.aliyun.com/activity/intelligent/AI-search

多模态检索系统

相较于其他的AI产品，多模态/图像检索系统的复杂度更高，涉及到串联检测、表征等多个模型以及向量引擎的联通等。为了叙述方便，下面以文搜图任务为例，进行多模态检索系统的讲解。从系统角度讲，多模态检索可以分成两个过程：入库和检索。入库旨在将图片导入到向量引擎中构建检索索引，其主要流程是先通过检测模型检测图片中实体目标，然后通过表征模型进行特征提取，最后使用特征向量在引擎中进行检索索引的构建。对于在线检索部分，与入库步骤相同，在线检索过程中，在得到query特征后，直接调用向量引擎召回相关图片，最后返回将结果传给用户。从上述的检索过程可以看出，整个多模态检索系统，以检测/表征算法服务和向量引擎服务这两部分为关键组成。算法模型在表征模型部分已经进行了简单的介绍，对于检索引擎服务，其核心目的是对图像库进行构建检索索引，从而在检索过程中使用ANN近似最近邻算法召回相关结果。从整体上看，模型算法服务和向量引擎的性能对于整体性能有比较关键的影响。对于这两项服务，我们的云产品都做了比较深入的优化提升，在保证模型效果的前提下，对服务时延和并发量做到明显提升。

多模态检索系统能做什么？

基于多模态检索系统，我们能应用到哪些场景下呢？传统的文搜文、图搜图等单模态任务依然是支持的，除此之外，文搜图、文搜视频、图搜视频等跨模态的任务也得到了很好的支持。当然，基于检索链路，同样可以完成其他领域的任务，比如数据预标注任务，用户可以通过文搜图检索获取相关图片，对图片进行标签，或者说，在有标签数据的集合中进行图搜图，然后通过标签传递的方式进行打标。事实上，在现实生活中，很多应用场景都可以转化成检索任务进行完成，后续我们也会继续优化模型和整体检索系统，为客户提供更加精准和便捷的服务。

【OpenVI-图搜系列—多模态检索实战篇】基于表征大模型的多模态检索系统

表征大模型

多模态检索系统

多模态检索系统能做什么？

视觉智能

热门文章

最新文章

相关课程

相关电子书