表征大模型
说起表征模型在图搜/多模态检索系统中的作用,可以用“核心作用”来形容。其主要目的是将图片和文本转化成特征向量,有了特征向量才得以进行向量检索索引的构建。模型提取的特征向量对于图片/文本等内容的表征是否贴切,直接影响着检索结果的精准度。得益于多模态技术的迅速发展,我们可以较为轻松的获取海量的图文训练对,通过基于contrastive loss的对比学习实现图文对齐训练。海量图文训练对通过弱监督对比学习的方式实现表征模型的训练是CLIP等大模型训练的一个基本思路,在这一指导思想的指引下,我们也研发了更加先进的表征大模型,其他文章中会进行介绍。由于大训练数据量和大模型参数量的加持,表征大模型相较于小模型而言,在泛化性和多任务领域有着无与伦比的优势,特别是在多模态检索领域,我们能够覆盖更加广泛地应用领域。基于阿里自研表征大模型,我们已经上线了多模态检索云产品:https://www.aliyun.com/activity/intelligent/AI-search
多模态检索系统
相较于其他的AI产品,多模态/图像检索系统的复杂度更高,涉及到串联检测、表征等多个模型以及向量引擎的联通等。为了叙述方便,下面以文搜图任务为例,进行多模态检索系统的讲解。从系统角度讲,多模态检索可以分成两个过程:入库和检索。入库旨在将图片导入到向量引擎中构建检索索引,其主要流程是先通过检测模型检测图片中实体目标,然后通过表征模型进行特征提取,最后使用特征向量在引擎中进行检索索引的构建。对于在线检索部分,与入库步骤相同,在线检索过程中,在得到query特征后,直接调用向量引擎召回相关图片,最后返回将结果传给用户。从上述的检索过程可以看出,整个多模态检索系统,以检测/表征算法服务和向量引擎服务这两部分为关键组成。算法模型在表征模型部分已经进行了简单的介绍,对于检索引擎服务,其核心目的是对图像库进行构建检索索引,从而在检索过程中使用ANN近似最近邻算法召回相关结果。从整体上看,模型算法服务和向量引擎的性能对于整体性能有比较关键的影响。对于这两项服务,我们的云产品都做了比较深入的优化提升,在保证模型效果的前提下,对服务时延和并发量做到明显提升。
多模态检索系统能做什么?
基于多模态检索系统,我们能应用到哪些场景下呢?传统的文搜文、图搜图等单模态任务依然是支持的,除此之外,文搜图、文搜视频、图搜视频等跨模态的任务也得到了很好的支持。当然,基于检索链路,同样可以完成其他领域的任务,比如数据预标注任务,用户可以通过文搜图检索获取相关图片,对图片进行标签,或者说,在有标签数据的集合中进行图搜图,然后通过标签传递的方式进行打标。事实上,在现实生活中,很多应用场景都可以转化成检索任务进行完成,后续我们也会继续优化模型和整体检索系统,为客户提供更加精准和便捷的服务。