图文检索-阿里云开发者社区

图文检索

2023-07-28 222 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 图文检索

【Task简介】

图文检索任务，指的是通过对图片和文本进行跨模态理解，建模图文之间的相似性，从而为文本检索相关图片。在当今多媒体内容占互联网信息主导的背景下，图文检索能力在学术和工业界具有重要地位，是搜索、推荐等业务领域的关键问题。构建通用性强、检索效率高、检索准确的图文检索模型，是这一任务的主要目标。我们推出的中文CLIP模型，以简洁的双塔表征模型结构、大规模（~2亿）的中文图文预训练数据量、丰富的模型规模，在多个不同领域的中文图文检索评测下表现优异，是这一任务的不二选择。

【说明视频】

点击链接查看视频：https://www.yuque.com/modelscope/rdum8e/bl77r9?inner=DkBVM

【输入与输出】

对输入的图像、文本数据进行特征提取

【场景应用】

利用中文CLIP模型，我们能够快速计算出给定图片和文本的向量化表征，并在此基础上打造一套简易以文搜图的图搜引擎。具体来说，在准备好检索图片池并为其计算好中文CLIP特征后，我们可以使用FAISS等索引工具构建KNN索引。之后对于用户输入的文本query，用中文CLIP模型在线计算文本表征，并给予FAISS进行KNN检索，便能快速返回相关图片，一个图搜引擎也就完成了。

【数据集链接】

数据集：后续增加

模型文件：https://www.modelscope.cn/models/damo/multi-modal_clip-vit-base-patch16_z