图文检索

简介: 图文检索简介

【Task简介】

图文检索任务,指的是通过对图片和文本进行跨模态理解,建模图文之间的相似性,从而为文本检索相关图片。在当今多媒体内容占互联网信息主导的背景下,图文检索能力在学术和工业界具有重要地位,是搜索、推荐等业务领域的关键问题。构建通用性强、检索效率高、检索准确的图文检索模型,是这一任务的主要目标。我们推出的中文CLIP模型,以简洁的双塔表征模型结构、大规模(~2亿)的中文图文预训练数据量、丰富的模型规模,在多个不同领域的中文图文检索评测下表现优异,是这一任务的不二选择。


【说明视频】


【输入与输出】

对输入的图像、文本数据进行特征提取




【场景应用】

利用中文CLIP模型,我们能够快速计算出给定图片和文本的向量化表征,并在此基础上打造一套简易以文搜图的图搜引擎。具体来说,在准备好检索图片池并为其计算好中文CLIP特征后,我们可以使用FAISS等索引工具构建KNN索引。之后对于用户输入的文本query,用中文CLIP模型在线计算文本表征,并给予FAISS进行KNN检索,便能快速返回相关图片,一个图搜引擎也就完成了。


【模型链接】

模型文件:https://www.modelscope.cn/models/damo/multi-modal_clip-vit-base-patch16_zh/summary

相关文章
|
机器学习/深度学习 人工智能 算法
【视觉智能产品速递——人物动漫化能力上新】
VIAPI—人物动漫化!新增风格版本发布。 产品功能:人物动漫化——输入一张人物图像,生成其二次元卡通形象,返回卡通化后的结果图像。 🔥🔥🔥 本次更新风格:国风工笔画、港漫风
1659 3
【视觉智能产品速递——人物动漫化能力上新】
|
7月前
|
人工智能 自然语言处理 搜索推荐
AI 搜索 MCP 最佳实践
本文介绍了如何通过 MCP 协议,快速调用阿里云 OpenSearch 、ElasticSearch 等工具,帮助企业快速集成工具链、降低开发复杂度、提升业务效率。
772 29
AI 搜索 MCP 最佳实践
|
开发工具 git
Git详解——pull、push、clone、fork、pull request图解及命令速查
本文主要针对Git中pull、push、clone、fork、pull request图解及命令详解
1067 0
Git详解——pull、push、clone、fork、pull request图解及命令速查
|
12月前
|
JSON 文字识别 测试技术
Qwen2.5-VL Cookbook来啦!手把手教你怎么用好视觉理解模型!
今天,Qwen团队发布了一系列展示 Qwen2.5-VL 用例的Notebook,包含本地模型和 API 的使用。
3315 22
|
9月前
|
存储 机器学习/深度学习 人工智能
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
本文探讨了多模态RAG系统的最优实现方案,通过模态特定处理与后期融合技术,在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块,有效保留结构和关系信息。相比传统方法,该方案显著提升了复杂查询的检索精度(+23%),并支持灵活升级。文章还介绍了查询处理机制与优势对比,为构建高效多模态RAG系统提供了实践指导。
2382 0
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
|
人工智能 API 决策智能
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
【7月更文挑战第8天】智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
18369 134
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
|
机器学习/深度学习 人工智能 自然语言处理
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
Manga Image Translator 是一款开源的漫画图片文字翻译工具,支持多语言翻译并能将翻译后的文本无缝嵌入原图,保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型,提供批量处理和在线/离线翻译功能。
2907 17
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
|
开发框架 前端开发 开发工具
一个小案例带你快速了解鸿蒙ArkUI的基本使用
一个小案例带你快速了解鸿蒙ArkUI的基本使用
871 124

热门文章

最新文章