图文检索

简介: 图文检索简介

【Task简介】

图文检索任务,指的是通过对图片和文本进行跨模态理解,建模图文之间的相似性,从而为文本检索相关图片。在当今多媒体内容占互联网信息主导的背景下,图文检索能力在学术和工业界具有重要地位,是搜索、推荐等业务领域的关键问题。构建通用性强、检索效率高、检索准确的图文检索模型,是这一任务的主要目标。我们推出的中文CLIP模型,以简洁的双塔表征模型结构、大规模(~2亿)的中文图文预训练数据量、丰富的模型规模,在多个不同领域的中文图文检索评测下表现优异,是这一任务的不二选择。


【说明视频】


【输入与输出】

对输入的图像、文本数据进行特征提取




【场景应用】

利用中文CLIP模型,我们能够快速计算出给定图片和文本的向量化表征,并在此基础上打造一套简易以文搜图的图搜引擎。具体来说,在准备好检索图片池并为其计算好中文CLIP特征后,我们可以使用FAISS等索引工具构建KNN索引。之后对于用户输入的文本query,用中文CLIP模型在线计算文本表征,并给予FAISS进行KNN检索,便能快速返回相关图片,一个图搜引擎也就完成了。


【模型链接】

模型文件:https://www.modelscope.cn/models/damo/multi-modal_clip-vit-base-patch16_zh/summary

相关文章
|
机器学习/深度学习 人工智能 算法
【视觉智能产品速递——人物动漫化能力上新】
VIAPI—人物动漫化!新增风格版本发布。 产品功能:人物动漫化——输入一张人物图像,生成其二次元卡通形象,返回卡通化后的结果图像。 🔥🔥🔥 本次更新风格:国风工笔画、港漫风
1763 4
【视觉智能产品速递——人物动漫化能力上新】
|
机器学习/深度学习 自然语言处理 算法
跨模态学习能力再升级,EasyNLP电商文图检索效果刷新SOTA
本⽂简要介绍我们在电商下对CLIP模型的优化,以及上述模型在公开数据集上的评测结果。最后,我们介绍如何在EasyNLP框架中调用上述电商CLIP模型。
|
开发工具 git
Git详解——pull、push、clone、fork、pull request图解及命令速查
本文主要针对Git中pull、push、clone、fork、pull request图解及命令详解
1130 0
Git详解——pull、push、clone、fork、pull request图解及命令速查
|
8月前
|
人工智能 自然语言处理 搜索推荐
AI 搜索 MCP 最佳实践
本文介绍了如何通过 MCP 协议,快速调用阿里云 OpenSearch 、ElasticSearch 等工具,帮助企业快速集成工具链、降低开发复杂度、提升业务效率。
937 29
AI 搜索 MCP 最佳实践
|
10月前
|
存储 机器学习/深度学习 人工智能
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
本文探讨了多模态RAG系统的最优实现方案,通过模态特定处理与后期融合技术,在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块,有效保留结构和关系信息。相比传统方法,该方案显著提升了复杂查询的检索精度(+23%),并支持灵活升级。文章还介绍了查询处理机制与优势对比,为构建高效多模态RAG系统提供了实践指导。
2517 0
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
|
人工智能 API 决策智能
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
【7月更文挑战第8天】智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
19181 134
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
|
人工智能 搜索推荐 数据可视化
Manus:或将成为AI Agent领域的标杆
随着人工智能技术的飞速发展,AI Agent(智能体)作为人工智能领域的重要分支,正逐渐从概念走向现实,并在各行各业展现出巨大的应用潜力。在众多AI Agent产品中,Manus以其独特的技术优势和市场表现,有望成为该领域的标杆。作为资深AI工程师,本文将深入探讨Manus的背景知识、主要业务场景、底层原理、功能的优缺点,并尝试使用Java搭建一个属于自己的Manus助手,以期为AI Agent技术的发展和应用提供参考。
13406 19
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
机器学习/深度学习 人工智能 自然语言处理
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
Manga Image Translator 是一款开源的漫画图片文字翻译工具,支持多语言翻译并能将翻译后的文本无缝嵌入原图,保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型,提供批量处理和在线/离线翻译功能。
3059 17
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局

热门文章

最新文章