modelscope有自己的embedding么?
是的,ModelScope(魔搭社区)提供了多种开源的Embedding模型,支持将文本、图片以及多模态数据转换为向量表示。这些Embedding模型可以用于向量检索服务(如DashVector),以实现高效的相似性搜索和推荐等应用场景。
以下是ModelScope中提供的主要Embedding模型分类及相关信息:
ModelScope支持通过CLIP模型生成多模态向量,适用于图文检索和表征提取任务。以下是CLIP模型的具体信息: - 模型ID及特性: - damo/multi-modal_clip-vit-base-patch16_zh
:向量维度512,适用于中文通用领域。 - damo/multi-modal_clip-vit-large-patch14_zh
:向量维度768,适用于更高精度需求。 - damo/multi-modal_clip-vit-huge-patch14_zh
:向量维度1024,适合复杂场景。 - damo/multi-modal_clip-vit-large-patch14_336_zh
:分辨率提升至336,适合高分辨率图像处理。 - 度量方式:Cosine相似度。 - 训练数据:基于约2亿中文图文对进行训练。
ModelScope提供了多种文本向量模型,适用于不同语言和领域的文本表征任务。以下是一些典型模型: - 中文文本向量模型: - damo/nlp_bert_entity-embedding_chinese-base
:向量维度768,适合实体表征。 - thomas/text2vec-base-chinese
:向量维度768,适合通用文本表征。 - thomas/text2vec-large-chinese
:向量维度1024,适合高精度需求。 - 英文文本向量模型: - damo/nlp_minilm_ibkd_sentence-embedding_english-msmarco
:向量维度384,适合英文文本检索。 - damo/nlp_minilm_ibkd_sentence-embedding_english-sts
:向量维度384,适合语义相似度计算。 - 度量方式:Cosine相似度。
ModelScope还支持通过视觉表征模型将图片转换为向量,适用于商品同款/相似款搜索等任务。例如: - 商品图像同款特征模型: - damo/cv_resnet50_product-bag-embedding-models
:向量维度512,专为箱包商品设计,支持自动主体抠图和表征向量提取。 - 度量方式:Cosine相似度。
在使用ModelScope的Embedding模型时,需满足以下前提条件: 1. DashVector配置: - 已创建Cluster。 - 已获得API-KEY。 - 已安装最新版SDK。 2. ModelScope配置: - 已安装最新版SDK(可通过pip install -U modelscope
安装)。
ModelScope提供了丰富的Embedding模型,涵盖多模态、文本和图片等多种数据类型,能够满足不同场景下的向量生成需求。用户可以根据具体任务选择合适的模型,并结合DashVector实现高效的向量检索服务。