概述:
通用文本向量,是通义实验室基于LLM底座的多语言文本统一向量模型,面向全球多个主流语种,提供高水准的向量服务,帮助开发者将文本数据快速转换为高质量的向量数据
通用文本向量text-embedding-v3模型已于7月12号在阿里云百炼平台上线,免费赠送50万tokens,抓紧前来体验吧~~
体验入口:模型广场
text-embedding-v3
通用文本向量text-embedding-v3模型是text-embedding-v2模型的升级版本
主打特性:
- 高性能、低成本
- 50+多语言
- 8K长文本
功能更新要点如下:
- 语种扩充:text-embedding-v3模型对比text-embedding-v2模型扩展了意大利语、波兰语、越南语、泰语、菲律宾语等语种,支持语种数量增加到50+
- 输入长度扩展:支持编码的输入长度从2048扩展至8192, 对text-embedding-v3, 8192指文本输入的最大token长度
- Sparse向量支持:text-embedding-v3模型同时支持连续向量表示(dense vector)和离散向量表示模型(sparse vector), 用户可以在接口参数中指定输出连续向量、离散向量或者同时输出
- 可变输出连续向量维度:相比text-embedding-v2模型的固定1536向量维度, text-embedding-v3支持用户自定义连续向量的维度, 目前可以选择512,768和1024维度;同时为了进一步节省下游任务的使用成本,text-embedding-v3模型在不衰减效果的前提下将最大的向量维度降低至1024维
- 不再区分Query/Document类型:text-embedding-v3模型在不降低模型效果的前提下不再区分输入文本的类型,text_type参数无需指定输入的文本是Query还是Document类型
- 效果提升:通过预训练模型底座和SFT策略优化提升embedding模型整体效果,中英文公开检索数据集评测检索效果对比text-embedding-v2提升15%
计费相关:
text-embedding-v3模型整体计费情况可点击计量计费查看
- 通用文本向量模型计费是按照token来计算
这里token数量指的是大模型使用的tokenizer分词后对应的最小分词单元的数量。在通用文本向量模型中,单个token平均约对应1.5个汉字,0.7个英文单词。通用文本向量服务根据模型输出结果对应的token数量进行计量计费。每一次模型调用产生的实际token数量可以从response中获取
注意:阿里云大模型服务平台百炼和阿里云模型服务灵积为新用户提供了一系列的新人免费额度优惠。获取这些免费额度需要您满足以下条件中的一项:
开通阿里云大模型服务平台百炼:首次开通阿里云大模型服务平台百炼,且从未开通过阿里云模型服务灵积
开通阿里云模型服务灵积:首次开通阿里云模型服务灵积,且从未开通过阿里云大模型服务平台百炼
新人免费额度说明:
新人免费额度遵循以下活动规则:
- 有效期计算规则:当您首次开通大模型服务平台百炼或模型服务灵积时,平台将自动为您发放大模型服务平台百炼和模型服务灵积相关的所有新人免费额度,并开始计算免费额度的有效期。超过有效期后,您的新人免费额度将失效,继续使用模型服务将产生计费
- 新增优惠规则:您获取的免费额度的种类、数量和有效期以开通时获取的优惠为准。您无法享受后续可能新增的各项新人优惠项目(特别注明的除外)
- 优惠共享规则:大模型服务平台百炼和模型服务灵积共享新人免费额度,由此获取的免费额度的种类、数量和有效期,以先开通的平台获取的优惠为准
由于此模型是最新上线,目前对于所有初次申请体验的用户会免费发放50万tokens额度,抓紧去体验吧~~
欢迎大家在评论区交流探讨调用text-embedding-v3模型的体验与经验 。如果您在体验过程中有遇到什么问题需要我们解答,可以在评论区中留言探讨或是加入我们的官方支持群(群号:77600022533)进行交流反馈!