向量检索服务

简介: 向量检索服务

一、阿里云向量检索服务概述

向量检索服务DashVector基于通义实验室自研的高效向量引擎Proxima内核,提供具备水平拓展能力的云原生、全托管的向量检索服务。DashVector将其强大的向量管理、向量查询等多样化能力,通过简洁易用的SDK/API接口透出,方便被上层AI应用迅速集成,从而为包括大模型生态、多模态AI搜索、分子结构分析在内的多种应用场景,提供所需的高效向量检索能力。

二、向量检索服务优势

多维度高精度

依据不同数据维度和分布选择不同算法或算法组合,根据具体场景需求实现精度和性能之间的平衡。

高性能低成本

通过与分布式调度引擎的结合离线数据检索和训练,实现在有限成本下获得最大化性能并满足业务需求。

超大规模索引和检索

引入复合检索算法,精于工程实现和算法优化,低成本实现高效率的检索方法,单片索引可达几十亿的规模。

多场景适配

结合超参调优和复合索引等方法,解决数据场景智能适配问题,提高系统的自动化能力,增强用户的易用性。

三、阿里云向量检索服务实践

DashVector x 通义千问大模型:打造基于专属知识的问答服务

通过向量检索将匹配过程转化为语义搜索,让提取相关知识点就会变得简单而高效。

image-20240114120857236.png

  1. 本地知识库的向量化。通过文本向量模型将其转化为高质量低维度的向量数据,再写入DashVector向量检索服务。这里数据的向量化我们采用了灵积模型服务上的Embedding API实现。

  2. 相关知识点的提取。将提问文本向量化后,通过 DashVector 提取相关知识点的原文。

  3. 构造 Prompt 进行提问。将相关知识点作为“限定上下文+提问” 一起作为prompt询问通义千问。

    1.API-KEY 准备
    开通灵积模型服务,并获得 API-KEY:开通DashScope并创建API-KEY
    开通DashVector向量检索服务,并获得 API-KEYAPI-KEY管理

  4. 环境准备
    需要提前安装 Python3.7 及以上版本,请确保相应的 python 版本。

    pip3 install dashvector dashscope
    
  1. 数据准备

    git clone https://github.com/shijiebei2009/CEC-Corpus.git
    

搭建步骤

  1. 本地知识库的向量化
    在示例中,我们将 Embedding 向量和新闻报道的文稿(作为raw字段)一起存入DashVector向量检索服务中,以便向量检索时召回原始文稿。

image-20240114121627065.png

  1. 知识点的提取
    将 CEC-Corpus 数据集所有新闻报道写入DashVector服务后,就可以进行快速的向量检索。实现这个检索,我们同样将提问的问题进行文本向量化后,再在DashVector服务中检索最相关的知识点,也就是相关新闻报道。

image-20240114121709616.png

  1. 构造 Prompt 向LLM(通义千问)提问
    在通过提问搜索到相关的知识点后,我们就可以将 “提问 + 知识点” 按照特定的模板作为 prompt 向LLM发起提问了。在这里我们选用的LLM是通义千问,这是阿里巴巴自主研发的超大规模语言模型,能够在用户自然语言输入的基础上,通过自然语言理解和语义分析,理解用户意图。可以通过提供尽可能清晰详细的指令(prompt),来获取更符合预期的结果。这些能力都可以通过通义千问API来获得。

    image-20240114121735799.png

具体我们这里设计的提问模板格式为:请基于我提供的内容回答问题。内容是{ },我的问题是{ },当然您也可以自行设计合适的模板。

做好这些准备工作以后,就可以对LLM做与具体知识点相关的提问了

基于DashVector作为向量检索的底座,LLM大模型的知识范畴得到了针对性的扩展,并且能够对于专属的特定知识领域做出正确的回答。

image-20240114121811328.png

可以看到DashVector作为一个独立的向量检索服务,提供了开箱即用的强大向量检索服务能力,这些能力和各个AI模型结合,能够衍生多样的AI应用的可能。

四、总结

向量检索服务具备高性能、全托管、云原生的特性,以及简洁易用的SDK/API接口和丰富的功能支持。在实际应用中,阿里云向量检索服务能够满足大模型知识库搭建、多模态AI搜索等多种应用场景的需求。因此,阿里云向量检索服务是一个值得用户信赖和选择的优秀产品。并且该产品将会不断改进优化,值得用户关注和使用。

目录
相关文章
|
6月前
|
自然语言处理 算法
向量检索服务的优缺点
使用向量检索服务的好处是它可以将文本信息转化为向量表示,并进行相似度计算。这使得能够高效地搜索与查询进行语义匹配的文本
847 3
|
6月前
|
人工智能 自然语言处理
开通向量检索服务
开通向量检索服务
46 2
|
6月前
|
人工智能 Cloud Native API
向量检索服务DashVector的体验
向量检索服务DashVector的体验
167 2
|
6月前
|
人工智能 大数据 API
阿里云向量检索服务测评
在当今的大数据时代,向量检索技术已成为处理海量数据、实现高效信息检索的重要手段。阿里云作为国内领先的云计算服务提供商,推出了自己的向量检索服务。本文将对阿里云的向量检索服务进行深入的测评,探讨其在语义检索、知识库搭建、AI多模态搜索等场景的最佳实践,并分析其与其他向量检索工具的优劣。
697 1
|
28天前
|
存储 人工智能 运维
阿里云向量检索服务 Milvus 版正式商业化
阿里云向量检索服务 Milvus 版正式商业化!
|
5月前
|
运维 监控 搜索推荐
客户案例 | 识货基于向量检索服务 Milvus 版搭建电商领域的向量数据检索平台
阿里云的Milvus服务以其性能稳定和功能多样化的向量检索能力,为识货团队在电商领域的向量检索场景中搭建业务系统提供了强有力的支持。该服务的分布式扩展能力不仅可靠,而且能够适应日益增长的数据规模。
客户案例 | 识货基于向量检索服务 Milvus 版搭建电商领域的向量数据检索平台
|
6月前
|
开发工具 数据库 git
向量检索服务体验评测
通过一个实用的例子带你全方位了解向量检索服务DashVector
120576 4
|
6月前
|
人工智能 Cloud Native API
向量检索服务评测
向量检索服务基于阿里云自研的向量引擎 Proxima 内核,提供具备水平拓展、全托管、云原生的高效向量检索服务。向量检索服务将强大的向量管理、查询等能力,通过简洁易用的 SDK/API 接口透出,方便在大模型知识库搭建、多模态 AI 搜索等多种应用场景上集成。
376 1
|
6月前
|
编译器 API 开发工具
向量检索服务体验
根据阿里云发布的阿里云自研的向量引擎 Proxima 内核,进行综合体验。
54 0
|
自然语言处理 算法 数据库
OpenSearch向量检索和大模型方案深度解读
深度解读开放搜索在向量检索和大模型方面的升级演进。
81410 7