基于阿里云向量检索服务搭建AI智能问答机器人

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
推荐全链路深度定制开发平台,高级版 1个月
简介: 基于阿里云向量检索服务搭建AI智能问答机器人

一、概述

什么是向量检索服务

向量检索服务DashVector基于通义实验室自研的高效向量引擎Proxima内核,提供具备水平拓展能力的云原生、全托管的向量检索服务。DashVector将其强大的向量管理、向量查询等多样化能力,通过简洁易用的SDK/API接口透出,方便被上层AI应用迅速集成,从而为包括大模型生态、多模态AI搜索、分子结构分析在内的多种应用场景,提供所需的高效向量检索能力。

上边是来自阿里云的官方文档,每个字都认识,放到一起就是看不懂它能干嘛!,所以又重新搜索了下看它都能用来干嘛:

应用场景

  • 搜索引擎:搜索引擎是向量检索技术最为常见的应用场景之一。通过对用户查询语句和网页内容进行向量化表示,可以实现更加精准的搜索结果匹配。
  • 推荐系统:推荐系统也是向量检索技术的重要应用场景之一。通过对用户历史行为和商品属性进行向量化表示,可以实现个性化的推荐服务。
  • 文本分类:文本分类是将文本按照类别进行分类的任务。向量检索技术可以将文本表示成向量,从而实现更加准确的文本分类。
  • 电商智能搜索和偏好推荐场景:在电商智能搜索和偏好推荐场景中,向量数据库可以实现基于向量相似度的搜索和推荐功能。例如一个电商平台中包含了各种商品的图像和描述信息,用户在搜索商品时,可以通过图像或者描述信息查询相关的商品,并且还希望能够实现推荐功能,自动向用户推荐可能感兴趣的商品。
  • 图片、视频、语音、文本等非结构化数据:非结构化数据可以通过人工智能技术(深度学习算法)提取特征向量,然后通过对这些特征向量的计算和检索来实现对非结构化数据的分析与检索。具体应用如:车辆检索和商品图片检索、视频处理的实时轨迹跟踪、基于语义的文本检索和推荐、声纹匹配、音频检索、文件去重以及新药搜索和基因筛选等。
  • AI问答:典型的问答系统比如通义千问、ChatGPT、在线客户服务系统、QA聊天机器人等。在一个问答系统,其中包含了一些预定义的问题和对应的答案。用户希望能够根据输入的问题,自动匹配到最相似的预定义问题,并返回对应的答案。

看了它的应用场景,以我的理解它就是一个找相似度的搜索工具,应用比较多的应该是电商偏好推荐和AI问答做客服机器人。以下我们就用它的免费试用产品来做一个AI客服机器人 。

二、入门试用

试用创建集群

在链接页面上领取试用资源,有一个月的试用期:https://developer.aliyun.com/topic/dashvector 开通的时候需要填Cluster集群名称。
然后进到向量检索的控制台 https://dashvector.console.aliyun.com/cn-hangzhou/cluster ,因为开通的是Serverless版本的,几乎是秒启动。可以看到集群状态已经是运行正常了。

image-20240105105700362.png

api测试

我们点右侧菜单API-KEY管理先创建一个api-key来进行测试。DashVector提供了python和java的sdk和HTTP API来操作,我们这里使用python的SKD来试用

pip3 install dashvector  ##安装SKD

我这里新建了一个test_dashvector.py的文件来对dashvector简单操作,所做的操作在源码注释里可以参考

#!/usr/bin/env python3
# coding=utf-8
import dashvector
from dashvector import Doc

client = dashvector.Client(
    api_key='sk-xxxxxxxxxxxx',      ###api_key,上边刚建的
    endpoint='vrs-cn-xxxxxxxxxxxxxxx'  ##访问端口在集群详情里获取
)
assert client

client.delete('news_embedings2')

#创建一个名称为quickstart,向量维度为4的 collection
client.create(name='quickstart', dimension=4)

collection = client.get('quickstart')
assert collection


# 通过dashvector.Doc对象,插入单条数据
collection.insert(Doc(id='1', vector=[0.1, 0.2, 0.3, 0.4]))

# 通过dashvector.Doc对象,批量插入2条数据
collection.insert(
    [
        Doc(id='2', vector=[0.2, 0.3, 0.4, 0.5], fields={
   
   'age': 20, 'name': 'zhangsan'}),
        Doc(id='3', vector=[0.3, 0.4, 0.5, 0.6], fields={
   
   'anykey': 'anyvalue'})
    ]
)

# 删除1条Doc数据

collection.delete(ids=['3'])

# 查看Collection统计信息
stats = collection.stats()

print(stats)

#删除Collection
# client.delete('quickstart')

上边的代码会为集群建一个collection(一个集合,同一类数据放在一起),为collection插入和删除数据。也可以在控制台上做以上操作,在集群控制台的collection列表中点击进入这个collection,新增、更新、删除、查询等操作都可以在这里进行。注意试用的集群只能建两个Collection,超过两个会报错。

三、AI智能问答机器人

准备工作:

客服语料数据: 需要有相关的语料知识库来生成向量数据,这里用的是在github上找了一个语料 https://github.com/PlexPt/chatgpt-corpus/blob/main/kefu/1.md 自己用的时候可以参考修改

模型服务灵积api-key:在使用语料库生成向量数据时需要用到text-embedding的模型,所以以需要建一个灵积的api-key:https://dashscope.console.aliyun.com/apiKey 注意这里的api是收费的,开通时送的有免费额度,足够这次测试试用了。在上方的总览里也能看到用过的模型和剩余免费额度

具体代码实现:

1、embedding.py 文件:主要是将1.md语料按行生成向量值,然后写入到名为kefu_embedings的collection中。

#!/usr/bin/env python3
# coding=utf-8
import dashscope
from dashscope import TextEmbedding

from dashvector import Client, Doc


def prepare_data(path, batch_size=25):
    f=open(path, 'r', encoding='utf-8')
    lines=f.readlines()
    batch_docs = []
    for line in lines:
        batch_docs.append(line)
        if len(batch_docs) == batch_size:
            yield batch_docs
            batch_docs = []

    if batch_docs:
        yield batch_docs

def generate_embeddings(news):
    rsp = TextEmbedding.call(
        model=TextEmbedding.Models.text_embedding_v1,
        input=news
    )
    embeddings = [record['embedding'] for record in rsp.output['embeddings']]
    return embeddings if isinstance(news, list) else embeddings[0]


if __name__ == '__main__':
    ##灵积模型服务的key
    dashscope.api_key = 'sk-xxxxxxxx'

    # 初始化 dashvector client--DashVector向量检索服务
    client = Client(
        api_key='sk-xxxxxxxxxxxxxxxxx',
        endpoint='vrs-cn-xxxxxxxx'
    )

    collection='kefu_embedings'
    ret = client.delete(name=collection)
    assert ret


    # 创建集合:指定集合名称和向量维度, text_embedding_v1 模型产生的向量统一为 1536 维
    rsp = client.create(collection, 1536)
    assert rsp

    # 加载语料
    id = 0
    collection = client.get(collection)
    for news in list(prepare_data('1.md')): ##1.md为语料库,在程序同级目录中,每行一个问题及答案
        #print(news)
        ids = [id + i for i, _ in enumerate(news)]
        id += len(news)

        vectors = generate_embeddings(news)
        # 写入 dashvector 构建索引
        rsp = collection.upsert(
            [
                Doc(id=str(id), vector=vector, fields={
   
   "raw": doc})
                for id, vector, doc in zip(ids, vectors, news)
            ]
        )
        assert rsp

2、question.py 文件:使用导入的语料来查询


#!/usr/bin/env python3
# coding=utf-8
from dashvector import Client

from embedding import generate_embeddings
import dashscope

from dashscope import Generation


def answer_question(question, context):
    prompt = f'''请基于```内的内容回答问题。"
    ```
    {context}
    ```
    我的问题是:{question}。
    '''

    rsp = Generation.call(model='qwen-turbo', prompt=prompt)
    return rsp.output.text

def search_relevant_news(question,collection):
    # 初始化 dashvector client--DashVector向量检索服务
    client = Client(
        api_key='sk-xxxxxxxxxxxxxxxxxx',  ##向量检索api-key
        endpoint='vrs-cn-xxxxxxxxxxxxx'         ###集群地址
    )

    # 获取刚刚存入的集合
    collection = client.get(collection)
    assert collection

    # 向量检索:指定 topk = 1
    rsp = collection.query(generate_embeddings(question), output_fields=['raw'],
                           topk=1)
    assert rsp
    return rsp.output[0].fields['raw']

if __name__ == '__main__':
    dashscope.api_key = 'sk-xxxxxxxxxxxxxx'   ###积灵模型api-key
    collection='kefu_embedings'
    # question = '我的订单还没有到货,我想取消订单怎么来操作?'
    # question = '最近的订单在哪里查?'
    question = '小明的爸爸妈妈结婚为什么没有邀请小明?'
    context = search_relevant_news(question,collection)
    answer = answer_question(question, context)

    print(f'问题: {question}\n' f'回答: {answer}')

测试:

测试了如下三个问题,可以看出回答还是相当准确的,不是相关的问题也不会有提示:

问题: 我的订单还没有到货,我想取消订单怎么来操作?
回答: 您可以进入“我的订单”页面,找到相应的订单后点击取消订单按钮即可。需要注意的是,只有未发货的订单才能被取消。

问题: 最近的订单在哪里查?
回答: 您可以登录我们的网站,点击“我的订单”选项卡,并输入您的订单号码和密码,以查看您最近的订单状态。

问题: 小明的爸爸妈妈结婚为什么没有邀请小明?
回答: 抱歉,这个问题与提供的信息无关,请提出相关问题。

四、问题及建议

1、API的接口报错信息有待加强,现在报错基本没有信息提示,得自己慢慢排查
2、控制台要更加完善,增加批量导入、自动生成向量等界面,更加方便的增加和修改内容库

参考:

https://help.aliyun.com/document_detail/2510235.html

相关文章
|
5天前
|
弹性计算 运维 自然语言处理
阿里云操作系统智能助手OS Copilot实验测评报告
OS Copilot是阿里云Linux的智能助手,助于提升运维效率,通过学习用户习惯提供智能建议。开发者反馈其在DevOps场景中非常有用,给予10分帮助度评价。用户赞赏其命令执行功能,希望能扩展多命令执行和错误自动修正。与ACK、ECS等集成,可自动化部署和CI/CD流程。文档清晰,适合新手,用户愿意推荐并参与开源开发。
68 3
阿里云操作系统智能助手OS Copilot实验测评报告
|
5天前
|
弹性计算 运维 自然语言处理
阿里云操作系统智能助手OS Copilot实验测评报告
阿里云OS Copilot是一款专为Linux设计的智能运维助手,利用大语言模型提供自然语言问答、命令执行辅助和系统调优功能。软件维护工程师反馈,OS Copilot易于上手,文档清晰,对提升运维效率有显著帮助,评分10/10。其轻量级设计、准确的回答是主要优点,但可能在复杂场景下表现不足。用户期望扩展到更多Linux发行版,增加系统优化建议、代码优化和日志分析功能,并能与其他产品如ACK、ECS联动。希望能有异常处理提示和日志输出以增强问题定位。
76 14
|
5天前
|
弹性计算 人工智能 运维
阿里云操作系统智能助手OS Copilot实验测评报告
**摘要:** 在阿里云与CSDN联合的OS Copilot测试中,一名学生体验者发现该智能助手是强大的编程学习工具,给予10分的帮助评价。尽管有新手上手难度和兼容性问题,他仍强烈推荐并有意参与开源开发。OS Copilot的亮点包括直接的交互式知识问答、编程辅助及命令执行。相比其他产品,其优点是简洁和准确性,但需改进新手教程。用户期待更多功能,如系统优化建议,扩大操作系统支持,并建议与阿里云产品如ACK、ECS集成,以提升运维效率。
88 12
|
5天前
|
弹性计算 运维 自然语言处理
阿里云操作系统智能助手OS Copilot实验测评报告
OS Copilot是Alibaba Cloud Linux基于大模型构建的操作系统智能助手,其旨在通过自然语言问答、辅助命令执行及系统运维调优等功能,提升用户对Alibaba Cloud Linux的使用效率。
|
1天前
|
弹性计算 运维 自然语言处理
阿里云操作系统智能助手OS Copilot实验测评报告
OS Copilot是针对Linux的智能助手,助力学习、运维及编程。用户界面直观,自然语言交互方便新手。官方文档详尽,但初次配置略复杂,适合学生和开发者。在提高代码编写和调试效率、系统学习上得分高,功能亮点包括代码生成、问答和命令执行。用户期待更多操作系统支持、自动错误分析和系统排查功能。
98 3
|
5天前
|
弹性计算 运维
阿里云操作系统智能助手OS Copilot实验测评报告
简介:体验OS Copilot对于新人使用是友好的,教程给出的比较全面,还支持语言问答,命令执行等优点,还允许用户直接在操作系统内部使用阿里云,完成ECS的实例查询等操作。但是在系统兼容上表现出不足,对于服务器地区不明确。但总体来说测评者对OS Copilot其智能化、高效化、专业化评价是高的。
18 4
|
3天前
|
弹性计算 运维 监控
阿里云操作系统智能助手OS Copilot评测报告
**摘要:** 计算机学生试用阿里云OS Copilot,认为其对编程和命令执行辅助强大,帮助评分9分,但新手上手有一定难度。期待开源并参与开发,希望增加可视化界面及更多系统支持,优化新手体验。已体验知识问答、辅助编程和命令执行,尤喜后者,与百度文心快码相比,OS Copilot操作复杂些。期望功能扩展包括多操作系统支持、错误分析及更多集成场景,如与ACK、ECS配合。
88 1
|
5天前
|
弹性计算 人工智能 运维
阿里云操作系统智能助手OS Copilot实验测评报告
阿里云操作系统智能助手OS Copilot实验测评报告
63 2
|
5天前
|
弹性计算 运维 算法
阿里云操作系统智能助手OS Copilot 产品评测的体验和总结
阿里云OS Copilot体验评测:运维者发现其对工作有帮助,给予8分评价,尤其在命令行辅助和代码生成上。然而,新手上手难度较大,提示不清,需改进文档和引导。用户期待更多功能,如多文件分析、环境自动配置,并希望与ECS等产品更好集成。建议增加精准提示和开源参与机会。
|
5天前
|
弹性计算 运维 自然语言处理
阿里云智能助手OS Copilot体验测评
**阿里云OS Copilot测评概要:** - 智能助手助运维人员进行系统配置,如环境设置、密码重置、安全组与AccessKey管理。 - 支持脚本编写和代码注释,适合新手。 - 自然语言问答流畅,辅助编程与命令执行降低Linux使用难度。 - 作为运维工具,评分8分,易用且有帮助,用户愿推荐并考虑参与开源开发。 - 功能亮点在于辅助编程和命令执行,但相比竞品操作略复杂。 - 希望增加功能如自动命令错误分析、系统错误排查,支持更多OS,并简化安装流程。 - 可与ACK、ECS、Workbench联动,提升集群管理、运维效率。
72 1