打造垂直领域内容的问答机器人

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 大模型驱动的问答机器人在垂直领域如金融、医疗与电商中发挥关键作用。针对互联网专业人员,这类机器人不仅能检索公司知识库,还能辅助需求分析、测试用例生成乃至代码编写。实现上,可通过OpenAI的官方Assistant或结合RAG与LangChain等框架达成。官方Assistant需详尽的角色设定与检索配置;编程实现则涉及文件绑定、机器人创建及消息交互等步骤,最终实现高效准确的信息检索功能。

6e6dd611edfa13f9da7b741115c82a4.jpg

简介

在大模型问世之后,其中一个最核心的功能就是问答机器人。但是若直接将问题抛给 ChatGPT,仍然解决不了以下限制:

  1. 相关的关联数据需要联网。
  2. 相关的关联数据是 GPT 也不知道的私密数据。

而在前面介绍RAG 检索增强生成的时候也同样提到了这一点。

应用场景

垂直领域内容的问答机器人的应用场景非常多,比如金融、医疗、电商等。

如果是针对于互联网相关的从业人员,比如开发、测试、产品等,我们还可以让其帮助我们进行以下多种类型的工作:

  1. 公司知识库检索。
  2. 需求分析。
  3. 用例评审、测试用例生成
  4. 代码生成。

image.png

实践演练

那么如果要完成一个垂直领域内容的问答机器人,其实也是有多种方式的:

  1. openai 官方在 2023 年末做了一次重大更新,推出了官方的 assistant,可以通过官方的 assistant 完成一个问答机器人。
  2. 其他方式,比如通过 RAG 结合向量数据库,或结合 LangChain 等人工智能应用框架完成。

使用官方的 assistant

点击查看官方 assistant 使用教程

如果使用 assistant 创建一个垂直领域内容的问答机器人,那么主要需要的,就是 Retrieval 的能力,注意这个能力至少需要 gpt-3.5-turbo-1106(支持较新版本)或 gpt-4-turbo-preview 型号。

  1. 编写好 Instructions,注意角色设定越详细越清楚越好。
  2. 将 Retrieval 的配置打开,再将需要给机器人检索的文件上传上去(注意,文件越大 token 消费越高)。
  3. 输入想要检索的信息的 prompt。
  4. 即可获取到文档内的信息内容。
  5. 注意,上传的文件有格式限制,支持的格式为官方支持的格式
通过编写代码实现

import time
from openai import OpenAI
import os
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY"))
# 1. 绑定课程文件
file = client.files.create(
    file=open("课程数据.md", "rb"),
    purpose='assistants'
)
# 2. 创建课程处理机器人
assistant = client.beta.assistants.create(
    instructions="你是一个课程维护者,你需要清楚的知道课程名称以及其对应的url地址。",
    model="gpt-4-turbo-preview",
    tools=[{
   
   "type": "retrieval"}],
    file_ids=[file.id]
)
# 3. 创建一个线程
thread = client.beta.threads.create()
# 4. 创建一条消息
message = client.beta.threads.messages.create(
    thread_id=thread.id,
    role="user",
    content="请告诉我超时处理对应的视频地址"
)
# 5. 提问
run = client.beta.threads.runs.create(
    thread_id=thread.id,
    assistant_id=assistant.id,
    instructions="你是一个课程维护者,你需要清楚的知道课程名称以及其对应的url地址。",
)
# 6. 循环查询问题是否已经解决完成
def wait_on_run(run, thread):
    while run.status == "queued" or run.status == "in_progress":
        run = client.beta.threads.runs.retrieve(
            thread_id=thread.id,
            run_id=run.id,
        )
        time.sleep(0.5)
    return run
wait_on_run(run, thread)
# 6. 获取历史消息
messages = client.beta.threads.messages.list(thread_id=thread.id).model_dump_json(indent=2)
print(messages)

其他方式

  1. 结合向量数据库完成。
  2. 结合 LangChain 等人工智能应用框架完成。

总结

  1. 垂直领域内容的问答机器人的产品需求。
  2. 垂直领域内容的问答机器人的实现方案。
  3. 使用官方 assistant 实现垂直领域的问答机器人。
相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
6月前
|
人工智能 自然语言处理 文字识别
阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
【2月更文挑战第17天】阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
410 2
阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
|
6月前
在智能媒体服务中,如果你想要让两个字幕重叠,你可以尝试以下方法
在智能媒体服务中,如果你想要让两个字幕重叠,你可以尝试以下方法【1月更文挑战第18天】【1月更文挑战第90篇】
84 6
|
3月前
|
人工智能 移动开发 文字识别
视觉智能开放平台产品使用合集之如何对视频流进行实时分割背景,和替换背景
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
3月前
|
编解码 文字识别 算法
视觉智能开放平台产品使用合集之通用高清分割是否支持裁剪空白区域
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
5月前
|
文字识别 算法 前端开发
视觉智能开放平台产品使用合集之如何定位分割后物体的坐标
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
5月前
|
文字识别 API 开发工具
视觉智能开放平台产品使用合集之“图像抠图/分割”处理完以后,如何居中
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
数据可视化 物联网
Threejs物联网,养殖场3D可视化(三)模型展示,轨道控制器设置,模型沿着路线运动,模型添加边框,自定义样式显示标签,点击模型获取信息
Threejs物联网,养殖场3D可视化(三)模型展示,轨道控制器设置,模型沿着路线运动,模型添加边框,自定义样式显示标签,点击模型获取信息
942 15
Threejs物联网,养殖场3D可视化(三)模型展示,轨道控制器设置,模型沿着路线运动,模型添加边框,自定义样式显示标签,点击模型获取信息
|
机器学习/深度学习 自动驾驶 数据可视化
「分割一切」视频版来了:点几下鼠标,动态的人、物就圈出来了
「分割一切」视频版来了:点几下鼠标,动态的人、物就圈出来了
126 0
项目实战:Qt球机控制工具 v1.0.0(球机运动八个方向以及运动速度,设置运动到指定角度,查询当前水平和垂直角度)
项目实战:Qt球机控制工具 v1.0.0(球机运动八个方向以及运动速度,设置运动到指定角度,查询当前水平和垂直角度)
项目实战:Qt球机控制工具 v1.0.0(球机运动八个方向以及运动速度,设置运动到指定角度,查询当前水平和垂直角度)
|
人工智能 达摩院 算法
阿里达摩院:1 秒替换直播背景,像素级视频分割如何实现?
计算机视觉领域的 AI 顶会 CVPR 2020 刚刚落下帷幕,与往年更专注图片识别不同,学术界和工业界的研究方向逐渐转向了更难的视频分割和三维视觉等领域。本次,阿里巴巴拿下了四项比赛的世界冠军,其中就包括 CVPR 2020 的 DAVIS 视频目标分割比赛,本文将详细解读这项冠军技术背后的原理。
1458 0
阿里达摩院:1 秒替换直播背景,像素级视频分割如何实现?