打造垂直领域内容的问答机器人

简介: 大模型驱动的问答机器人在垂直领域如金融、医疗与电商中发挥关键作用。针对互联网专业人员,这类机器人不仅能检索公司知识库,还能辅助需求分析、测试用例生成乃至代码编写。实现上,可通过OpenAI的官方Assistant或结合RAG与LangChain等框架达成。官方Assistant需详尽的角色设定与检索配置;编程实现则涉及文件绑定、机器人创建及消息交互等步骤,最终实现高效准确的信息检索功能。

6e6dd611edfa13f9da7b741115c82a4.jpg

简介

在大模型问世之后,其中一个最核心的功能就是问答机器人。但是若直接将问题抛给 ChatGPT,仍然解决不了以下限制:

  1. 相关的关联数据需要联网。
  2. 相关的关联数据是 GPT 也不知道的私密数据。

而在前面介绍RAG 检索增强生成的时候也同样提到了这一点。

应用场景

垂直领域内容的问答机器人的应用场景非常多,比如金融、医疗、电商等。

如果是针对于互联网相关的从业人员,比如开发、测试、产品等,我们还可以让其帮助我们进行以下多种类型的工作:

  1. 公司知识库检索。
  2. 需求分析。
  3. 用例评审、测试用例生成
  4. 代码生成。

image.png

实践演练

那么如果要完成一个垂直领域内容的问答机器人,其实也是有多种方式的:

  1. openai 官方在 2023 年末做了一次重大更新,推出了官方的 assistant,可以通过官方的 assistant 完成一个问答机器人。
  2. 其他方式,比如通过 RAG 结合向量数据库,或结合 LangChain 等人工智能应用框架完成。

使用官方的 assistant

点击查看官方 assistant 使用教程

如果使用 assistant 创建一个垂直领域内容的问答机器人,那么主要需要的,就是 Retrieval 的能力,注意这个能力至少需要 gpt-3.5-turbo-1106(支持较新版本)或 gpt-4-turbo-preview 型号。

  1. 编写好 Instructions,注意角色设定越详细越清楚越好。
  2. 将 Retrieval 的配置打开,再将需要给机器人检索的文件上传上去(注意,文件越大 token 消费越高)。
  3. 输入想要检索的信息的 prompt。
  4. 即可获取到文档内的信息内容。
  5. 注意,上传的文件有格式限制,支持的格式为官方支持的格式
通过编写代码实现

import time
from openai import OpenAI
import os
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY"))
# 1. 绑定课程文件
file = client.files.create(
    file=open("课程数据.md", "rb"),
    purpose='assistants'
)
# 2. 创建课程处理机器人
assistant = client.beta.assistants.create(
    instructions="你是一个课程维护者,你需要清楚的知道课程名称以及其对应的url地址。",
    model="gpt-4-turbo-preview",
    tools=[{
   
   "type": "retrieval"}],
    file_ids=[file.id]
)
# 3. 创建一个线程
thread = client.beta.threads.create()
# 4. 创建一条消息
message = client.beta.threads.messages.create(
    thread_id=thread.id,
    role="user",
    content="请告诉我超时处理对应的视频地址"
)
# 5. 提问
run = client.beta.threads.runs.create(
    thread_id=thread.id,
    assistant_id=assistant.id,
    instructions="你是一个课程维护者,你需要清楚的知道课程名称以及其对应的url地址。",
)
# 6. 循环查询问题是否已经解决完成
def wait_on_run(run, thread):
    while run.status == "queued" or run.status == "in_progress":
        run = client.beta.threads.runs.retrieve(
            thread_id=thread.id,
            run_id=run.id,
        )
        time.sleep(0.5)
    return run
wait_on_run(run, thread)
# 6. 获取历史消息
messages = client.beta.threads.messages.list(thread_id=thread.id).model_dump_json(indent=2)
print(messages)

其他方式

  1. 结合向量数据库完成。
  2. 结合 LangChain 等人工智能应用框架完成。

总结

  1. 垂直领域内容的问答机器人的产品需求。
  2. 垂直领域内容的问答机器人的实现方案。
  3. 使用官方 assistant 实现垂直领域的问答机器人。
相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
前端开发 安全 Java
全栈开发实战|​电子商务平台的设计与实现(Spring Boot + MyBatis + Thymeleaf)
全栈开发实战|​电子商务平台的设计与实现(Spring Boot + MyBatis + Thymeleaf)
3575 0
全栈开发实战|​电子商务平台的设计与实现(Spring Boot + MyBatis + Thymeleaf)
|
11月前
|
安全 API 开发工具
什么是Token
Token是一种用于身份验证和授权的凭证,广泛应用于云计算、API调用、实时音视频通信等场景。它通过加密算法生成,确保请求合法性与服务安全性。Token的核心作用包括身份验证、权限控制、安全保障和无状态化设计。生成方式有控制台、SDK、OpenAPI、JWT和服务端生成等。Token通常包含AppID、UserID、时间戳等字段,并通过哈希算法计算。应用场景涵盖智能语音交互、实时音视频通信、API网关和STS临时访问凭证等。使用时需注意有效期、密钥管理、权限设置和传输安全。
5191 4
|
12月前
|
人工智能 JSON PyTorch
TPO:告别微调!这个AI框架让大模型实时进化:无需训练直接优化,输入问题越用越聪明,输出质量暴涨50%
TPO(Test-Time Prompt Optimization)框架,通过奖励模型和迭代反馈优化大语言模型输出,无需训练即可显著提升性能,支持动态对齐人类偏好,降低优化成本。
785 8
TPO:告别微调!这个AI框架让大模型实时进化:无需训练直接优化,输入问题越用越聪明,输出质量暴涨50%
|
12月前
|
存储 自然语言处理 监控
基于DeepSeek的智能客服系统安全与隐私保护:构建可信赖的服务
在前四篇文章中,我们完成了智能客服系统的开发、部署、优化和扩展。本文聚焦于安全与隐私保护,探讨如何构建安全可靠的智能客服系统。内容涵盖数据安全(加密、脱敏、备份)、系统安全(输入验证、身份认证、日志监控)和隐私保护(隐私政策、数据最小化、访问控制),确保用户数据安全及系统稳定运行。通过这些措施,我们可以打造一个可信赖的智能客服系统,为用户提供更好的服务体验。
|
存储 传感器 数据可视化
3D目标检测数据集 KITTI(标签格式解析、3D框可视化、点云转图像、BEV鸟瞰图)
本文介绍在3D目标检测中,理解和使用KITTI 数据集,包括KITTI 的基本情况、下载数据集、标签格式解析、3D框可视化、点云转图像、画BEV鸟瞰图等,并配有实现代码。
4662 1
|
自然语言处理 数据可视化 搜索推荐
构建一个基于通义千问的智能客服系统
公司开发一个智能客服系统,帮助用户快速找到他们需要的商品信息、解决问题,并提供个性化的购物建议。系统需要能够处理大量的用户提问,并以自然语言的形式给出准确的回答。
1077 1
|
存储 容灾 API
云端问道19期方案教学-将本地冗余转换同城冗余,提升业务稳定性
本文介绍了阿里云对象存储OSS如何将本地冗余转换为同城冗余,以提升业务稳定性。内容分为五部分:背景介绍、存储冗余概述、创建同城冗余存储Bucket、转换Bucket的存储冗余类型及补充内容。重点讲解了本地冗余与同城冗余的区别、创建和转换同城冗余的具体操作步骤及注意事项。同城冗余能提供更高的数据持久性和服务可用性,确保业务连续性,且在转换过程中不会对业务产生影响。
440 0
|
存储 编解码 算法
无损压缩和有损压缩
【4月更文挑战第26天】无损压缩和有损压缩
1741 2
|
机器学习/深度学习 人工智能 自然语言处理
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
|
并行计算 C++ 异构计算
cuda中关于占用率的计算
cuda中关于占用率的计算
426 0

热门文章

最新文章