测试答疑助手:从需求文档到设计文档、测试用例的完整测试过程

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 本文介绍了如何使用LangChain构建一个基于本地文档和数据的测试答疑助手。该助手能回答自然语言问题,涉及数据统计、查找和组合。实践过程包括:设置API Token,导入LangChain相关库,使用MarkdownHeaderTextSplitter处理不同文档,将文本转换为向量并存储在Chroma向量数据库中。之后,通过查询数据库找到最相关的文本片段,结合大模型(如ChatOpenAI)生成回答。示例展示了询问用户注册用例中特定数据的统计情况,得到了包含表格的详细回答。

本文将基于 LangChain 实现一个 mini 的实战案例。这次实战主要完成的任务,就是设计一个测试答疑助手,这个测试答疑助手的主要功能为基于本地的文档和数据,回答给出的自然语言问题,比如一些数据的统计,查找、组合。

示例使用数据

  • 测试用例文档
  • 设计文档
  • 需求文档

实践演练

实战设计思路

image.png

安装依赖

安装依赖 chromadb,chromadb是一个简单快捷的向量数据库,为了减少对embedding模型的请求次数,设置数据保存的物理位置,这样多次运行代码也不会重复请求模型转换向量:

pip install chromadb
  • embedding:相当于一个“桥梁” —— 翻译:把图片,文字,视频以及音频全部转换为数字,并且包含了数据的信息,使得大模型都能”懂“,能利用这些数字去做训练和推理。
  • 向量:向量本身是一组数字,但是在几何上,向量的各个数字组成了多维的数组空间,向量的每个维度代表该空间的·一个不同的特征或者属性。
  • 向量数据库:专门用于存储和管理向量数据的数据库,能对向量数据进行高效的操作。

代码实现

  1. 通过环境变量设置API Token,以及相关依赖的导入:
# 一些LangChain的依赖导入  
from langchain.chat_models import ChatOpenAI  
from langchain.embeddings import OpenAIEmbeddings  
from langchain.text_splitter import MarkdownHeaderTextSplitter  
from langchain.vectorstores import Chroma  
# 加载openai 的 API Tokenfrom utils.data_load import get_auth  
# 通过环境变量设置API Token,因为代码中的部分模型调用实例无法直接传递参数,需要通过环境变量设置的方式将token传递给自动构建的OpenAI请求  
import os  
os.environ['OPENAI_API_KEY'] = 'open_ai_token'
os.environ['OPENAI_API_BASE'] = 'open_ai_url'

2.处理源文档,将其切片处理:


# 定义一个函数,用于加载本地文件中的文本  
def load_text_from_file(path: str) -> str:  
    return open(path, encoding='utf-8').read()  
#  根据测试用例文档中的结构,定义一个MarkdownHeaderTextSplitter实例,用于将markdown文档切分为文本片段,方便后续embedding处理和向量数据库的构建  
testcase_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=[("##", "模块名称"), ("###", "用例名称")])  
docs = testcase_splitter.split_text(load_text_from_file(path="docs/测试用例.md"))  
# 同样处理设计文档,因为设计文档中的结构与测试用例文档不一致,所以要新定义一个MarkdownHeaderTextSplitter实例  
design_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=[("##", "功能名称"), ("###", "模块名称")])  
docs += design_splitter.split_text(load_text_from_file(path="docs/设计文档.md"))  
# 同理,处理需求文档  
prd_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=[("###", "功能名称")])  
docs += prd_splitter.split_text(load_text_from_file(path="docs/需求文档.md"))  
# 将切分后的文本片段输出,可以查看切分结果,和里面附带的数据信息  
for doc in docs:  
    print(doc)

3.如果数据存在,则加载使用,如果不存在,则写入:


persist_directory = 'chroma'
# 读取数据
if os.path.isdir(persist_directory):  
    vectordb = Chroma(persist_directory=persist_directory, embedding_function=OpenAIEmbeddings())  
else:  
    # 将切分后的数据,通过OpenAIEmbeddings实例,转换为向量数据,
    # 并保存到向量数据库中,持久化到本地指定目录下  
    vectordb = Chroma.from_documents(  
        documents=docs,  
        embedding=OpenAIEmbeddings(),  
        persist_directory=persist_directory  
    )

4.将向量数据库中检索到的文本片段以及提示词组成为 prompt,向大模型获取返回信息:

# 设定最终提出的问题  
question = "问题:请统计出用户注册用例中,用到的所有用户名、密码、电子邮箱数据,并将它们列成一个表格"  
# 从向量数据库中找到相似度最高的k条文本片段数据  
answer_docs = vectordb.similarity_search(query=question, k=4)  
# ChatGPT3.5大模型调用实例  
llm = ChatOpenAI(temperature=0.0)  
# 将向量数据库中检索到的文本片段组装成字符串,作为输入的数据源  
resource_doc = "".join([chunk.page_content for chunk in answer_docs])  
# 将数据源字符串和问题组装成最终请求大模型的字符串  
final_llm_text = f"{resource_doc} {question}"  
# 通过大模型获取字符串的回答信息  
response = llm.call_as_llm(message=final_llm_text)  
print(f"回答结果:\n{response}")

运行结果示例

image.png

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
18天前
|
测试技术 Python
自动化测试项目学习笔记(三):Unittest加载测试用例的四种方法
本文介绍了使用Python的unittest框架来加载测试用例的四种方法,包括通过测试用例类、模块、路径和逐条加载测试用例。
43 0
自动化测试项目学习笔记(三):Unittest加载测试用例的四种方法
|
2月前
|
测试技术
测试用例设计方法之基本路径测试法
基本路径测试法是在程序控制流图的基础上,通过分析控制构造的环路复杂性,导出基本可执行路径集合,从而设计测试用例的方法,设计出的测试用例要保证在测试中程序的语句覆盖100%,条件覆盖100%
76 7
测试用例设计方法之基本路径测试法
|
2月前
|
测试技术 数据库
『软件测试2』 关于黑盒测试和测试用例的基础知识
该文章讲解了黑盒测试的基本概念以及如何编写有效的测试用例,包括选择合适的输入数据、预期结果的设定和测试执行的步骤。
|
3月前
|
传感器 算法 Ubuntu
大疆M2006电机测试文档
本文是关于大疆RoboMaster M2006电机的测试文档,介绍了在Ubuntu20.04环境下通过ROS读取电机反馈信息、控制电机移动,并利用PID控制算法实现速度闭环的测试流程,涵盖了测试材料、接线方法、电机校准、CAN通讯测试以及在ROS中的移植和PID调节的详细步骤和方法。
136 0
大疆M2006电机测试文档
|
3月前
|
测试技术
测试与开发问题之测试用例设计的重点是什么,如何实现
测试与开发问题之测试用例设计的重点是什么,如何实现
|
2月前
|
测试技术 数据安全/隐私保护
软件测试的艺术:如何高效地编写测试用例
【9月更文挑战第2天】在软件开发的海洋中,测试用例是导航灯塔,指引着质量保障的航向。本文将带你航行于测试用例编写的技巧之海,从理解需求到设计思路,再到实际执行,我们将一起探索如何高效而精准地构建测试用例,确保软件的稳健与可靠。
60 0
|
3月前
|
Java 测试技术 API
SpringBoot单元测试快速写法问题之计算测试用例的分支覆盖率如何解决
SpringBoot单元测试快速写法问题之计算测试用例的分支覆盖率如何解决
|
3月前
|
监控 安全 测试技术
测试与开发问题之为什么测试开发工程师需要有安全生产意识,文档编写能力对于测试开发工程师的重要性如何理解
测试与开发问题之为什么测试开发工程师需要有安全生产意识,文档编写能力对于测试开发工程师的重要性如何理解
|
4月前
|
测试技术
单元测试策略问题之寻找边界问题如何解决
单元测试策略问题之寻找边界问题如何解决
|
4月前
|
测试技术
软件交付问题之为什么测试用例不能全由开发人员告知测试人员
软件交付问题之为什么测试用例不能全由开发人员告知测试人员