基于通用LLM的一次测试用例自动生成的实验

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 基于通用LLM的一次测试用例自动生成的实验

基于通用LLM的一次测试用例自动生成的实验

选择很多,最后选择了讯飞的星火做本次实验,原因还是因为讯飞的LLM的API是有免费额度的,案例代码相对比较成熟易学易用

1 LLM和基于LLM的应用

最近这段实际LLM已经变成了一个炙手可热的词汇,现在任何技术不了到LLM都感觉好像没有彻底聊完一样。那么LLM到底是什么呢?其实LLM(大语言模型)是一种语言模型,由具有许多参数的人工神经网络组成,使用自监督学习或半监督学习对大量未标记文本进行训练。大型语言模型在2018年左右出现,并在各种任务中表现出色。这里面的大其实也是相对的,那么多少参数算大、多少参数又算小确实没有一个通用的定义,通常指的是参数数量在数十亿或更多数量级的模型就算大模型。

image.png

训练一个模型一般都是通过如上三个步骤完成的,先去确定一个候选算法的集合,然后确定一种评价方法,在这种评价方法上找到优的算法,最终达到预期目标的过程就是模型训练的过程。

image.png

训练一个模型一般需要很长时间,那么构建一个基于 LLM 的应用就需要更长时间。随着 Prompt 的发展现在基于 prompt 构建一个应用系统已经变的时间越来越多,有很多在几小时只能就能完成开发。

2 LLM生成测试用例

本文就在充分描述Prompt之上,构建了一个通过通用模型生成测试用例的例子(这只是一个demo)。为了方便,我先把被测试系统的逻辑(类似条目化的需求陈述如下)。
image.png

被测系统是地铁车票自助购票软件系统需求,系统只接收 5元或10元纸币,一次只能使用一张纸币,车票只有两种面值 5 元或者 10 元。其中:

  • 若投入5元纸币,并选择购买5元面值票,完成后出票,提示购票成功。
  • 若投入5元纸币,并选择购买10元面值票,提示金额不足,并退回5元纸币。
  • 若投入10元纸币,并选择购买5元面值票,完成后出票,提示购票成功,并找零5元。
  • 若投入10元纸币,并选择购买10元面值票,完成购买后出票,提示购买成功。
  • 若输入纸币后在规定时间内不选择票种类的按钮,退回的纸币,提示错误。
  • 若选择购票按钮后不投入纸币,提示错误

看到这个测试流程应用测试用力设计方法,设计测试用例如下图:
image.png

那么调用讯飞的 spark 生成测试用例的例如代码如下:

import SparkApi
import os
from dotenv import load_dotenv, find_dotenv

#加载环境变量

_=load_dotenv(find_dotenv())
appid = os.getenv("SPARK_APP_ID")
api_secret=os.getenv("SPARK_APP_SECRET")
api_key=os.getenv("SPARK_APP_KEY")


#用于配置大模型版本,默认“general/generalv2”
# domain = "general"   # v1.5版本
domain = "generalv2"    # v2.0版本
#云端环境的服务地址
# Spark_url = "ws://spark-api.xf-yun.com/v1.1/chat"  # v1.5环境的地址
Spark_url = "ws://spark-api.xf-yun.com/v2.1/chat"  # v2.0环境的地址ws(s)://spark-api.xf-yun.com/v2.1/chat



text =[]

# length = 0

def getText(role,content):
    jsoncon = {}
    jsoncon["role"] = role
    jsoncon["content"] = content
    text.append(jsoncon)
    return text

def getlength(text):
    length = 0
    for content in text:
        temp = content["content"]
        leng = len(temp)
        length += leng
    return length

def checklen(text):
    while (getlength(text) > 8000):
        del text[0]
    return text



if __name__ == '__main__':
    text.clear
    while(1):
        Input = input("\n" +"我:")
        softprompt = "你是一名资深测试工程师,下面你会用等价类法设计测试用例,请根据下面的业务描述设计接口参数的入参:"
        question = checklen(getText("user",softprompt+Input))
        SparkApi.answer =""
        print("星火:",end = "")
        SparkApi.main(appid,api_key,api_secret,Spark_url,domain,question)
        getText("assistant",SparkApi.answer)
        # print(str(text))

运行后,输入我们的业务逻辑后,LLM给设计的测试用例如下:
image.png

仔细分析一下如上流程,其实比人工设计的还要精简,但是按照业务流程的覆盖度上而言,确实还是很好的,人工可以通过完善一下对应的 cases 就可以执行测试了。

3 总结

如上就是一个小实验,尝试使用LLM帮助测试工程师,实验中可以看出prompting base构建的系统就足以满足测试工程师工作的助手的要求了,只要设计好prompt,并且给prompt足够的信息,那么就可以得出有效的测试用例,但是这距离工程化还有一段很长的路要走。

目录
相关文章
|
人工智能 自然语言处理 安全
【网安AIGC专题10.19】论文3代码生成:ChatGPT+自协作代码生成+角色扮演(分析员、程序员、测试员)+消融实验、用于MBPP+HumanEval数据集
【网安AIGC专题10.19】论文3代码生成:ChatGPT+自协作代码生成+角色扮演(分析员、程序员、测试员)+消融实验、用于MBPP+HumanEval数据集
186 0
|
30天前
|
Linux Shell 网络安全
Kali Linux系统Metasploit框架利用 HTA 文件进行渗透测试实验
本指南介绍如何利用 HTA 文件和 Metasploit 框架进行渗透测试。通过创建反向 shell、生成 HTA 文件、设置 HTTP 服务器和发送文件,最终实现对目标系统的控制。适用于教育目的,需合法授权。
63 9
Kali Linux系统Metasploit框架利用 HTA 文件进行渗透测试实验
|
1月前
|
人工智能 自然语言处理 前端开发
CodeArena:在线 LLM 编程竞技场!用于测试不同开源 LLM 的编程能力,实时更新排行榜
CodeArena 是一个在线平台,用于测试和比较不同大型语言模型(LLM)的编程能力。通过实时显示多个 LLM 的代码生成过程和结果,帮助开发者选择适合的 LLM,并推动 LLM 技术的发展。
56 7
CodeArena:在线 LLM 编程竞技场!用于测试不同开源 LLM 的编程能力,实时更新排行榜
|
3月前
|
存储 人工智能 Java
将 Spring AI 与 LLM 结合使用以生成 Java 测试
AIDocumentLibraryChat 项目通过 GitHub URL 为指定的 Java 类生成测试代码,支持 granite-code 和 deepseek-coder-v2 模型。项目包括控制器、服务和配置,能处理源代码解析、依赖加载及测试代码生成,旨在评估 LLM 对开发测试的支持能力。
72 1
|
3月前
|
人工智能 前端开发
大模型体验体验报告:OpenAI-O1内置思维链和多个llm组合出的COT有啥区别?传统道家理论+中学生物理奥赛题测试,名不虚传还是名副其实?
一个月前,o1发布时,虽然让人提前体验,但自己并未进行测试。近期终于有机会使用,却仍忘记第一时间测试。本文通过两个测试案例展示了o1的强大能力:一是关于丹田及练气的详细解答,二是解决一道复杂的中学生物理奥赛题。o1的知识面广泛、推理迅速,令人印象深刻。未来,或许可以通过赋予o1更多能力,使其在更多领域发挥作用。如果你有好的测试题,欢迎留言,一起探索o1的潜力。
118 1
|
8月前
|
异构计算
FPGA片内ROM测试实验(二)
FPGA片内ROM测试实验
102 1
|
5月前
|
NoSQL Linux Android开发
内核实验(三):编写简单Linux内核模块,使用Qemu加载ko做测试
本文介绍了如何在QEMU中挂载虚拟分区、创建和编译简单的Linux内核模块,并在QEMU虚拟机中加载和测试这些内核模块,包括创建虚拟分区、编写内核模块代码、编译、部署以及在QEMU中的加载和测试过程。
271 0
内核实验(三):编写简单Linux内核模块,使用Qemu加载ko做测试
|
8月前
|
机器学习/深度学习 SQL 人工智能
Web LLM 实验:间接注入
Web LLM 实验:间接注入
|
8月前
|
机器学习/深度学习 存储 SQL
Web LLM 实验:利用 LLM 中不安全的输出处理
Web LLM 实验:利用 LLM 中不安全的输出处理
|
8月前
|
SQL 机器学习/深度学习 人工智能
Web LLM 实验:利用 LLM API 实现 SQL 注入
Web LLM 实验:利用 LLM API 实现 SQL 注入