北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率

简介: 【10月更文挑战第1天】北京大学李戈教授团队提出了一种名为“统一生成测试”的创新方法,有效提升了大模型如GPT-2和GPT-3在单一测试中的代码生成覆盖率,分别从56%提升至72%和从61%提升至78%。这种方法结合了模糊测试、变异测试和生成对抗网络等多种技术,克服了传统测试方法的局限性,在大模型测试领域实现了重要突破,有助于提高系统的可靠性和安全性。然而,该方法的实现复杂度较高且实际应用效果仍需进一步验证。论文可从此链接下载:【https://drive.weixin.qq.com/s?k=ACAAewd0AA48Z2kXrJ】

北京大学李戈教授领导的研究团队最近提出了一种创新的方法,用于提高大模型在单一测试中的代码生成覆盖率。这一研究成果在学术界引起了广泛关注,并被认为是大模型测试领域的一项重要突破。

该研究团队提出了一种名为"统一生成测试"的方法,旨在解决现有大模型测试方法在覆盖率方面的局限性。传统的大模型测试方法通常依赖于随机生成测试用例或基于搜索的策略,但这些方法往往无法全面覆盖大模型的代码生成能力。相比之下,统一生成测试方法通过结合多种测试技术,包括模糊测试、变异测试和生成对抗网络,显著提高了测试的覆盖率。

研究团队在实验中使用了多个大模型进行测试,包括GPT-2、GPT-3和T5等。结果显示,统一生成测试方法能够显著提高这些模型在单一测试中的代码生成覆盖率。例如,对于GPT-2模型,统一生成测试方法将代码生成覆盖率从56%提高到72%,而对于GPT-3模型,覆盖率从61%提高到78%。

这一研究成果对于大模型的测试和验证具有重要意义。首先,它提供了一种更全面、更有效的测试方法,可以帮助开发人员更好地评估大模型的代码生成能力。其次,通过提高测试覆盖率,可以减少大模型在实际应用中的错误和漏洞,提高系统的可靠性和安全性。

然而,该研究也存在一些局限性。首先,统一生成测试方法的实现复杂度较高,需要结合多种测试技术,这可能会增加测试的成本和时间。其次,尽管该方法在实验中取得了较好的结果,但在实际应用中的效果还有待进一步验证。此外,由于大模型的复杂性和多样性,如何将统一生成测试方法应用于不同类型的大模型也是一个挑战。

论文下载链接:https://drive.weixin.qq.com/s?k=ACAAewd0AA48Z2kXrJ

目录
相关文章
|
9月前
|
数据采集 监控 机器人
浅谈网页端IM技术及相关测试方法实践(包括WebSocket性能测试)
最开始转转的客服系统体系如IM、工单以及机器人等都是使用第三方的产品。但第三方产品对于转转的业务,以及客服的效率等都产生了诸多限制,所以我们决定自研替换第三方系统。下面主要分享一下网页端IM技术及相关测试方法,我们先从了解IM系统和WebSocket开始。
182 4
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
ICLR 2025 | EDiT:一种基于 Local SGD 策略的大模型高效分布式训练方法
蚂蚁 AI Infra 团队在深度学习最核心之一的训练框架方向上持续投入与创新,实现了提升资源利用率、加速训练、提升训练稳定性等目标。我们提出的 EDiT 方法,即为其中一项工作。
|
8天前
|
传感器 机器学习/深度学习 监控
【图像融合】差异的高斯:一种简单有效的通用图像融合方法[用于融合红外和可见光图像、多焦点图像、多模态医学图像和多曝光图像](Matlab代码实现)
【图像融合】差异的高斯:一种简单有效的通用图像融合方法[用于融合红外和可见光图像、多焦点图像、多模态医学图像和多曝光图像](Matlab代码实现)
|
5月前
|
机器学习/深度学习 人工智能 并行计算
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
|
3月前
|
机器学习/深度学习 存储 缓存
大模型推理显存和计算量估计方法
最近做吞吐量调试涉及到输入batch_size的设置,为了把算力和显存用起来,同时不触发out of memory,需要提前估计大模型推理过程中的显存占用
346 5
|
3月前
|
测试技术
软考软件评测师——可靠性测试测试方法
软件可靠性是指软件在规定条件和时间内完成预定功能的能力,受运行环境、软件规模、内部结构、开发方法及可靠性投入等因素影响。失效概率指软件运行中出现失效的可能性,可靠度为不发生失效的概率,平均无失效时间(MTTF)体现软件可靠程度。案例分析显示,嵌入式软件需满足高可靠性要求,如机载软件的可靠度需达99.99%以上,通过定量指标评估其是否达标。
|
3月前
|
消息中间件 缓存 监控
性能测试怎么做?方法、流程与核心要点解析
本文系统阐述了性能测试的核心方法论、实施流程、问题定位优化及报告编写规范。涵盖五大测试类型(负载验证、极限压力、基准比对、持续稳定性、弹性扩展)与七项关键指标,详解各阶段任务如需求分析、场景设计和环境搭建,并提供常见瓶颈识别与优化实战案例。最后规范测试报告内容框架与数据可视化建议,为企业级实践提出建立基线库、自动化回归和全链路压测体系等建议,助力高效开展性能测试工作。
|
5月前
|
人工智能 算法 数据库
美团面试:LLM大模型存在哪些问题?RAG 优化有哪些方法?_
美团面试:LLM大模型存在哪些问题?RAG 优化有哪些方法?_