计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(上)+https://developer.aliyun.com/article/1628868
3. Prompt Obfuscation for Large Language Models
D Pape, T Eisenhofer, L Schönherr - arXiv preprint arXiv:2409.11026, 2024
大型语言模型的提示模糊化
摘要
系统提示,包括详细说明底层大型语言模型(LLM)执行的任务的指令,可以轻松地将基础模型转变为工具和服务,而开销极小。由于它们对实用性的重要影响,通常被视为知识产权,类似于软件产品的代码。然而,通过使用提示注入,可以轻易提取系统提示。迄今为止,还没有有效的对策来防止系统提示的窃取,所有保护努力都可能被精心制作的提示注入所绕过,从而避开所有保护机制。在这项工作中,我们提出了一种传统系统提示的替代方案。我们引入了提示模糊化,以防止提取系统提示,同时保持系统的实用性,几乎没有开销。核心思想是找到原始系统提示的表示,它具有相同的功能,而模糊化的系统提示不包含任何允许对原始系统提示得出结论的信息。我们实现了一种基于优化的方法来找到模糊化的提示表示,同时保持功能。为了评估我们的方法,我们调查了八种不同的指标,比较使用原始和模糊化系统提示的系统的性能,我们表明模糊化版本始终与原始版本相当。我们进一步进行了三种不同的去模糊化攻击,涵盖了不同攻击者知识,包括黑盒和白盒攻击,并表明即使在访问模糊化提示和LLM本身的情况下,我们也无法始终如一地提取有意义的信息,尽管模型有时可以从其自身输出中识别系统提示的含义。总体而言,我们展示了提示模糊化可以是保护知识产权的有效方法,同时保持与原始系统提示相同的实用性。
创新点
- 提出了一种新的系统提示模糊化方法,以防止系统提示被提取,同时保持系统本身的实用性。
- 开发了一种基于优化的方法来找到模糊化的提示表示,该方法在不牺牲功能的情况下保护了提示。
- 对比了使用原始和模糊化系统提示的系统性能,并展示了模糊化版本与原始版本相当。
- 进行了包括黑盒和白盒在内的不同去模糊化攻击,证明了模糊化提示的有效性。
算法模型
- 提出了在软提示空间中进行模糊化的优化方法,通过梯度下降算法直接优化软提示。
- 使用了Adam优化器,并设置了学习率、迭代次数和令牌数量等参数。
- 实现了一种基于贪心坐标梯度(GCG)技术的离散优化方法,用于硬提示模糊化。
实验效果
- 在不同的数据集上评估了模糊化提示的有效性,包括TruthfulQA、TriviaQA、CNN dailymail和samsum。
- 使用了多种文本相似度指标来评估模糊化提示与原始提示之间的相似度。
- 进行了黑盒和白盒攻击,以评估攻击者从模糊化提示中提取原始提示信息的能力。
- 实验结果表明,模糊化提示在保持与原始提示相同功能的同时,能够有效抵抗去模糊化攻击。
推荐阅读指数
★★★★☆
推荐理由
这篇论文针对大型语言模型中系统提示的安全性问题提出了创新的解决方案。通过引入提示模糊化技术,有效地保护了模型的知识产权,防止了提示注入攻击。论文中的实验设计严谨,涵盖了多种评估指标和攻击场景,为理解和防御LLMs中的安全威胁提供了有价值的见解。
4. Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization
J Wang, Y Zhou, X Zhang, M Bao, P Yan - arXiv preprint arXiv:2409.11212, 2024
通过不确定性增强的偏好优化实现自我进化的大型语言模型
摘要
大型语言模型(LLMs)在以太坊主网上的广泛部署近年来吸引了越来越多的财务驱动攻击者。本文提出了一种新的不确定性增强偏好优化(UPO)框架,以提高LLMs在Solidity漏洞检测中的性能。该框架通过执行成对不确定性估计和可靠反馈抽样来减少当前策略和奖励模型产生的噪声偏好数据。研究者引入了一个估计器模型,该模型结合了贝叶斯神经网络(BNN)中的蒙特卡洛(MC)dropout技术,以对LLM策略产生的偏好数据进行不确定性估计。与现有方法直接基于奖励分数过滤生成的响应不同,估计器专注于成对的模型不确定性,并有效绕过了奖励模型的确认偏差问题。此外,研究者还提出了一种不确定性增强的自我进化算法,以提高偏好优化的鲁棒性,并鼓励LLM生成具有高奖励和高确定性的响应。在多个基准测试上的广泛实验表明,该框架显著减轻了噪声问题,并提高了迭代偏好优化的性能。
创新点
- 提出了不确定性增强偏好优化(UPO)框架,用于提高LLMs在偏好优化中的性能。
- 引入了估计器模型,使用贝叶斯神经网络中的蒙特卡洛dropout技术来估计偏好数据的不确定性。
- 提出了不确定性增强的自我进化算法,以提高LLMs在迭代更新参数时的鲁棒性。
算法模型
- 不确定性增强偏好优化(UPO)框架:该框架通过减少由当前策略和奖励模型产生的噪声偏好数据来提高LLMs的自我进化能力。
- 估计器模型:结合了贝叶斯神经网络中的蒙特卡洛dropout技术,用于估计LLM策略产生的偏好数据的不确定性。
- 不确定性增强的自我进化算法:通过不确定性估计来选择可靠的偏好数据,并将其用于LLM策略的迭代更新。
实验效果
- 在AlpacaEval 2.0和MT-Bench等通用NLP基准测试中,UPO框架显著提高了LLMs的性能。
- 在GSM8K和MATH等数学推理任务中,UPO框架同样展现出了优越的性能提升。
- 实验结果表明,UPO框架在减少噪声和提高迭代偏好优化的性能方面具有显著效果。
推荐阅读指数
★★★★☆
推荐理由
这篇论文针对大型语言模型在偏好优化中的噪声问题提出了一种新颖的解决方案。UPO框架通过不确定性估计和自我进化算法,有效地提高了LLMs在多种任务上的性能。论文的实验设计严谨,涵盖了广泛的任务和数据集,验证了方法的有效性。
5. VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching
A Zibaeirad, M Vieira - arXiv preprint arXiv:2409.10756, 2024
VulnLLMEval:一个评估大型语言模型在软件漏洞检测和修补中的性能的框架
摘要
大型语言模型(LLMs)在代码翻译等任务中展现出了潜力,激发了人们对其在自动化软件漏洞检测(SVD)和修补(SVP)中应用的兴趣。为了推进这一领域的研究,建立一个基准测试对于评估LLMs在这些任务中的优势和局限性至关重要。尽管LLMs具有能力,但它们是否能够准确分析复杂漏洞并生成适当的补丁仍然存在疑问。本文介绍了VulnLLMEval,这是一个旨在评估LLMs在识别和修补C代码漏洞中的性能的框架。我们的研究包括从Linux内核中提取的307个真实世界漏洞,创建了一个包含漏洞和已修补代码的精选数据集。这个基于真实世界代码的数据集为评估LLM在SVD和SVP任务中的性能提供了多样化和代表性的测试平台,为严格评估提供了坚实的基础。我们的结果揭示了LLMs在区分漏洞和已修补代码方面常常遇到困难。此外,在SVP任务中,这些模型倾向于过度简化代码,产生的解决方案可能需要进一步改进才能直接使用。
创新点
- 提出了VulnLLMEval框架,用于评估LLMs在软件漏洞检测和修补任务中的性能。
- 创建了一个包含307个真实世界漏洞的精选数据集,涵盖30种不同的CWEs,这些漏洞来自Linux内核。
- 开发了一种自动化的数据收集方法,使用提交哈希来收集和标记漏洞和已修补的代码,无需安全专家手动提供真实补丁,简化了评估过程。
- 设计了8种不同的提示模板,用于引导LLMs完成漏洞检测和修补任务,包括零样本和少样本学习场景。
算法模型
- VulnLLMEval框架:一个用于评估预训练LLMs在SVD和SVP任务中的性能的框架。
- 数据集:包含307个真实世界的C语言代码漏洞,涵盖Linux内核中的多种CWEs。
- 自动化数据收集方法:利用公开的CVE记录和元数据(如提交哈希、CVE和CWE)系统地提取漏洞代码块及其相应的修补版本。
- 评估指标:包括Mean Reciprocal Rank (MRR)、Top-5准确率、Rouge分数、CodeBLEU分数和循环复杂度等。
算法伪码:
实验效果
- 在多个真实世界的漏洞检测和修补任务中,LLMs表现出在区分漏洞和已修补代码方面的挑战。
- LLMs在生成补丁时倾向于简化代码,可能需要进一步的改进才能直接使用。
- 实验结果表明,LLMs在SVD任务中的表现与在SVP任务中的表现存在差异,需要进一步的研究和改进。
推荐阅读指数
★★★★☆
推荐理由
这篇论文提出了一个创新的框架VulnLLMEval,用于评估大型语言模型在软件漏洞检测和修补任务中的性能。通过创建一个基于真实世界漏洞的数据集,并开发自动化的数据收集方法,该研究为LLMs在软件安全领域的应用提供了有价值的见解和评估工具。对于从事软件安全、漏洞检测和语言模型研究的学者和工程师来说,这是一篇值得阅读的论文。