计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(下)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(下)

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(上)+https://developer.aliyun.com/article/1628868

3. Prompt Obfuscation for Large Language Models

D Pape, T Eisenhofer, L Schönherr - arXiv preprint arXiv:2409.11026, 2024

大型语言模型的提示模糊化

摘要

系统提示,包括详细说明底层大型语言模型(LLM)执行的任务的指令,可以轻松地将基础模型转变为工具和服务,而开销极小。由于它们对实用性的重要影响,通常被视为知识产权,类似于软件产品的代码。然而,通过使用提示注入,可以轻易提取系统提示。迄今为止,还没有有效的对策来防止系统提示的窃取,所有保护努力都可能被精心制作的提示注入所绕过,从而避开所有保护机制。在这项工作中,我们提出了一种传统系统提示的替代方案。我们引入了提示模糊化,以防止提取系统提示,同时保持系统的实用性,几乎没有开销。核心思想是找到原始系统提示的表示,它具有相同的功能,而模糊化的系统提示不包含任何允许对原始系统提示得出结论的信息。我们实现了一种基于优化的方法来找到模糊化的提示表示,同时保持功能。为了评估我们的方法,我们调查了八种不同的指标,比较使用原始和模糊化系统提示的系统的性能,我们表明模糊化版本始终与原始版本相当。我们进一步进行了三种不同的去模糊化攻击,涵盖了不同攻击者知识,包括黑盒和白盒攻击,并表明即使在访问模糊化提示和LLM本身的情况下,我们也无法始终如一地提取有意义的信息,尽管模型有时可以从其自身输出中识别系统提示的含义。总体而言,我们展示了提示模糊化可以是保护知识产权的有效方法,同时保持与原始系统提示相同的实用性。

创新点

  1. 提出了一种新的系统提示模糊化方法,以防止系统提示被提取,同时保持系统本身的实用性。
  2. 开发了一种基于优化的方法来找到模糊化的提示表示,该方法在不牺牲功能的情况下保护了提示。
  3. 对比了使用原始和模糊化系统提示的系统性能,并展示了模糊化版本与原始版本相当。
  4. 进行了包括黑盒和白盒在内的不同去模糊化攻击,证明了模糊化提示的有效性。

算法模型

  • 提出了在软提示空间中进行模糊化的优化方法,通过梯度下降算法直接优化软提示。
  • 使用了Adam优化器,并设置了学习率、迭代次数和令牌数量等参数。
  • 实现了一种基于贪心坐标梯度(GCG)技术的离散优化方法,用于硬提示模糊化。

实验效果

  • 在不同的数据集上评估了模糊化提示的有效性,包括TruthfulQA、TriviaQA、CNN dailymail和samsum。
  • 使用了多种文本相似度指标来评估模糊化提示与原始提示之间的相似度。
  • 进行了黑盒和白盒攻击,以评估攻击者从模糊化提示中提取原始提示信息的能力。
  • 实验结果表明,模糊化提示在保持与原始提示相同功能的同时,能够有效抵抗去模糊化攻击。

推荐阅读指数

★★★★☆

推荐理由

这篇论文针对大型语言模型中系统提示的安全性问题提出了创新的解决方案。通过引入提示模糊化技术,有效地保护了模型的知识产权,防止了提示注入攻击。论文中的实验设计严谨,涵盖了多种评估指标和攻击场景,为理解和防御LLMs中的安全威胁提供了有价值的见解。

4. Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization

J Wang, Y Zhou, X Zhang, M Bao, P Yan - arXiv preprint arXiv:2409.11212, 2024

通过不确定性增强的偏好优化实现自我进化的大型语言模型

摘要

大型语言模型(LLMs)在以太坊主网上的广泛部署近年来吸引了越来越多的财务驱动攻击者。本文提出了一种新的不确定性增强偏好优化(UPO)框架,以提高LLMs在Solidity漏洞检测中的性能。该框架通过执行成对不确定性估计和可靠反馈抽样来减少当前策略和奖励模型产生的噪声偏好数据。研究者引入了一个估计器模型,该模型结合了贝叶斯神经网络(BNN)中的蒙特卡洛(MC)dropout技术,以对LLM策略产生的偏好数据进行不确定性估计。与现有方法直接基于奖励分数过滤生成的响应不同,估计器专注于成对的模型不确定性,并有效绕过了奖励模型的确认偏差问题。此外,研究者还提出了一种不确定性增强的自我进化算法,以提高偏好优化的鲁棒性,并鼓励LLM生成具有高奖励和高确定性的响应。在多个基准测试上的广泛实验表明,该框架显著减轻了噪声问题,并提高了迭代偏好优化的性能。

创新点

  1. 提出了不确定性增强偏好优化(UPO)框架,用于提高LLMs在偏好优化中的性能。
  2. 引入了估计器模型,使用贝叶斯神经网络中的蒙特卡洛dropout技术来估计偏好数据的不确定性。
  3. 提出了不确定性增强的自我进化算法,以提高LLMs在迭代更新参数时的鲁棒性。

算法模型

  • 不确定性增强偏好优化(UPO)框架:该框架通过减少由当前策略和奖励模型产生的噪声偏好数据来提高LLMs的自我进化能力。
  • 估计器模型:结合了贝叶斯神经网络中的蒙特卡洛dropout技术,用于估计LLM策略产生的偏好数据的不确定性。
  • 不确定性增强的自我进化算法:通过不确定性估计来选择可靠的偏好数据,并将其用于LLM策略的迭代更新。

实验效果

  • 在AlpacaEval 2.0和MT-Bench等通用NLP基准测试中,UPO框架显著提高了LLMs的性能。
  • 在GSM8K和MATH等数学推理任务中,UPO框架同样展现出了优越的性能提升。
  • 实验结果表明,UPO框架在减少噪声和提高迭代偏好优化的性能方面具有显著效果。

推荐阅读指数

★★★★☆

推荐理由

这篇论文针对大型语言模型在偏好优化中的噪声问题提出了一种新颖的解决方案。UPO框架通过不确定性估计和自我进化算法,有效地提高了LLMs在多种任务上的性能。论文的实验设计严谨,涵盖了广泛的任务和数据集,验证了方法的有效性。

5. VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching

A Zibaeirad, M Vieira - arXiv preprint arXiv:2409.10756, 2024

VulnLLMEval:一个评估大型语言模型在软件漏洞检测和修补中的性能的框架

摘要

大型语言模型(LLMs)在代码翻译等任务中展现出了潜力,激发了人们对其在自动化软件漏洞检测(SVD)和修补(SVP)中应用的兴趣。为了推进这一领域的研究,建立一个基准测试对于评估LLMs在这些任务中的优势和局限性至关重要。尽管LLMs具有能力,但它们是否能够准确分析复杂漏洞并生成适当的补丁仍然存在疑问。本文介绍了VulnLLMEval,这是一个旨在评估LLMs在识别和修补C代码漏洞中的性能的框架。我们的研究包括从Linux内核中提取的307个真实世界漏洞,创建了一个包含漏洞和已修补代码的精选数据集。这个基于真实世界代码的数据集为评估LLM在SVD和SVP任务中的性能提供了多样化和代表性的测试平台,为严格评估提供了坚实的基础。我们的结果揭示了LLMs在区分漏洞和已修补代码方面常常遇到困难。此外,在SVP任务中,这些模型倾向于过度简化代码,产生的解决方案可能需要进一步改进才能直接使用。

创新点

  1. 提出了VulnLLMEval框架,用于评估LLMs在软件漏洞检测和修补任务中的性能。
  2. 创建了一个包含307个真实世界漏洞的精选数据集,涵盖30种不同的CWEs,这些漏洞来自Linux内核。
  3. 开发了一种自动化的数据收集方法,使用提交哈希来收集和标记漏洞和已修补的代码,无需安全专家手动提供真实补丁,简化了评估过程。
  4. 设计了8种不同的提示模板,用于引导LLMs完成漏洞检测和修补任务,包括零样本和少样本学习场景。

算法模型

  • VulnLLMEval框架:一个用于评估预训练LLMs在SVD和SVP任务中的性能的框架。
  • 数据集:包含307个真实世界的C语言代码漏洞,涵盖Linux内核中的多种CWEs。
  • 自动化数据收集方法:利用公开的CVE记录和元数据(如提交哈希、CVE和CWE)系统地提取漏洞代码块及其相应的修补版本。
  • 评估指标:包括Mean Reciprocal Rank (MRR)、Top-5准确率、Rouge分数、CodeBLEU分数和循环复杂度等。

算法伪码:

实验效果

  • 在多个真实世界的漏洞检测和修补任务中,LLMs表现出在区分漏洞和已修补代码方面的挑战。
  • LLMs在生成补丁时倾向于简化代码,可能需要进一步的改进才能直接使用。
  • 实验结果表明,LLMs在SVD任务中的表现与在SVP任务中的表现存在差异,需要进一步的研究和改进。

推荐阅读指数

★★★★☆

推荐理由

这篇论文提出了一个创新的框架VulnLLMEval,用于评估大型语言模型在软件漏洞检测和修补任务中的性能。通过创建一个基于真实世界漏洞的数据集,并开发自动化的数据收集方法,该研究为LLMs在软件安全领域的应用提供了有价值的见解和评估工具。对于从事软件安全、漏洞检测和语言模型研究的学者和工程师来说,这是一篇值得阅读的论文。

目录
相关文章
3月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
411 55
2月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
185 5
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
3月前
|
机器学习/深度学习 自然语言处理 算法
调研180多篇论文,这篇综述终于把大模型做算法设计理清了
《A Systematic Survey on Large Language Models for Algorithm Design》综述了过去三年大型语言模型(LLMs)在算法设计中的应用。LLMs通过自然语言处理技术,助力生成、优化和验证算法,在优化、机器学习、数学推理等领域展现出广泛应用前景。尽管存在资源需求高、结果不确定等挑战,LLMs仍为算法设计带来新机遇。论文地址:https://arxiv.org/abs/2410.14716。
113 14
4月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解人工智能中的深度学习技术及其最新进展
深入理解人工智能中的深度学习技术及其最新进展
502 33
3月前
|
机器学习/深度学习 人工智能 算法
人工智能平台年度技术趋势
阿里云智能集团研究员林伟在年度技术趋势演讲中,分享了AI平台的五大方面进展。首先,他介绍了大规模语言模型(LLM)训练中的挑战与解决方案,包括高效故障诊断和快速恢复机制。其次,探讨了AI应用和服务的普及化,强调通过优化调度降低成本,使AI真正惠及大众。第三,提出了GreenAI理念,旨在提高AI工程效率,减少能源消耗。第四,讨论了企业级能力,确保数据和模型的安全性,并推出硬件到软件的全面安全方案。最后,介绍了整合多项核心技术的Pai Prime框架,展示了阿里云在自主可控AI核心框架下的整体布局和发展方向。
128 2
4月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解人工智能中的深度学习技术及其最新进展
深入理解人工智能中的深度学习技术及其最新进展
174 14
4月前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
225 3
4月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
183 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
4月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
198 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
4月前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
205 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型