【网安AIGC专题10.11】①代码大模型的应用:检测、修复②其安全性研究:模型窃取攻击(API和网页接口) 数据窃取攻击 对抗攻击(用途:漏洞隐藏) 后门攻击(加触发器+标签翻转)(上)

简介: 【网安AIGC专题10.11】①代码大模型的应用:检测、修复②其安全性研究:模型窃取攻击(API和网页接口) 数据窃取攻击 对抗攻击(用途:漏洞隐藏) 后门攻击(加触发器+标签翻转)

写在最前面

本文为邹德清教授的《网络安全专题》课堂笔记系列的文章,本次专题主题为大模型。

第一次课上,文明老师的博士生杜小虎学长进行了代码大模型的应用及其安全性研究的相关介绍

将我之前不太明白的一些概念解释得深入浅出,醐醍灌顶

另有部分个人不成熟的理解,欢迎交流

后面如果有进一步理解,将对文章进行更新

一些想法

大型模型输出格式不受控制的解决方法

大型模型输出格式不受控制的情况,一些可能的解决方法:

  1. 输出处理:
  • 后处理和过滤: 可以通过编写自定义的后处理代码来筛选和处理大型模型的输出。这可能包括解析输出以识别关键信息、删除不必要的内容、转换输出格式,以及对输出进行筛选和排序。
  • 数据存储: 将输出存储到数据库中(可以理解为,输出转换为结构化数据,而不是自由的文本),以便按需检索和查询。
  • 数据过滤和清理: 对于文本数据,可以使用自然语言处理技术来过滤和清理输出,以去除噪音和非关键信息。
  • 增量处理: 如果模型生成的输出是不断增长的,可以采取增量处理的方法,仅处理新增数据,而不必重新处理整个输出。
  • 限定词汇表: 缩小模型可以选择的词汇表,只允许特定的词汇或短语。这可以限制生成的内容,使其更加可控。
  1. 模型处理:
  • 提供明确的指令或提示: 向模型提供明确和具体的指令或提示,以引导它生成所需的内容。指令可以包括问题、主题、关键词或上下文。通过明确的指令,您可以控制模型生成的内容,使其符合您的预期。
  • 限制生成长度: 设置生成文本的最大长度,以确保输出不会变得太长或无效。这可以通过截断或修剪生成的文本来实现。
  • 温度参数调整: 调整生成模型的温度参数。较低的温度值会使生成更加确定性,较高的温度值会增加随机性。通过调整温度参数,您可以控制生成的创造性和多样性。
  • 抽样策略: 使用不同的抽样策略来生成文本。例如,贪婪抽样会选择最有可能的词语,而随机抽样会引入更多的随机性。选择适当的抽样策略可以影响生成文本的可控性。
  • 模板或脚本: 创建文本生成的模板或脚本,然后将模型的输出填充到模板中。这种方式可以确保生成的文本符合特定的结构或格式。
  • 多轮对话: 进行多轮对话,以逐步引导模型生成所需的内容。在每一轮中,提供反馈并指导模型生成下一步内容。
  • 领域特定模型微调: 如果可能的话,可以微调预训练模型,以使其在特定领域或任务上更具可控性。

大模型介绍

国内外生成式大模型研究现状总结

GPT 系列模型的发展历程总结

(很有意思)GPT 模型家族的发展

GPT 模型家族的发展从 GPT-3 开始分成了两个技术路径并行发展 :

1、一个路径是以 Codex 为代表的代码预训练技术

2、另一个路径是以 InstructGPT 为代表的文本指令(Instruction)预训练技术。

但这两个技术路径不是始终并行发展的,而是到了一定阶段后(具体时间不详)进入了融合式预训练的过程,并通过指令学习(Instruction Tuning)有监督精调(SupervisedFine-tuning)以及基于人类反馈的强化学习(Reinforcement Learning with HumanFeedback,RLHF) 等技术实现了以自然语言对话为接口的 ChatGPT 模型。

GPT 演化图,图源How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources

Chatgpt

优点

零样本泛化能力、参数量大、逐步推理

缺点

输出格式不受控制(感觉是目前所有生成式模型的通用问题?)

训练一次时空复杂度高,导致:时效性差、成本高昂

GPT4

主要引入多模态,并达到SOTA性能

其他模型

由于个人目前没有涉猎相关研究,待后续补充想法

斯坦福Alpaca:self-instruct、instruction数据上监督微调

清华ChatGLM:双语能力

补充:self-instruct合成数据

self-instruct是一种将预训练语言模型与指令对齐的方法。 可以通过模型自己来生成数据,而不需要大量的人工标注。

参考:https://blog.csdn.net/dzysunshine/article/details/130390587

Step1:通过模型生成新的指令;

根据人工设计的175个任务,每个任务都有对应的(指令,输入,输出)或(指令,输出);使用模型生成新的指令;

Step2:对模型生成的指令进行判断(指令是否是一个分类任务);

Step3:根据Step2的判断结果,给出不同的输出

如果是分类任务,就通过模型输出 Class_label 和 Input(Output-first);

如果不是分类任务,就通过模型输出 Input 和 Output(Input-first)。

Step4:过滤及后处理

对上述模型生成的数据进行过滤和后处理,将经过过滤和后处理的数据添加到种子池中。

对于以上4个步骤进行不断循环,直到种子池有足够多的数据(通常会设定一个具体的参数,比如:52000),生成过程停止。

Code Llama

所有 Code Llama 模型均使用 Llama 2 模型权重进行初始化,并使用来自代码密集数据集的 500B token 进行训练.

Code Llama Python 模型从 Llama 2 模型初始化,并使用 Code Llama 数据集的 500B token 进行训练,并使用 Python 数据集进一步专门针对 100B token训练。

Code Llama - Instruct 模型基于 Code Llama 并使用额外的5B token 进行了微调,可以更好地遵循人类指令。

Unnatural model.。为了进行比较,它们还对 Code Llama - Python 34B 对 15,000 个非自然指令进行了微调。Meta没有发布这个模型,但观察到 HumanEval 和 MBPP 的明显改进,这表明可以通过一小组高质量编码数据来实现改进。

代码大模型的应用

(第一次理解清楚hh,这图好清晰,学长的讲解也好好)“预训练-微调”范式和“预训练-prompt”范式

神经网络需要大量数据的训练才能使得模型的效果更好,但训练是非常漫长的过程。我们可以把整个训练过程裁成两个部分:

开始的占比最大的部分称为预训练,后面的占比较小的部分称为微调

随着的着技术的发展,对于很多不同的任务,可以共享同一个预训练过程和不同的微调过程。这就是“预训练-微调”范式,

大模型还给出了另一个范式,“预训练-prompt”

课堂讨论:预训练一般是无监督的,一般为下一个token预测

(马兴宇学长补充,预训练一般是无监督data,但可以添加部分监督data)

微调可以理解为对齐任务,以符合人类期望

补充:prompt为提示工程

提示工程——漏洞检测(召回率上升,精确率几乎没变)

基本提示

(单词积累:漏洞vulnerability、脆弱(或者翻译为存在漏洞更合适?)vulnerable)

写该漏洞是否包含在Yes/no格式的代码中: write whether the vulnerability is contained in the code in the Yes/no format:

下面的功能包含一个漏洞写在Yes/no格式和为什么? does the following function contain a vulnerability write in Yes/no format and why?

判断该函数是否在Yes/no格式下存在漏洞: tell whether this function is vulnerable in the Yes/no format:

写这个函数是否脆弱: write whether this function is vulnerable:

增强提示1

你是一个提示优化者。 You are a prompt optimizer.

请优化以下提示: Please optimize the following prompt:

“你是智能合约的漏洞检测器。 “You are a vulnerability detector for a smart contract.

请检查此合同中的以下九种漏洞:[vULs]。 Please checkfor the following nine types of

vulnerabilities in this contract: [vULs].

让我们一步一步来思考。 Let’s think step by step.

智能合约的源代码如下:[输入]。 The source code for the smart contract is asfollows:

[Input].”

没有问题。 No problem.

我的优化提示如下: My optimized prompt is as follows:

您是一个智能合约漏洞检测器,请分析提供的以下9个漏洞的源代码:[vULS]。 “You are a smart contract vulnerability detector, please analyze theprovided source code for the following nine vulnerabilities: [vULS].

一步一步仔细思考。 Think step by step carefully.

合同源代码:[输入]。” The contract source code: [Input]."

思维链提示(角色扮演、API和DF只加一个效果更好)

请描述给定代码的意图。 Please describe the intent of the given code.[CODE].

我想让你扮演一个漏洞检测系统。 I want you to act as a vulnerability detection system.

上面的代码有bug吗? Is the above code buggy?

只回答是或否。 Only answer Yes or No.

下面是你可以使用的API调用序列/数据流信息:[API描述]/[DF描述]。 Here is its API call sequence/data flow information that you may use: [API description]/[DF description].

目录
相关文章
|
4天前
|
设计模式 Java API
Java 可扩展 API 设计:打造灵活的应用架构
【4月更文挑战第27天】设计可扩展的 API 是构建灵活、易于维护的应用程序架构的关键。Java 提供了丰富的工具和技术来实现这一目标,使开发者能够构建具有高度可扩展性的应用程序。
21 4
|
4天前
|
存储 缓存 安全
API在Visual Basic中的应用:连接外部服务与扩展功能
【4月更文挑战第27天】本文探讨了在Visual Basic中使用API连接外部服务和扩展功能的方法,涵盖了API的基本概念、种类及如何使用本地和Web API。通过DllImport调用本地API,利用HttpClient和WebClient与Web API交互,同时强调了第三方API的使用和SOA架构中的API角色。安全性、性能优化和错误处理是实践中的关键点。案例研究和最佳实践有助于开发者更有效地利用API,提升Visual Basic应用程序的功能和灵活性。随着API技术的发展,Visual Basic将持续支持开发者创造更强大的应用。
|
1天前
|
机器学习/深度学习 算法 安全
深度学习在图像识别中的应用与挑战构建高效可扩展的RESTful API:后端开发的实战指南
【4月更文挑战第30天】 随着计算机视觉技术的飞速发展,深度学习在图像识别领域取得了显著的成果。本文将探讨深度学习技术在图像识别中的应用及其所面临的挑战。首先,我们将介绍深度学习的基本原理和关键技术,然后分析其在图像识别中的优势和应用案例。最后,我们将讨论当前深度学习在图像识别领域所面临的主要挑战和未来的发展趋势。
|
3天前
|
运维 Serverless API
Serverless 应用引擎产品使用之在阿里函数计算中开启函数计算 API 接口如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
102 6
|
3天前
|
运维 Serverless 5G
Serverless 应用引擎产品使用之调用阿里云函数计算API时获取有效的鉴权令牌如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
8 1
|
5天前
|
JSON 自然语言处理 Dart
私有化部署 Llama3 大模型, 支持 API 访问
通过 ollama 本地运行 Llama3 大模型其实对我们开发来说很有意义,你可以私有化放服务上了。 然后通过 api 访问,来处理我们的业务,比如翻译多语言、总结文章、提取关键字等等。 你也可以安装 enchanted 客户端去直接访问这个服务 api 使用。
128 0
私有化部署 Llama3 大模型, 支持 API 访问
|
7天前
|
机器学习/深度学习 数据采集 人工智能
人类生产力的解放?揭晓从大模型到AIGC的新魔法
本文从介绍大模型的概念延伸到大模型的革命意义。作者讲述了通过大模型的加持,让AIGC有了更多的可能性。
126702 1
|
8天前
|
缓存 人工智能 API
【Python+微信】【企业微信开发入坑指北】2. 如何利用企业微信API主动给用户发应用消息
【Python+微信】【企业微信开发入坑指北】2. 如何利用企业微信API主动给用户发应用消息
9 0
|
8天前
|
人工智能 API 开发者
【AI大模型应用开发】0.2 智谱AI API接入详细步骤和简单应用
【AI大模型应用开发】0.2 智谱AI API接入详细步骤和简单应用
44 0
|
8天前
|
人工智能 API Python
【AI大模型应用开发】1.1 Prompt Engineering(提示词工程)- 用OpenAI API实战,优化方法论总结
【AI大模型应用开发】1.1 Prompt Engineering(提示词工程)- 用OpenAI API实战,优化方法论总结
12 0