【网安AIGC专题10.11】①代码大模型的应用:检测、修复②其安全性研究:模型窃取攻击(API和网页接口) 数据窃取攻击 对抗攻击(用途:漏洞隐藏) 后门攻击(加触发器+标签翻转)(上)

简介: 【网安AIGC专题10.11】①代码大模型的应用:检测、修复②其安全性研究:模型窃取攻击(API和网页接口) 数据窃取攻击 对抗攻击(用途:漏洞隐藏) 后门攻击(加触发器+标签翻转)

写在最前面

本文为邹德清教授的《网络安全专题》课堂笔记系列的文章,本次专题主题为大模型。

第一次课上,文明老师的博士生杜小虎学长进行了代码大模型的应用及其安全性研究的相关介绍

将我之前不太明白的一些概念解释得深入浅出,醐醍灌顶

另有部分个人不成熟的理解,欢迎交流

后面如果有进一步理解,将对文章进行更新

一些想法

大型模型输出格式不受控制的解决方法

大型模型输出格式不受控制的情况,一些可能的解决方法:

  1. 输出处理:
  • 后处理和过滤: 可以通过编写自定义的后处理代码来筛选和处理大型模型的输出。这可能包括解析输出以识别关键信息、删除不必要的内容、转换输出格式,以及对输出进行筛选和排序。
  • 数据存储: 将输出存储到数据库中(可以理解为,输出转换为结构化数据,而不是自由的文本),以便按需检索和查询。
  • 数据过滤和清理: 对于文本数据,可以使用自然语言处理技术来过滤和清理输出,以去除噪音和非关键信息。
  • 增量处理: 如果模型生成的输出是不断增长的,可以采取增量处理的方法,仅处理新增数据,而不必重新处理整个输出。
  • 限定词汇表: 缩小模型可以选择的词汇表,只允许特定的词汇或短语。这可以限制生成的内容,使其更加可控。
  1. 模型处理:
  • 提供明确的指令或提示: 向模型提供明确和具体的指令或提示,以引导它生成所需的内容。指令可以包括问题、主题、关键词或上下文。通过明确的指令,您可以控制模型生成的内容,使其符合您的预期。
  • 限制生成长度: 设置生成文本的最大长度,以确保输出不会变得太长或无效。这可以通过截断或修剪生成的文本来实现。
  • 温度参数调整: 调整生成模型的温度参数。较低的温度值会使生成更加确定性,较高的温度值会增加随机性。通过调整温度参数,您可以控制生成的创造性和多样性。
  • 抽样策略: 使用不同的抽样策略来生成文本。例如,贪婪抽样会选择最有可能的词语,而随机抽样会引入更多的随机性。选择适当的抽样策略可以影响生成文本的可控性。
  • 模板或脚本: 创建文本生成的模板或脚本,然后将模型的输出填充到模板中。这种方式可以确保生成的文本符合特定的结构或格式。
  • 多轮对话: 进行多轮对话,以逐步引导模型生成所需的内容。在每一轮中,提供反馈并指导模型生成下一步内容。
  • 领域特定模型微调: 如果可能的话,可以微调预训练模型,以使其在特定领域或任务上更具可控性。

大模型介绍

国内外生成式大模型研究现状总结

GPT 系列模型的发展历程总结

(很有意思)GPT 模型家族的发展

GPT 模型家族的发展从 GPT-3 开始分成了两个技术路径并行发展 :

1、一个路径是以 Codex 为代表的代码预训练技术

2、另一个路径是以 InstructGPT 为代表的文本指令(Instruction)预训练技术。

但这两个技术路径不是始终并行发展的,而是到了一定阶段后(具体时间不详)进入了融合式预训练的过程,并通过指令学习(Instruction Tuning)有监督精调(SupervisedFine-tuning)以及基于人类反馈的强化学习(Reinforcement Learning with HumanFeedback,RLHF) 等技术实现了以自然语言对话为接口的 ChatGPT 模型。

GPT 演化图,图源How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources

Chatgpt

优点

零样本泛化能力、参数量大、逐步推理

缺点

输出格式不受控制(感觉是目前所有生成式模型的通用问题?)

训练一次时空复杂度高,导致:时效性差、成本高昂

GPT4

主要引入多模态,并达到SOTA性能

其他模型

由于个人目前没有涉猎相关研究,待后续补充想法

斯坦福Alpaca:self-instruct、instruction数据上监督微调

清华ChatGLM:双语能力

补充:self-instruct合成数据

self-instruct是一种将预训练语言模型与指令对齐的方法。 可以通过模型自己来生成数据,而不需要大量的人工标注。

参考:https://blog.csdn.net/dzysunshine/article/details/130390587

Step1:通过模型生成新的指令;

根据人工设计的175个任务,每个任务都有对应的(指令,输入,输出)或(指令,输出);使用模型生成新的指令;

Step2:对模型生成的指令进行判断(指令是否是一个分类任务);

Step3:根据Step2的判断结果,给出不同的输出

如果是分类任务,就通过模型输出 Class_label 和 Input(Output-first);

如果不是分类任务,就通过模型输出 Input 和 Output(Input-first)。

Step4:过滤及后处理

对上述模型生成的数据进行过滤和后处理,将经过过滤和后处理的数据添加到种子池中。

对于以上4个步骤进行不断循环,直到种子池有足够多的数据(通常会设定一个具体的参数,比如:52000),生成过程停止。

Code Llama

所有 Code Llama 模型均使用 Llama 2 模型权重进行初始化,并使用来自代码密集数据集的 500B token 进行训练.

Code Llama Python 模型从 Llama 2 模型初始化,并使用 Code Llama 数据集的 500B token 进行训练,并使用 Python 数据集进一步专门针对 100B token训练。

Code Llama - Instruct 模型基于 Code Llama 并使用额外的5B token 进行了微调,可以更好地遵循人类指令。

Unnatural model.。为了进行比较,它们还对 Code Llama - Python 34B 对 15,000 个非自然指令进行了微调。Meta没有发布这个模型,但观察到 HumanEval 和 MBPP 的明显改进,这表明可以通过一小组高质量编码数据来实现改进。

代码大模型的应用

(第一次理解清楚hh,这图好清晰,学长的讲解也好好)“预训练-微调”范式和“预训练-prompt”范式

神经网络需要大量数据的训练才能使得模型的效果更好,但训练是非常漫长的过程。我们可以把整个训练过程裁成两个部分:

开始的占比最大的部分称为预训练,后面的占比较小的部分称为微调

随着的着技术的发展,对于很多不同的任务,可以共享同一个预训练过程和不同的微调过程。这就是“预训练-微调”范式,

大模型还给出了另一个范式,“预训练-prompt”

课堂讨论:预训练一般是无监督的,一般为下一个token预测

(马兴宇学长补充,预训练一般是无监督data,但可以添加部分监督data)

微调可以理解为对齐任务,以符合人类期望

补充:prompt为提示工程

提示工程——漏洞检测(召回率上升,精确率几乎没变)

基本提示

(单词积累:漏洞vulnerability、脆弱(或者翻译为存在漏洞更合适?)vulnerable)

写该漏洞是否包含在Yes/no格式的代码中: write whether the vulnerability is contained in the code in the Yes/no format:

下面的功能包含一个漏洞写在Yes/no格式和为什么? does the following function contain a vulnerability write in Yes/no format and why?

判断该函数是否在Yes/no格式下存在漏洞: tell whether this function is vulnerable in the Yes/no format:

写这个函数是否脆弱: write whether this function is vulnerable:

增强提示1

你是一个提示优化者。 You are a prompt optimizer.

请优化以下提示: Please optimize the following prompt:

“你是智能合约的漏洞检测器。 “You are a vulnerability detector for a smart contract.

请检查此合同中的以下九种漏洞:[vULs]。 Please checkfor the following nine types of

vulnerabilities in this contract: [vULs].

让我们一步一步来思考。 Let’s think step by step.

智能合约的源代码如下:[输入]。 The source code for the smart contract is asfollows:

[Input].”

没有问题。 No problem.

我的优化提示如下: My optimized prompt is as follows:

您是一个智能合约漏洞检测器,请分析提供的以下9个漏洞的源代码:[vULS]。 “You are a smart contract vulnerability detector, please analyze theprovided source code for the following nine vulnerabilities: [vULS].

一步一步仔细思考。 Think step by step carefully.

合同源代码:[输入]。” The contract source code: [Input]."

思维链提示(角色扮演、API和DF只加一个效果更好)

请描述给定代码的意图。 Please describe the intent of the given code.[CODE].

我想让你扮演一个漏洞检测系统。 I want you to act as a vulnerability detection system.

上面的代码有bug吗? Is the above code buggy?

只回答是或否。 Only answer Yes or No.

下面是你可以使用的API调用序列/数据流信息:[API描述]/[DF描述]。 Here is its API call sequence/data flow information that you may use: [API description]/[DF description].

目录
相关文章
|
4天前
|
人工智能 自然语言处理 安全
新浪微博AIGC业务应用探索-AIGC应用平台助力业务提效实践
本次分享围绕AIGC技术在新浪微博的应用展开,涵盖四个部分。首先分析AIGC为微博带来的机遇与挑战,特别是在内容安全和模型幻觉等问题上的应对策略;其次介绍通过工程架构快速实现AIGC技术落地的方法,包括统一部署模型和服务编排;接着展示AIGC在微博的具体应用场景,如评论互动、视频总结和智能客服等;最后展望未来,探讨大模型的发展趋势及其在多模态和特定业务场景中的应用前景。
|
1天前
|
存储 缓存 API
API接口详解及其在电子商务中的应用研究
通过这些内容的详细介绍和实际案例分析,希望能帮助您深入理解API接口及其在电子商务中的应用,提高系统的互操作性和用户体验。
33 14
|
1天前
|
人工智能 运维 监控
发现API安全风险,F5随时随地保障应用和API安全
发现API安全风险,F5随时随地保障应用和API安全
17 7
|
5天前
|
人工智能 监控 安全
自学记录鸿蒙 API 13:骨骼点检测应用Core Vision Skeleton Detection
骨骼点检测技术能够从图片中识别出人体的关键骨骼点位置,如头部、肩部、手肘等,广泛应用于运动健身指导、游戏交互、医疗辅助、安全监控等领域。我决定深入学习HarmonyOS Next API 13中的Skeleton Detection API,并开发一个简单的骨骼点检测应用。通过理解API核心功能、项目初始化与配置、实现检测功能、构建用户界面,以及性能优化和功能扩展,逐步实现这一技术的应用。未来计划将其应用于健身指导和智能监控领域,探索与其他AI能力的结合,开发更智能的解决方案。如果你也对骨骼点检测感兴趣,不妨一起进步!
130 9
|
4天前
|
JSON API 开发者
Lazada 商品评论列表 API 接口:开发、应用与收益
Lazada作为东南亚领先的电商平台,其商品评论数据蕴含丰富信息。通过开发和利用Lazada商品评论列表API接口,企业可深入挖掘这些数据,优化产品、营销和服务,提升客户体验和市场竞争力。该API基于HTTP协议,支持GET、POST等方法,开发者需注册获取API密钥,并选择合适的编程语言(如Python)进行开发。应用场景包括竞品分析、客户反馈处理及精准营销,帮助企业提升销售业绩、降低运营成本并增强品牌声誉。
20 2
|
7天前
|
监控 搜索推荐 API
京东按图搜索京东商品(拍立淘)API接口的开发、应用与收益
京东通过开放商品详情API接口,尤其是按图搜索(拍立淘)API,为开发者、企业和商家提供了创新空间和数据支持。该API基于图像识别技术,允许用户上传图片搜索相似商品,提升购物体验和平台竞争力。开发流程包括注册账号、获取密钥、准备图片、调用API并解析结果。应用场景涵盖电商平台优化、竞品分析、个性化推荐等,为企业带来显著收益,如增加销售额、提高利润空间和优化用户体验。未来,随着数字化转型的深入,该API的应用前景将更加广阔。
48 1
|
8天前
|
安全 API 数据安全/隐私保护
速卖通AliExpress商品详情API接口深度解析与实战应用
速卖通(AliExpress)作为全球化电商的重要平台,提供了丰富的商品资源和便捷的购物体验。为了提升用户体验和优化商品管理,速卖通开放了API接口,其中商品详情API尤为关键。本文介绍如何获取API密钥、调用商品详情API接口,并处理API响应数据,帮助开发者和商家高效利用这些工具。通过合理规划API调用策略和确保合法合规使用,开发者可以更好地获取商品信息,优化管理和营销策略。
|
20天前
|
人工智能 自然语言处理 API
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口,能够处理文本、音频和视频输入,提供自然流畅的对话体验,适用于多种应用场景。
67 3
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
|
8天前
|
JSON 安全 API
淘宝商品详情API接口(item get pro接口概述)
淘宝商品详情API接口旨在帮助开发者获取淘宝商品的详细信息,包括商品标题、描述、价格、库存、销量、评价等。这些信息对于电商企业而言具有极高的价值,可用于商品信息展示、市场分析、价格比较等多种应用场景。
|
16天前
|
前端开发 API 数据库
Next 编写接口api
Next 编写接口api