【网安AIGC专题10.11】①代码大模型的应用:检测、修复②其安全性研究:模型窃取攻击(API和网页接口) 数据窃取攻击 对抗攻击(用途:漏洞隐藏) 后门攻击(加触发器+标签翻转)(上)

简介: 【网安AIGC专题10.11】①代码大模型的应用:检测、修复②其安全性研究:模型窃取攻击(API和网页接口) 数据窃取攻击 对抗攻击(用途:漏洞隐藏) 后门攻击(加触发器+标签翻转)

写在最前面

本文为邹德清教授的《网络安全专题》课堂笔记系列的文章,本次专题主题为大模型。

第一次课上,文明老师的博士生杜小虎学长进行了代码大模型的应用及其安全性研究的相关介绍

将我之前不太明白的一些概念解释得深入浅出,醐醍灌顶

另有部分个人不成熟的理解,欢迎交流

后面如果有进一步理解,将对文章进行更新

一些想法

大型模型输出格式不受控制的解决方法

大型模型输出格式不受控制的情况,一些可能的解决方法:

  1. 输出处理:
  • 后处理和过滤: 可以通过编写自定义的后处理代码来筛选和处理大型模型的输出。这可能包括解析输出以识别关键信息、删除不必要的内容、转换输出格式,以及对输出进行筛选和排序。
  • 数据存储: 将输出存储到数据库中(可以理解为,输出转换为结构化数据,而不是自由的文本),以便按需检索和查询。
  • 数据过滤和清理: 对于文本数据,可以使用自然语言处理技术来过滤和清理输出,以去除噪音和非关键信息。
  • 增量处理: 如果模型生成的输出是不断增长的,可以采取增量处理的方法,仅处理新增数据,而不必重新处理整个输出。
  • 限定词汇表: 缩小模型可以选择的词汇表,只允许特定的词汇或短语。这可以限制生成的内容,使其更加可控。
  1. 模型处理:
  • 提供明确的指令或提示: 向模型提供明确和具体的指令或提示,以引导它生成所需的内容。指令可以包括问题、主题、关键词或上下文。通过明确的指令,您可以控制模型生成的内容,使其符合您的预期。
  • 限制生成长度: 设置生成文本的最大长度,以确保输出不会变得太长或无效。这可以通过截断或修剪生成的文本来实现。
  • 温度参数调整: 调整生成模型的温度参数。较低的温度值会使生成更加确定性,较高的温度值会增加随机性。通过调整温度参数,您可以控制生成的创造性和多样性。
  • 抽样策略: 使用不同的抽样策略来生成文本。例如,贪婪抽样会选择最有可能的词语,而随机抽样会引入更多的随机性。选择适当的抽样策略可以影响生成文本的可控性。
  • 模板或脚本: 创建文本生成的模板或脚本,然后将模型的输出填充到模板中。这种方式可以确保生成的文本符合特定的结构或格式。
  • 多轮对话: 进行多轮对话,以逐步引导模型生成所需的内容。在每一轮中,提供反馈并指导模型生成下一步内容。
  • 领域特定模型微调: 如果可能的话,可以微调预训练模型,以使其在特定领域或任务上更具可控性。

大模型介绍

国内外生成式大模型研究现状总结

GPT 系列模型的发展历程总结

(很有意思)GPT 模型家族的发展

GPT 模型家族的发展从 GPT-3 开始分成了两个技术路径并行发展 :

1、一个路径是以 Codex 为代表的代码预训练技术

2、另一个路径是以 InstructGPT 为代表的文本指令(Instruction)预训练技术。

但这两个技术路径不是始终并行发展的,而是到了一定阶段后(具体时间不详)进入了融合式预训练的过程,并通过指令学习(Instruction Tuning)有监督精调(SupervisedFine-tuning)以及基于人类反馈的强化学习(Reinforcement Learning with HumanFeedback,RLHF) 等技术实现了以自然语言对话为接口的 ChatGPT 模型。

GPT 演化图,图源How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources

Chatgpt

优点

零样本泛化能力、参数量大、逐步推理

缺点

输出格式不受控制(感觉是目前所有生成式模型的通用问题?)

训练一次时空复杂度高,导致:时效性差、成本高昂

GPT4

主要引入多模态,并达到SOTA性能

其他模型

由于个人目前没有涉猎相关研究,待后续补充想法

斯坦福Alpaca:self-instruct、instruction数据上监督微调

清华ChatGLM:双语能力

补充:self-instruct合成数据

self-instruct是一种将预训练语言模型与指令对齐的方法。 可以通过模型自己来生成数据,而不需要大量的人工标注。

参考:https://blog.csdn.net/dzysunshine/article/details/130390587

Step1:通过模型生成新的指令;

根据人工设计的175个任务,每个任务都有对应的(指令,输入,输出)或(指令,输出);使用模型生成新的指令;

Step2:对模型生成的指令进行判断(指令是否是一个分类任务);

Step3:根据Step2的判断结果,给出不同的输出

如果是分类任务,就通过模型输出 Class_label 和 Input(Output-first);

如果不是分类任务,就通过模型输出 Input 和 Output(Input-first)。

Step4:过滤及后处理

对上述模型生成的数据进行过滤和后处理,将经过过滤和后处理的数据添加到种子池中。

对于以上4个步骤进行不断循环,直到种子池有足够多的数据(通常会设定一个具体的参数,比如:52000),生成过程停止。

Code Llama

所有 Code Llama 模型均使用 Llama 2 模型权重进行初始化,并使用来自代码密集数据集的 500B token 进行训练.

Code Llama Python 模型从 Llama 2 模型初始化,并使用 Code Llama 数据集的 500B token 进行训练,并使用 Python 数据集进一步专门针对 100B token训练。

Code Llama - Instruct 模型基于 Code Llama 并使用额外的5B token 进行了微调,可以更好地遵循人类指令。

Unnatural model.。为了进行比较,它们还对 Code Llama - Python 34B 对 15,000 个非自然指令进行了微调。Meta没有发布这个模型,但观察到 HumanEval 和 MBPP 的明显改进,这表明可以通过一小组高质量编码数据来实现改进。

代码大模型的应用

(第一次理解清楚hh,这图好清晰,学长的讲解也好好)“预训练-微调”范式和“预训练-prompt”范式

神经网络需要大量数据的训练才能使得模型的效果更好,但训练是非常漫长的过程。我们可以把整个训练过程裁成两个部分:

开始的占比最大的部分称为预训练,后面的占比较小的部分称为微调

随着的着技术的发展,对于很多不同的任务,可以共享同一个预训练过程和不同的微调过程。这就是“预训练-微调”范式,

大模型还给出了另一个范式,“预训练-prompt”

课堂讨论:预训练一般是无监督的,一般为下一个token预测

(马兴宇学长补充,预训练一般是无监督data,但可以添加部分监督data)

微调可以理解为对齐任务,以符合人类期望

补充:prompt为提示工程

提示工程——漏洞检测(召回率上升,精确率几乎没变)

基本提示

(单词积累:漏洞vulnerability、脆弱(或者翻译为存在漏洞更合适?)vulnerable)

写该漏洞是否包含在Yes/no格式的代码中: write whether the vulnerability is contained in the code in the Yes/no format:

下面的功能包含一个漏洞写在Yes/no格式和为什么? does the following function contain a vulnerability write in Yes/no format and why?

判断该函数是否在Yes/no格式下存在漏洞: tell whether this function is vulnerable in the Yes/no format:

写这个函数是否脆弱: write whether this function is vulnerable:

增强提示1

你是一个提示优化者。 You are a prompt optimizer.

请优化以下提示: Please optimize the following prompt:

“你是智能合约的漏洞检测器。 “You are a vulnerability detector for a smart contract.

请检查此合同中的以下九种漏洞:[vULs]。 Please checkfor the following nine types of

vulnerabilities in this contract: [vULs].

让我们一步一步来思考。 Let’s think step by step.

智能合约的源代码如下:[输入]。 The source code for the smart contract is asfollows:

[Input].”

没有问题。 No problem.

我的优化提示如下: My optimized prompt is as follows:

您是一个智能合约漏洞检测器,请分析提供的以下9个漏洞的源代码:[vULS]。 “You are a smart contract vulnerability detector, please analyze theprovided source code for the following nine vulnerabilities: [vULS].

一步一步仔细思考。 Think step by step carefully.

合同源代码:[输入]。” The contract source code: [Input]."

思维链提示(角色扮演、API和DF只加一个效果更好)

请描述给定代码的意图。 Please describe the intent of the given code.[CODE].

我想让你扮演一个漏洞检测系统。 I want you to act as a vulnerability detection system.

上面的代码有bug吗? Is the above code buggy?

只回答是或否。 Only answer Yes or No.

下面是你可以使用的API调用序列/数据流信息:[API描述]/[DF描述]。 Here is its API call sequence/data flow information that you may use: [API description]/[DF description].

目录
相关文章
|
9天前
|
数据采集 搜索推荐 API
小红书笔记详情 API 接口的开发、应用与收益
小红书(RED)作为国内领先的生活方式分享平台,汇聚了大量用户生成内容(UGC),尤其是“种草”笔记。小红书笔记详情API接口为开发者提供了获取笔记详细信息的强大工具,包括标题、内容、图片、点赞数等。通过注册开放平台账号、申请API权限并调用接口,开发者可以构建内容分析工具、笔记推荐系统、数据爬虫等应用,提升用户体验和运营效率,创造新的商业模式。本文详细介绍API的开发流程、应用场景及潜在收益,并附上Python代码示例。
147 61
|
12天前
|
搜索推荐 数据挖掘 API
淘宝商品描述 API 接口的开发、应用与收益
淘宝商品描述API接口是淘宝开放平台提供的服务,允许开发者编程获取商品详情,如标题、价格、图片等。通过注册账号、申请权限并调用API,可构建比价工具、推荐系统、自动化上架工具等应用,提升用户体验与运营效率,创造新的商业模式。该接口为电商从业者提供了强大的数据支持和创新机会。
64 22
|
13天前
|
搜索推荐 数据挖掘 API
Lazada 淘宝详情 API 的价值与应用解析
在全球化电商浪潮下,Lazada 和淘宝作为东南亚和中国电商市场的关键力量,拥有海量商品数据和庞大用户群体。详情 API 接口为电商开发者、商家和分析师提供了获取商品详细信息(如描述、价格、库存、评价等)的工具,助力业务决策与创新。本文深入解析 Lazada 和淘宝详情 API 的应用场景及价值,并提供 Python 调用示例,帮助读者更好地理解和运用这两个强大的工具。
46 18
|
12天前
|
数据采集 搜索推荐 API
小红书笔记详情 API 接口:获取、应用与收益全解析
小红书(RED)是国内领先的生活方式分享平台,汇聚大量用户生成内容(UGC),尤以“种草”笔记闻名。小红书笔记详情API接口为开发者提供了获取笔记详细信息的强大工具,包括标题、内容、图片、点赞数等。通过注册开放平台账号、申请API权限并调用接口,开发者可构建内容分析工具、笔记推荐系统、数据爬虫等应用,提升用户体验和运营效率,创造新的商业模式。本文将详细介绍该API的获取、应用及潜在收益,并附上代码示例。
114 13
|
13天前
|
搜索推荐 数据挖掘 API
京东详情 API 接口有什么应用与价值?
在电商蓬勃发展的今天,数据成为业务增长的核心。京东作为电商巨头,其详情API接口为开发者、商家和分析师提供了丰富的商品数据,包括描述、价格、库存和评价等,助力电商业务各个环节。本文将深入探讨该接口的应用场景与价值,并结合Python代码示例,帮助读者更好地理解和利用这一强大工具。 京东详情API接口不仅支持商品展示与搜索、数据分析与市场调研,还适用于竞品分析、智能推荐等场景。它为商家拓展销售渠道、优化运营决策、提升服务质量;为开发者快速创新、降低开发成本;为消费者提供更多选择、提高购物效率和个性化服务。通过实际代码示例,展示了如何调用API获取商品详情,为开发者提供操作指导。
41 12
|
10天前
|
供应链 搜索推荐 数据挖掘
阿里巴巴热卖商品推荐 API 接口的开发、应用与收益
阿里巴巴热卖商品推荐API为开发者提供了获取平台热卖商品信息的强大工具,涵盖商品标题、价格、销量等数据。通过注册开放平台账号、申请API权限并调用接口,开发者可构建热卖商品推荐系统、数据分析工具及供应链管理系统等应用,提升用户体验与运营效率,创造新的商业模式。该API采用RESTful风格,支持多种应用场景,助力电商从业者实现创新与增值。
60 7
|
12天前
|
供应链 数据挖掘 API
1688APP 原数据 API 接口的开发、应用与收益
1688作为阿里巴巴旗下的B2B平台,汇聚海量供应商和商品资源。其APP原数据API接口为开发者提供获取商品详细信息的强大工具,涵盖商品标题、价格、图片等。通过注册开放平台账号、申请API权限并调用接口,开发者可构建比价工具、供应链管理及自动化上架工具等应用,提升用户体验与运营效率,创造新的商业模式。示例代码展示了如何使用Python调用API并解析返回结果。
68 8
|
10天前
|
搜索推荐 数据挖掘 API
亚马逊详情 API 接口的开发、应用与收益
亚马逊详情API接口是亚马逊开放平台提供的强大工具,允许开发者编程获取商品的详细信息,如标题、价格、描述等。通过注册账号、申请权限并调用API,开发者可构建比价工具、推荐系统和数据分析工具等应用,提升用户体验与运营效率,创造新商业模式。本文详细介绍其开发流程、应用场景及潜在收益,并附代码示例。
28 6
|
8天前
|
人工智能 数据挖掘 API
淘宝评论与商品详情数据API接口的使用与应用
商品详情数据API:获取商品的基本信息(如标题、价格、库存、描述等)。 评论数据API:获取商品的用户评价数据(如评分、评论内容、用户昵称、购买时间等)。
|
23天前
|
搜索推荐 API 开发者
深度解析:利用商品详情 API 接口实现数据获取与应用
在电商蓬勃发展的今天,数据成为驱动业务增长的核心。商品详情API接口作为连接海量商品数据的桥梁,帮助运营者、商家和开发者获取精准的商品信息(如价格、描述、图片、评价等),优化策略、提升用户体验。通过理解API概念、工作原理及不同平台特点,掌握获取权限、构建请求、处理响应和错误的方法,可以将数据应用于商品展示、数据分析、竞品分析和个性化推荐等场景,助力电商创新与发展。未来,随着技术进步,API接口将与人工智能、大数据深度融合,带来更多变革。
62 3

热门文章

最新文章