【网安AIGC专题10.11】论文1:生成式模型GPT\CodeX填充式模型CodeT5\INCODER+大模型自动程序修复(生成整个修复函数、修复代码填充、单行代码生产、生成的修复代码排序和过滤)

简介: 【网安AIGC专题10.11】论文1:生成式模型GPT\CodeX填充式模型CodeT5\INCODER+大模型自动程序修复(生成整个修复函数、修复代码填充、单行代码生产、生成的修复代码排序和过滤)

写在最前面

本文为邹德清教授的《网络安全专题》课堂笔记系列的文章,本次专题主题为大模型。

10.11分享论文1:Automated Program Repair in the Era of Large Pre-trained Language Models

《llm在程序修复中的应用》

马兴宇学长分享论文,深入浅出,简洁明了

写博客记录这篇论文的分享

论文总结

主要是将主流的预训练代码专项的大模型应用到了代码修复领域,包括生成式大模型和填充式大模型

方法上并没有什么创新点,都是比较主流的模型和方法。

实验量比较大,涉及多个预训练模型的不同角度对比,包括代码修复准确率、代码生成结果的熵等等内容、以及与传统的NMT模型例如seq2seq等模型对比。

背景知识介绍

语言模型

类似于输入法,输入前几个字,自动推荐后面可能衔接哪些内容

现在主要的语言模型有单向语言模型和双向语言模型:

1、单向语言模型就是正向预测,即已知前面的文本信息预测下一个字。

按顺序处理输入文本的每个单词或字符,并依赖于先前处理的文本信息来预测下一个单词或字符。这种模型通常用于诸如序列标注、命名实体识别和文本分类等任务。

2、双向语言模型就是可以利用上下文信息来预测。

双向语言模型

双向语言模型适合做语言理解,不适合做生成任务。

双向语言模型有很多,最主流的双向语言模型BERT,后续的类似模型几乎都是基于该结构上调整,只是预训练目标不同

BERT也是最主流的掩码语言模型或自编码语言模型,主要基于Transformer的Encoder模块实现

单向语言模型

目前比较主流的大模型都是基于单向语言模型,也就是Transformer的Decoder模块

因为单向语言模型更适合生成任务,而现在主流的大模型例如ChatGPT、LLAMa所执行的所有任务均可以被归类为生成任务。

基于Encoder和Decoder架构的预训练模型由于参数量和推理速度原因也很少被选择作为基座模型。

自动程序修复(APR)

技术

自动程序修复(APR):旨在帮助开发人员发现和修复程序中存在的漏洞,目前广泛使用的自动程序修复技术主要是基于专家手工指定的模板和基于学习方式的程序修复。

1)基于模板修复方式:比较依赖于专家手工制定的模板,而模板获取通常较难,且难以准确的设计。

2)基于学习的方式则需要依赖于大量的标注数据集,标注数据集的获取成本很高,也会对效果带来一定的影响。

发展

1、传统基于专家手工指定模板和规则

2、借鉴NMT方法,基于可学习的神经网络,训练修复模型,如Seq2Seq、Transformer等

3、基于预训练大模型,做有监督微调或者不训练模型直接做zero-shot、few-shot等任务,如代码专项模型:starcoder、codex、codeBert等

论文

概述

该论文将APR技术与LLMs进行结合,进行了广泛的研究,LLMs由于在海量数据上进行了训练,因此具备大量的知识,可以用来做zero-shot以及few-shot等工作,从而不需要训练就可以具备代码漏洞检测与修复功能,大大提升了代码修复与检测技术的效率。

论文选择了9个最新的LLMs,包括生成模型和填充模型,大小从125M到20B不等。设计了3种不同的修复方式来评估使用LLMs生成补丁的不同方式

1)生成整个修复函数:输入是一个有bug的函数,输出是修复后的函数

2)根据前缀和后缀填充代码块:也就是前面提到的预测mask位置的输出

3)输出单行修复

模型选择

生成式模型

GPT-Neo、GPT-J,GPT-NeoX、CodeX

填充式模型

CodeT5、INCODER、CodeX

方法

生成整个修复函数

生成整个修复函数就是将有bug的函数直接输入给模型,然后模型输出修复后的数据,但是由于预训练模型的预训练数据里没有APR数据,所有直接给喂数据,效果可能不好,所以作者又构建了前缀模板来做in-context learning,这里作者用的是one-shot

修复代码填充

作者参考掩码语言模型思路,将错误代码行视为mask然后使用掩码语言模型对mask位置进行预测,得到正确代码输出,掩码语言模型可以利用双向的上下文信息

单行代码生产

单行代码生成就是只生成错误地方的那一行代码

作者这里即用了:

1、上下文去预测掩码位置的输出

2、基于生成式的模型去生成单行,生成单行后就停止生成,然后拼接上后缀代码

生成的修复代码排序和过滤

作者利用

1、预训练模型中默认的核采样参数,来生成多个修复后的代码

2、再利用熵来对生成的代码进行排序,熵可以代表生成代码的natural,作者选用熵低的,也就是生成的代码越符合人类思维。

3、最后再过滤掉编译失败的和语法错误的等数据

实验

实验数据集

实验结果对比

实验量比较大,涉及多个预训练模型的不同角度对比,包括:

1、代码修复准确率

2、代码生成结果的熵等等内容

3、以及与传统的NMT模型例如seq2seq等模型对比

这里没有一一展示实验结果。

目录
相关文章
|
8月前
|
Web App开发 人工智能
UC伯克利:给大模型测MBTI,Llama更敢说但GPT-4像理工男
UC伯克利研究团队推出VibeCheck系统,自动比较大型语言模型(LLM)的输出特征,如语调、格式和写作风格。该系统通过迭代挖掘特征并利用LLM法官量化其实用性,验证结果显示其能有效捕捉模型的独特“vibes”。VibeCheck应用于对话、摘要、数学和字幕生成等任务,揭示了不同模型的行为差异,并在预测模型身份和用户偏好方面表现出色。尽管存在主观性和测试范围有限的局限性,VibeCheck为改进LLM评估提供了新视角。论文地址:https://arxiv.org/abs/2410.12851
204 98
|
决策智能 开发者
手把手教你如何用AIGC大模型写一首歌
本文记录了作者用大模型创作歌曲及视频的全过程。
367 10
|
7月前
|
人工智能 自然语言处理 运维
论文《FactoryDecoder - 面向3D场景的AIGC工具》入选图形学顶会SIGGRAPH 2024
论文《FactoryDecoder - 面向3D场景的AIGC工具》入选图形学顶会SIGGRAPH 2024
|
9月前
|
人工智能 语音技术 iOS开发
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
MiniCPM-o 2.6 是面壁智能开源的多模态大模型,支持视觉、语音和多模态直播,性能媲美GPT-4o,能够在端侧设备上高效运行。
690 10
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
|
9月前
|
人工智能 编解码 算法
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
豆包大模型1.5是字节跳动推出的最新大模型,采用大规模稀疏MoE架构,支持多模态输入输出,具备低时延语音对话能力,综合性能优于GPT-4o和Claude 3.5 Sonnet。
1568 2
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
|
8月前
|
人工智能 自然语言处理 机器人
D1net阅闻 | 大模型军备竞赛升级:GPT-4.5/Grok 3同日官宣
D1net阅闻 | 大模型军备竞赛升级:GPT-4.5/Grok 3同日官宣
|
10月前
|
人工智能 API Windows
免费部署本地AI大语言模型聊天系统:Chatbox AI + 马斯克grok2.0大模型(简单5步实现,免费且比GPT4.0更好用)
本文介绍了如何部署本地AI大语言模型聊天系统,使用Chatbox AI客户端应用和Grok-beta大模型。通过获取API密钥、下载并安装Chatbox AI、配置模型,最终实现高效、智能的聊天体验。Grok 2大模型由马斯克X-AI发布,支持超长文本上下文理解,免费且易于使用。
3388 0
|
12月前
|
机器学习/深度学习 弹性计算 人工智能
大模型进阶微调篇(三):微调GPT2大模型实战
本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。
2145 6
|
12月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
218 6
|
数据采集 自然语言处理 监控
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
175 4
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT

热门文章

最新文章