【ACL2024】基于动态辅助融合的大模型序列编辑

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 近日,阿里云人工智能平台PAI与集团安全部内容安全算法团队、华东师范大学何晓丰教授团队合作,在自然语言处理顶级会议ACL2024上发表论文《DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models》。

近日,阿里云人工智能平台PAI与集团安全部内容安全算法团队、华东师范大学何晓丰教授团队合作,在自然语言处理顶级会议ACL2024上发表论文《DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models》,论文主题为动态辅助融合的大模型序列编辑工作。对于输入的序列化知识数据,通过大模型编辑技术依次将知识注入到大模型部分感知到的参数中,这样可以极大限度的减轻模型更新新知识的资源代价。同时,在编辑参数的过程中,需要考虑到编辑数据之间的参数关系来增强不同激活参数块之间的联系,从而防止模型通用能力退化,减轻大模型幻觉现象的问题。


背景

大模型基于丰富的知识和推理能力其具有理解、分析和生成文本能力。然而,大模型的一个主要缺点是由于其超大的参数数量,其预训练的计算成本巨大。当需要将新知识引入预训练模型时,考虑到计算资源和数据资源的开销,无法从头进行训练。因此,必须开发有效和高效的技术来更新预训练大模型。模型编辑引起了越来越多的关注,其目的是精确地修改大模型中特性参数包含的特定知识,不会对其他无关知识产生负面影响。先前很多工作应对的场景是基于上述单次编辑简单知识编辑的情况,对于多条知识进行序列编辑的场景,目前的知识编辑算法不能很好的去处理连续编辑知识出现的遗忘问题。这种遗忘问题会导致大模型很难在当前编辑的同时不影响其他编辑之后的参数,进一步会造成大模型的幻觉现象。

image.png

本算法中,我们主要做了两个贡献:(1)专门用于训练辅助网络的数据集,该数据集的收集和设计过程都是根据最后的评估指标进行的考虑。希望我们的辅助网络通过该数据集的训练能够具备基础的编辑性质能力,之后可以更好的使用编辑数据进行训练。(2)提出了一个动态交互的辅助网络用于训练序列模型编辑场景。该模型将所有输入的序列数据通过内部编辑注意力和外部编辑注意力机制进行交互,使得模型编辑过程中对自回归网络捕捉这些输入序列数据之间的语义联系。


算法和数据集概述

数据集说明

数据收集

在该工作中我们利用Wikidata作为种子知识来构造该编辑数据,对于一个知识图谱(KG),具有表示为(e_h, r, e_t)的关系三元组,其中e_h是头部实体,r是关系谓词,e_t是尾部实体。这些属性的具体收集步骤如下:

  • Recency:收集最近的三元组添加到Wikidata。头实体e_h和尾实体e_t通常与许多冗余的三元组相关联。为了解决这个问题,我们只收集一组48个常见关系谓词相关联的关系三元组。使用现成的工具来搜索在过去7天中出现的三元组,然后我们使用模板映射三元组来构建数据样本。
  • Popularity:我们收集与流行实体相对应的三元组,其中头部实体来自维基百科中浏览量最高的页面。接下来,我们在图谱2跳中执行尾部实体的多跳选择。
  • Long-tailness:LLM往往缺乏对低频数据的充分学习,因此对这些知识的编辑效果较差。我们从三个角度识别和构建与长尾知识相关的训练数据:(1)Frequency:我们首先收集头部实体,并统计其在Wikidata中的相应频率。然后,我们设置一个阈值来选择大约80%的低频实体。(2) In-out KG Degree:我们计算相应头部实体在KG中的连通性,然后设置阈值来选择低频实体。(3)Likelihood:与两种直观的统计数据不同,我们识别长尾数据的方法侧重于模型输出的语义。具体来说,我们将与头部实体相关的句子输入LLM,并通过检查实体位置的可能性概率来评估模型对实体的理解。最后,我们还利用上述模板来构建训练样本。
  • Robustness:我们使用三个鲁棒性属性来构建训练数据,包括文本长度、上下文和情感。为了控制输入提示的长度,我们使用每个编辑数据的“loc”和“rephrase”字段。模板用于训练句子结构,特别是上下文和情感,以提示LLM生成。为了进一步增强鲁棒性,我们为每个训练数据点生成两个相反的数据属性,例如情绪中的“积极”和“消极”。

数据分析

下图是对收集的数据集的数据分布详细分析:

image.png

  1. 数据集包含的性质:最近、流行、长尾和鲁棒。最近和流行两个数据集性质主要用来对评测数据集指标中的可靠性和局部性进行覆盖训练。长尾和鲁棒两个数据集性质主要是对编辑结果中的泛化性进行训练。
  2. 通过上图对数据分布进行分析,从实体的出现频率、图谱的出入度、语义输出的对数似然中可以发现,数据分布都是长尾分布,出现的数据更多的是长尾情况。从收集数据的领域角度分析,我们可以发现该数据集包含了多个领域数据,模型在进行编辑数据训练时,可以将多个领域的数据泛化性进行学习。

算法概述

下图是我们设计的序列编辑数据模型:

image.png

  1. 模型主要包括了序列编辑信号获取、动态辅助网络融合学习和编辑训练过程
  2. 序列编辑信号获取:我们学习MEND模型的形式,将每一个输入的序列编辑数据通过LLM的梯度进行分解,对于每一个输入的序列编辑数据降维成两个低秩的序列融合信号。


image.png

  1. 动态辅助网络融合学习:该模块我们设计两个注意力流包括intra-editing注意力流和inter-editing编辑注意力流。intra-editing 注意力流将每个输入的序列中的token之间进行交互建模,使得每个token的交互能够更加的充分,输入的语义表示是经过该输入序列之间的语义建模后的表示。


image.png

inter-editing 注意力流:该模块用来提取每个序列输入的数据之间的建模关系,同时将原本降维之后的表示进行迭代式的注意力交互建模,再将融合之后的表示输入到模型中进行梯度融合。

image.png


  1. 编辑训练:编辑训练的损失函数设计就是针对训练数据集进行的考虑,将可靠性、泛化性和局部性进行建模成总的损失函数。

image.png

image.png

image.png


算法评测

我们选取了三个权威的公开模型编辑benchmark来评测我们的DAFNet和baseline模型。数据集的指标也是衡量编辑模型的通用指标,包括可靠性、泛化性和局部性。我们一共设置了四种不同的编辑次数来检验编辑模型在序列编辑场景中的性能变化情况,效果如编辑模型在DAFSet数据集上的效果变化情况如下:

image.png

image.png

编辑模型在DAFSet数据集上的效果变化情况如下:

image.png

参考文献

  • Zeyu Huang, Yikang Shen, Xiaofeng Zhang, Jie Zhou, Wenge Rong, and Zhang Xiong. 2023. Transformer-patcher: One mistake worth one neuron. In ICLR.
  • Nicola De Cao, Wilker Aziz, and Ivan Titov. 2021. Editing factual knowledge in language models. In EMNLP, pages 6491–6506.
  • Qingxiu Dong, Damai Dai, Yifan Song, Jingjing Xu, Zhifang Sui, and Lei Li. 2022. Calibrating factual knowledge in pretrained language models. In EMNLP, pages 5937–5947.
  • Kevin Meng, Arnab Sen Sharma, Alex J. Andonian, Yonatan Belinkov, and David Bau. 2023. Mass editing memory in a transformer. In ICLR.
  • Eric Mitchell, Charles Lin, Antoine Bosselut, Chelsea Finn, and Christopher D. Manning. 2022a. Fast model editing at scale. In ICLR.
  • Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D. Manning, and Chelsea Finn. 2022b. Memory based model editing at scale. In ICML, pages 15817–15831
  • Derek Tam, Anisha Mascarenhas, Shiyue Zhang, Sarah Kwan, Mohit Bansal, and Colin Raffel. 2023. Evaluating the factual consistency of large language models through news summarization. In ACL, pages 5220–5255.


论文信息

论文名字:DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models

论文作者:张涛林,陈颀周,李东阳,汪诚愚,何晓丰,黄龙涛,薛晖,黄俊

论文pdf链接:https://arxiv.org/abs/2405.20588


阿里云人工智能平台PAI长期招聘研究实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态AIGC大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
30天前
|
机器学习/深度学习 搜索推荐 算法
无需训练即可创建数字人,字节PersonaTalk视频口型编辑超SOTA
字节跳动研究人员提出了PersonaTalk,一种创新的音频驱动视觉配音方法,通过两阶段框架实现高保真度和个性化的口型同步视频生成。该方法无需特定人物训练,具有广泛的应用前景。
78 11
|
机器学习/深度学习 自然语言处理 安全
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
281 0
|
8月前
|
XML 算法 C语言
【C/C++ 静态代码检查工具 Cppcheck 】Cppcheck 检测器列表和检查规则大全一览
【C/C++ 静态代码检查工具 Cppcheck 】Cppcheck 检测器列表和检查规则大全一览
770 0
|
图形学
模型粗糙度怎么修改?
模型粗糙度属性可以用于各种需要模拟不同材质表面光滑度和纹理的场景。
98 0
|
机器学习/深度学习 自然语言处理 BI
FourIE:基于图卷积网络的跨任务实例表征交互和标签依赖的联合信息抽取模型
现有的信息抽取(IE)工作主要是分别解决四个主要任务(实体提及识别、关系抽取、事件触发词检测和论元抽取),无法从任务之间的相互依赖中获益。
127 2
|
JSON 算法 数据格式
优化cv2.findContours()函数提取的目标边界点,使语义分割进行远监督辅助标注
可以看到cv2.findContours()函数可以将目标的所有边界点都进行导出来,但是他的点存在一个问题,太过密集,如果我们想将语义分割的结果重新导出成labelme格式的json文件进行修正时,这就会存在点太密集没有办法进行修改,这里展示一个示例:没有对导出的结果进行修正,在labelme中的效果图。
246 0
|
数据可视化 vr&ar 计算机视觉
使用标记增强技术将虚拟内容呈现到现实场景中
使用基于标记的增强现实将虚拟内容呈现到场景中。
181 0
|
人工智能 自然语言处理 文字识别
理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度
理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度
219 0
|
计算机视觉
当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换(1)
当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换
155 0
|
人工智能 编解码 移动开发
当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换(2)
当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换
131 0