【ACL2024】基于动态辅助融合的大模型序列编辑

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 近日,阿里云人工智能平台PAI与集团安全部内容安全算法团队、华东师范大学何晓丰教授团队合作,在自然语言处理顶级会议ACL2024上发表论文《DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models》。

近日,阿里云人工智能平台PAI与集团安全部内容安全算法团队、华东师范大学何晓丰教授团队合作,在自然语言处理顶级会议ACL2024上发表论文《DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models》,论文主题为动态辅助融合的大模型序列编辑工作。对于输入的序列化知识数据,通过大模型编辑技术依次将知识注入到大模型部分感知到的参数中,这样可以极大限度的减轻模型更新新知识的资源代价。同时,在编辑参数的过程中,需要考虑到编辑数据之间的参数关系来增强不同激活参数块之间的联系,从而防止模型通用能力退化,减轻大模型幻觉现象的问题。


背景

大模型基于丰富的知识和推理能力其具有理解、分析和生成文本能力。然而,大模型的一个主要缺点是由于其超大的参数数量,其预训练的计算成本巨大。当需要将新知识引入预训练模型时,考虑到计算资源和数据资源的开销,无法从头进行训练。因此,必须开发有效和高效的技术来更新预训练大模型。模型编辑引起了越来越多的关注,其目的是精确地修改大模型中特性参数包含的特定知识,不会对其他无关知识产生负面影响。先前很多工作应对的场景是基于上述单次编辑简单知识编辑的情况,对于多条知识进行序列编辑的场景,目前的知识编辑算法不能很好的去处理连续编辑知识出现的遗忘问题。这种遗忘问题会导致大模型很难在当前编辑的同时不影响其他编辑之后的参数,进一步会造成大模型的幻觉现象。

image.png

本算法中,我们主要做了两个贡献:(1)专门用于训练辅助网络的数据集,该数据集的收集和设计过程都是根据最后的评估指标进行的考虑。希望我们的辅助网络通过该数据集的训练能够具备基础的编辑性质能力,之后可以更好的使用编辑数据进行训练。(2)提出了一个动态交互的辅助网络用于训练序列模型编辑场景。该模型将所有输入的序列数据通过内部编辑注意力和外部编辑注意力机制进行交互,使得模型编辑过程中对自回归网络捕捉这些输入序列数据之间的语义联系。


算法和数据集概述

数据集说明

数据收集

在该工作中我们利用Wikidata作为种子知识来构造该编辑数据,对于一个知识图谱(KG),具有表示为(e_h, r, e_t)的关系三元组,其中e_h是头部实体,r是关系谓词,e_t是尾部实体。这些属性的具体收集步骤如下:

  • Recency:收集最近的三元组添加到Wikidata。头实体e_h和尾实体e_t通常与许多冗余的三元组相关联。为了解决这个问题,我们只收集一组48个常见关系谓词相关联的关系三元组。使用现成的工具来搜索在过去7天中出现的三元组,然后我们使用模板映射三元组来构建数据样本。
  • Popularity:我们收集与流行实体相对应的三元组,其中头部实体来自维基百科中浏览量最高的页面。接下来,我们在图谱2跳中执行尾部实体的多跳选择。
  • Long-tailness:LLM往往缺乏对低频数据的充分学习,因此对这些知识的编辑效果较差。我们从三个角度识别和构建与长尾知识相关的训练数据:(1)Frequency:我们首先收集头部实体,并统计其在Wikidata中的相应频率。然后,我们设置一个阈值来选择大约80%的低频实体。(2) In-out KG Degree:我们计算相应头部实体在KG中的连通性,然后设置阈值来选择低频实体。(3)Likelihood:与两种直观的统计数据不同,我们识别长尾数据的方法侧重于模型输出的语义。具体来说,我们将与头部实体相关的句子输入LLM,并通过检查实体位置的可能性概率来评估模型对实体的理解。最后,我们还利用上述模板来构建训练样本。
  • Robustness:我们使用三个鲁棒性属性来构建训练数据,包括文本长度、上下文和情感。为了控制输入提示的长度,我们使用每个编辑数据的“loc”和“rephrase”字段。模板用于训练句子结构,特别是上下文和情感,以提示LLM生成。为了进一步增强鲁棒性,我们为每个训练数据点生成两个相反的数据属性,例如情绪中的“积极”和“消极”。

数据分析

下图是对收集的数据集的数据分布详细分析:

image.png

  1. 数据集包含的性质:最近、流行、长尾和鲁棒。最近和流行两个数据集性质主要用来对评测数据集指标中的可靠性和局部性进行覆盖训练。长尾和鲁棒两个数据集性质主要是对编辑结果中的泛化性进行训练。
  2. 通过上图对数据分布进行分析,从实体的出现频率、图谱的出入度、语义输出的对数似然中可以发现,数据分布都是长尾分布,出现的数据更多的是长尾情况。从收集数据的领域角度分析,我们可以发现该数据集包含了多个领域数据,模型在进行编辑数据训练时,可以将多个领域的数据泛化性进行学习。

算法概述

下图是我们设计的序列编辑数据模型:

image.png

  1. 模型主要包括了序列编辑信号获取、动态辅助网络融合学习和编辑训练过程
  2. 序列编辑信号获取:我们学习MEND模型的形式,将每一个输入的序列编辑数据通过LLM的梯度进行分解,对于每一个输入的序列编辑数据降维成两个低秩的序列融合信号。


image.png

  1. 动态辅助网络融合学习:该模块我们设计两个注意力流包括intra-editing注意力流和inter-editing编辑注意力流。intra-editing 注意力流将每个输入的序列中的token之间进行交互建模,使得每个token的交互能够更加的充分,输入的语义表示是经过该输入序列之间的语义建模后的表示。


image.png

inter-editing 注意力流:该模块用来提取每个序列输入的数据之间的建模关系,同时将原本降维之后的表示进行迭代式的注意力交互建模,再将融合之后的表示输入到模型中进行梯度融合。

image.png


  1. 编辑训练:编辑训练的损失函数设计就是针对训练数据集进行的考虑,将可靠性、泛化性和局部性进行建模成总的损失函数。

image.png

image.png

image.png


算法评测

我们选取了三个权威的公开模型编辑benchmark来评测我们的DAFNet和baseline模型。数据集的指标也是衡量编辑模型的通用指标,包括可靠性、泛化性和局部性。我们一共设置了四种不同的编辑次数来检验编辑模型在序列编辑场景中的性能变化情况,效果如编辑模型在DAFSet数据集上的效果变化情况如下:

image.png

image.png

编辑模型在DAFSet数据集上的效果变化情况如下:

image.png

参考文献

  • Zeyu Huang, Yikang Shen, Xiaofeng Zhang, Jie Zhou, Wenge Rong, and Zhang Xiong. 2023. Transformer-patcher: One mistake worth one neuron. In ICLR.
  • Nicola De Cao, Wilker Aziz, and Ivan Titov. 2021. Editing factual knowledge in language models. In EMNLP, pages 6491–6506.
  • Qingxiu Dong, Damai Dai, Yifan Song, Jingjing Xu, Zhifang Sui, and Lei Li. 2022. Calibrating factual knowledge in pretrained language models. In EMNLP, pages 5937–5947.
  • Kevin Meng, Arnab Sen Sharma, Alex J. Andonian, Yonatan Belinkov, and David Bau. 2023. Mass editing memory in a transformer. In ICLR.
  • Eric Mitchell, Charles Lin, Antoine Bosselut, Chelsea Finn, and Christopher D. Manning. 2022a. Fast model editing at scale. In ICLR.
  • Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D. Manning, and Chelsea Finn. 2022b. Memory based model editing at scale. In ICML, pages 15817–15831
  • Derek Tam, Anisha Mascarenhas, Shiyue Zhang, Sarah Kwan, Mohit Bansal, and Colin Raffel. 2023. Evaluating the factual consistency of large language models through news summarization. In ACL, pages 5220–5255.


论文信息

论文名字:DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models

论文作者:张涛林,陈颀周,李东阳,汪诚愚,何晓丰,黄龙涛,薛晖,黄俊

论文pdf链接:https://arxiv.org/abs/2405.20588


阿里云人工智能平台PAI长期招聘研究实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态AIGC大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
22天前
|
人工智能 机器人 开发者
AppFlow:为您的任意模型赋能——上下文连续会话能力
通过AppFlow,无需任何开发工作,即可使大型语言模型具备上下文连续对话的能力。本文以钉钉会话机器人为例,详细介绍如何配置这一功能:首先选择触发器,如钉钉机器人收到文本消息;接着配置上下文组件,组合当前和历史会话;然后选择模型,例如通义千问,并配置相应参数;更新上下文,设置对话内容和会话ID;最后将模型回答发送至钉钉。整个过程简单快捷,适用于多种触发器和模型。
AppFlow:为您的任意模型赋能——上下文连续会话能力
|
3月前
|
自然语言处理 算法 搜索推荐
字符串相似度算法完全指南:编辑、令牌与序列三类算法的全面解析与深入分析
在自然语言处理领域,人们经常需要比较字符串,这些字符串可能是单词、句子、段落甚至是整个文档。如何快速判断两个单词或句子是否相似,或者相似度是好还是差。这类似于我们使用手机打错一个词,但手机会建议正确的词来修正它,那么这种如何判断字符串相似度呢?本文将详细介绍这个问题。
243 1
|
5月前
|
机器学习/深度学习 数据处理 API
视觉智能平台常见问题之通用图像打标位置报警告如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
视觉智能平台常见问题之通用图像打标位置报警告如何解决
|
5月前
|
XML 算法 C语言
【C/C++ 静态代码检查工具 Cppcheck 】Cppcheck 检测器列表和检查规则大全一览
【C/C++ 静态代码检查工具 Cppcheck 】Cppcheck 检测器列表和检查规则大全一览
397 0
|
5月前
|
小程序 前端开发 JavaScript
视觉智能平台常见问题之调用多器官分割服务时提示所示报错如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
|
12月前
|
机器学习/深度学习 搜索推荐 Go
组学生信| Front Immunol |基于血清蛋白质组早期诊断标志筛选的简单套路
组学生信| Front Immunol |基于血清蛋白质组早期诊断标志筛选的简单套路
57 0
|
机器学习/深度学习 自然语言处理 BI
FourIE:基于图卷积网络的跨任务实例表征交互和标签依赖的联合信息抽取模型
现有的信息抽取(IE)工作主要是分别解决四个主要任务(实体提及识别、关系抽取、事件触发词检测和论元抽取),无法从任务之间的相互依赖中获益。
106 2
|
人工智能 自然语言处理 文字识别
理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度
理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度
195 0
|
数据采集 移动开发 数据可视化
空间转录组|Load10X_Spatial函数修改适配多形式数据 + 空转标准流程
空间转录组|Load10X_Spatial函数修改适配多形式数据 + 空转标准流程
596 0
|
机器学习/深度学习 数据采集 人工智能
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
229 0