【ACL2024】基于动态辅助融合的大模型序列编辑

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 近日,阿里云人工智能平台PAI与集团安全部内容安全算法团队、华东师范大学何晓丰教授团队合作,在自然语言处理顶级会议ACL2024上发表论文《DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models》。

近日,阿里云人工智能平台PAI与集团安全部内容安全算法团队、华东师范大学何晓丰教授团队合作,在自然语言处理顶级会议ACL2024上发表论文《DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models》,论文主题为动态辅助融合的大模型序列编辑工作。对于输入的序列化知识数据,通过大模型编辑技术依次将知识注入到大模型部分感知到的参数中,这样可以极大限度的减轻模型更新新知识的资源代价。同时,在编辑参数的过程中,需要考虑到编辑数据之间的参数关系来增强不同激活参数块之间的联系,从而防止模型通用能力退化,减轻大模型幻觉现象的问题。


背景

大模型基于丰富的知识和推理能力其具有理解、分析和生成文本能力。然而,大模型的一个主要缺点是由于其超大的参数数量,其预训练的计算成本巨大。当需要将新知识引入预训练模型时,考虑到计算资源和数据资源的开销,无法从头进行训练。因此,必须开发有效和高效的技术来更新预训练大模型。模型编辑引起了越来越多的关注,其目的是精确地修改大模型中特性参数包含的特定知识,不会对其他无关知识产生负面影响。先前很多工作应对的场景是基于上述单次编辑简单知识编辑的情况,对于多条知识进行序列编辑的场景,目前的知识编辑算法不能很好的去处理连续编辑知识出现的遗忘问题。这种遗忘问题会导致大模型很难在当前编辑的同时不影响其他编辑之后的参数,进一步会造成大模型的幻觉现象。

image.png

本算法中,我们主要做了两个贡献:(1)专门用于训练辅助网络的数据集,该数据集的收集和设计过程都是根据最后的评估指标进行的考虑。希望我们的辅助网络通过该数据集的训练能够具备基础的编辑性质能力,之后可以更好的使用编辑数据进行训练。(2)提出了一个动态交互的辅助网络用于训练序列模型编辑场景。该模型将所有输入的序列数据通过内部编辑注意力和外部编辑注意力机制进行交互,使得模型编辑过程中对自回归网络捕捉这些输入序列数据之间的语义联系。


算法和数据集概述

数据集说明

数据收集

在该工作中我们利用Wikidata作为种子知识来构造该编辑数据,对于一个知识图谱(KG),具有表示为(e_h, r, e_t)的关系三元组,其中e_h是头部实体,r是关系谓词,e_t是尾部实体。这些属性的具体收集步骤如下:

  • Recency:收集最近的三元组添加到Wikidata。头实体e_h和尾实体e_t通常与许多冗余的三元组相关联。为了解决这个问题,我们只收集一组48个常见关系谓词相关联的关系三元组。使用现成的工具来搜索在过去7天中出现的三元组,然后我们使用模板映射三元组来构建数据样本。
  • Popularity:我们收集与流行实体相对应的三元组,其中头部实体来自维基百科中浏览量最高的页面。接下来,我们在图谱2跳中执行尾部实体的多跳选择。
  • Long-tailness:LLM往往缺乏对低频数据的充分学习,因此对这些知识的编辑效果较差。我们从三个角度识别和构建与长尾知识相关的训练数据:(1)Frequency:我们首先收集头部实体,并统计其在Wikidata中的相应频率。然后,我们设置一个阈值来选择大约80%的低频实体。(2) In-out KG Degree:我们计算相应头部实体在KG中的连通性,然后设置阈值来选择低频实体。(3)Likelihood:与两种直观的统计数据不同,我们识别长尾数据的方法侧重于模型输出的语义。具体来说,我们将与头部实体相关的句子输入LLM,并通过检查实体位置的可能性概率来评估模型对实体的理解。最后,我们还利用上述模板来构建训练样本。
  • Robustness:我们使用三个鲁棒性属性来构建训练数据,包括文本长度、上下文和情感。为了控制输入提示的长度,我们使用每个编辑数据的“loc”和“rephrase”字段。模板用于训练句子结构,特别是上下文和情感,以提示LLM生成。为了进一步增强鲁棒性,我们为每个训练数据点生成两个相反的数据属性,例如情绪中的“积极”和“消极”。

数据分析

下图是对收集的数据集的数据分布详细分析:

image.png

  1. 数据集包含的性质:最近、流行、长尾和鲁棒。最近和流行两个数据集性质主要用来对评测数据集指标中的可靠性和局部性进行覆盖训练。长尾和鲁棒两个数据集性质主要是对编辑结果中的泛化性进行训练。
  2. 通过上图对数据分布进行分析,从实体的出现频率、图谱的出入度、语义输出的对数似然中可以发现,数据分布都是长尾分布,出现的数据更多的是长尾情况。从收集数据的领域角度分析,我们可以发现该数据集包含了多个领域数据,模型在进行编辑数据训练时,可以将多个领域的数据泛化性进行学习。

算法概述

下图是我们设计的序列编辑数据模型:

image.png

  1. 模型主要包括了序列编辑信号获取、动态辅助网络融合学习和编辑训练过程
  2. 序列编辑信号获取:我们学习MEND模型的形式,将每一个输入的序列编辑数据通过LLM的梯度进行分解,对于每一个输入的序列编辑数据降维成两个低秩的序列融合信号。


image.png

  1. 动态辅助网络融合学习:该模块我们设计两个注意力流包括intra-editing注意力流和inter-editing编辑注意力流。intra-editing 注意力流将每个输入的序列中的token之间进行交互建模,使得每个token的交互能够更加的充分,输入的语义表示是经过该输入序列之间的语义建模后的表示。


image.png

inter-editing 注意力流:该模块用来提取每个序列输入的数据之间的建模关系,同时将原本降维之后的表示进行迭代式的注意力交互建模,再将融合之后的表示输入到模型中进行梯度融合。

image.png


  1. 编辑训练:编辑训练的损失函数设计就是针对训练数据集进行的考虑,将可靠性、泛化性和局部性进行建模成总的损失函数。

image.png

image.png

image.png


算法评测

我们选取了三个权威的公开模型编辑benchmark来评测我们的DAFNet和baseline模型。数据集的指标也是衡量编辑模型的通用指标,包括可靠性、泛化性和局部性。我们一共设置了四种不同的编辑次数来检验编辑模型在序列编辑场景中的性能变化情况,效果如编辑模型在DAFSet数据集上的效果变化情况如下:

image.png

image.png

编辑模型在DAFSet数据集上的效果变化情况如下:

image.png

参考文献

  • Zeyu Huang, Yikang Shen, Xiaofeng Zhang, Jie Zhou, Wenge Rong, and Zhang Xiong. 2023. Transformer-patcher: One mistake worth one neuron. In ICLR.
  • Nicola De Cao, Wilker Aziz, and Ivan Titov. 2021. Editing factual knowledge in language models. In EMNLP, pages 6491–6506.
  • Qingxiu Dong, Damai Dai, Yifan Song, Jingjing Xu, Zhifang Sui, and Lei Li. 2022. Calibrating factual knowledge in pretrained language models. In EMNLP, pages 5937–5947.
  • Kevin Meng, Arnab Sen Sharma, Alex J. Andonian, Yonatan Belinkov, and David Bau. 2023. Mass editing memory in a transformer. In ICLR.
  • Eric Mitchell, Charles Lin, Antoine Bosselut, Chelsea Finn, and Christopher D. Manning. 2022a. Fast model editing at scale. In ICLR.
  • Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D. Manning, and Chelsea Finn. 2022b. Memory based model editing at scale. In ICML, pages 15817–15831
  • Derek Tam, Anisha Mascarenhas, Shiyue Zhang, Sarah Kwan, Mohit Bansal, and Colin Raffel. 2023. Evaluating the factual consistency of large language models through news summarization. In ACL, pages 5220–5255.


论文信息

论文名字:DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models

论文作者:张涛林,陈颀周,李东阳,汪诚愚,何晓丰,黄龙涛,薛晖,黄俊

论文pdf链接:https://arxiv.org/abs/2405.20588


阿里云人工智能平台PAI长期招聘研究实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态AIGC大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
数据采集 人工智能 大数据
演讲实录:中小企业如何快速构建AI应用?
AI时代飞速发展,大模型和AI的应用创新不断涌现,面对百花齐放的AI模型,阿里云计算平台大数据AI解决方案总监魏博文分享如何通过阿里云提供的大数据AI一体化平台,解决企业开发难、部署繁、成本高等一系列问题,让中小企业快速搭建AI应用。
|
7月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI一键云上零门槛部署DeepSeek-V3-0324、Qwen2.5-VL-32B
PAI-Model Gallery 集成国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域,用户可以通过 PAI 以零代码方式实现从训练到部署再到推理的全过程,获得更快、更高效、更便捷的 AI 开发和应用体验。 现阿里云PAI-Model Gallery已同步接入DeepSeek-V3-0324、Qwen2.5-VL-32B-Instruct两大新模型,提供企业级部署方案。
|
7月前
|
机器学习/深度学习 人工智能 边缘计算
DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen2.5 是阿里云人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路,DistilQwen2.5各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。这一系列模型在移动设备、边缘计算等资源受限的环境中具有更高的性能,在较小参数规模下,显著降低了所需的计算资源和推理时长。阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对 DistilQwen2.5 模型系列提供了全面的技术支持。本文详细介绍在 PAI 平台使用 DistilQwen2.5 蒸馏小模型的全链路最佳实践。
|
机器学习/深度学习 人工智能 运维
[ICLR2024]基于对比稀疏扰动技术的时间序列解释框架ContraLSP
《Explaining Time Series via Contrastive and Locally Sparse Perturbations》被机器学习领域顶会ICLR 2024接收。该论文提出了一种创新的基于扰动技术的时间序列解释框架ContraLSP,该框架主要包含一个学习反事实扰动的目标函数和一个平滑条件下稀疏门结构的压缩器。论文在白盒时序预测,黑盒时序分类等仿真数据,和一个真实时序数据集分类任务中进行了实验,ContraLSP在解释性能上超越了SOTA模型,显著提升了时间序列数据解释的质量。
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
【NeurIPS'24】阿里云 PAI 团队论文被收录为 Spotlight,并完成主题演讲分享
12月10日,NeurIPS 2024在温哥华开幕,阿里云PAI团队论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》入选Spotlight,PAI团队还进行了“可信AI的技术解读与最佳实践”主题演讲,展示AI工程化平台产品能力。
|
机器学习/深度学习 人工智能 自然语言处理
【ACL2024】基于长尾检索知识增强的大语言模型
近日,阿里云人工智能平台PAI与阿里集团安全部内容安全算法团队、华东师范大学何晓丰教授团队合作,在自然语言处理顶级会议ACL2024上发表论文《On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models》,论文主题为长尾知识检索增强的大语言模型。通过将问题识别为普通可回答和长尾两种性质,让大模型针对性的对长尾问题进行检索文档增强。对于普通可回答的用户提问可以直接通过大模型回答,而不需要进行文档检索增强,从而能增强大模型处理不同类型用户提问的效率。
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】面向长文本的文视频表征学习与检索模型 VideoCLIP-XL
阿里云人工智能平台 PAI 与华南理工大学金连文教授团队合作,在自然语言处理顶会 EMNLP 2024 上发表论文《VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models》。VideoCLIP-XL 模型,有效地提升了对视频的长文本描述的理解能力。
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024
阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。
|
机器学习/深度学习 人工智能 算法
【MM2024】面向 StableDiffusion 的多目标图像编辑算法 VICTORIA
阿里云人工智能平台 PAI 团队与华南理工大学合作在国际多媒体顶级会议 ACM MM2024 上发表 VICTORIA 算法,这是一种面向 StableDiffusion 的多目标图像编辑算法。VICTORIA 通过文本依存关系来修正图像编辑过程中的交叉注意力图,从而确保关系对象的一致性,支持用户通过修改描述性提示一次性编辑多个目标。

热门文章

最新文章