【提示学习】HPT: Hierarchy-aware Prompt Tuning for Hierarchical Text Classification

简介: 本文是较早把Prompt应用到层级多标签文本分类领域的论文。思路是把层级标签分层编入到Pattern中,然后修改损失函数以适应多标签的分类任务。

阅读摘要


 本文是较早把Prompt应用到层级多标签文本分类领域的论文。思路是把层级标签分层编入到Pattern中,然后修改损失函数以适应多标签的分类任务。


[0] 摘要


 作者在描述创新点和思路时,主要抓住gap这个词:


 1、使用预训练语言模型PLM微调做层级多标签文本分类的常规方法,与掩模语言模型(MLM)预训练任务之间存在巨大差距,所以要把分类任务移植为MLM的形式,来弥补差距。


 2、MLM任务是多分类任务,层级多标签分类是多标签分类任务,两者的损失函数不一样,存在差距。


 作者思路就是弥补上述两个差距。


[1] 介绍


 层次文本分类HTC是一个多标签文本分类问题,分类结果对应于层次结构的一条或多条路径。



  上图中,(a)表示传统PLM解决HTC的模型结构,文本直接输入PLM里面去编码,层级标签信息会建模成树型或图型结构(通常是GAT,即图注意力网络)。


【注】由于文本编码模型这块已经有点饱和了,所以你可以看到现在好多硕士论文都在探索“标签相关性”的概念,这个概念就会与GAT或者图有关。


 尽管Fine tuning取得了成功,但GPT3的问世引起了大家对Prompt Learning的思考:Fine tuning可能限制了微调模型充分利用PLM中的知识。因此要使用Prompt,弥合PLM的下游任务和预训练任务之间的差距,从而充分挖掘PLM的潜力。


 当使用Prompt Learning(或者说MLM任务)解决HTC任务时,就会产生两个问题:


 1、掩模语言模型(MLM)的标签是平面的,HTC的层次结构标签怎么拓展到MLM任务上。


 2、MLM任务是多分类任务,层级多标签分类是多标签分类任务,如何设置损失函数。


 如上图中(b),作者把层级信息注入到MLM任务的Soft Pattern中,以解决问题1;使用零界多标签交叉熵损失解决问题2。


[2] 相关工作


[2.1] HTC


 根据使用标签层次结构的方式,HTC的现有工作可以分为局部方法和全局方法:局部方法为每个节点或级别构建分类器,而全局方法仅为整个图构建一个分类器。


 早期的全局方法忽略了标签的层次结构,并将问题视为扁平的多标签分类。后来,一些研究尝试通过元学习、强化学习和注意力模块来合并标签结构。虽然这些方法可以捕获分层信息,但通过结构编码器直接编码整体标签结构可以进一步提高性能。


[2.2] Prompt tuning


 主要介绍了Hard Prompt和Soft Prompt。


[4] 方法


 介绍了两点:怎么把树形标签结构过渡到MLM任务中;怎么解决多标签文本分类的损失。



【注】如上图:


  part 1是模板,可以看到在常规文本输入之后,还拼接了一些特殊的伪标签;


  part 2是分层感知提示模块,标签树的每一层都做一个标记ti ,放入模板中,ti后面还跟了e [ P R E D ] 来预测这个标记,经过MLM模型后,标记ti 只会预测对应层级的标签,文中称之为层级约束Hierarchy Constraint;


  part 3是MLM任务的损失,许多Prompt Text Classification论文里面又称为auxiliary loss,其实是BERT会对输入随机mask掉15%后计算的损失,它和我们计算分类的损失可以认为是独立的,互不干扰;


  part 4是层级分类的损失函数,论文中没有使用常规的多标签分类损失BCELoss,而是提出了Zero-bounded Multi-label Cross Entropy Loss。


[4.1] 分层感知提示


 层级约束


 为了合并标签层次结构,提出分层提示。由于标签层次结构是树状结构,因此基于层次结构的深度来构造模板。


 给定一个预定义的标签层次yh = (Y, E),深度为L,输入文本为x,则模板为[CLS] x [SEP] [V1] [PRED] [V2] [PRED]…”[vl] [pred] [sep]。特殊的[PRED]令牌进行标签预测,表示多标签预测。


 对于verbalizer,为每个标签yi创建一个可学习的虚拟标签单词vi,并通过对其对应标记的平均嵌入来初始化其嵌入vi。如图2中绿色部分所示,不预测一个槽中的所有标签,而是根据标签的层将标签分成不同的组,并约束[PRED]只预测一个层上的标签。为此,每个模板词[Vi]后面跟着一个[PRED]标记,用于第i层的预测。


 层级注入


 层级约束只引入了标签的深度,但缺乏它们的连通性与层级结构。为了解决标签层次的连通性问题,文章提出层级注入。


 如part 2的蓝色部分,作者使用GAT来编码标签信息,并把层级信息注入到输入的模板中。


[4.2] 零界多标签交叉熵损失


 首先MLM任务是多类别分类,单标签分类,使用的是交叉熵损失,并不适用我们的层级多标签分类。


 常规的层级多标签分类使用的是二元交叉熵损失(BCELoss),但是作者说BCE忽略了标签之间的相关性,为了弥合这种多标签和多类别的差距,在本文中,我们期望所有目标标签的分数大于所有非目标标签的分数,而不是单独计算每个标签的分数。


 在论文中,作者提出了两种损失函数:多标签交叉熵损失(MLCE)和零边界多标签交叉熵损失(ZMLCE)。


 多标签交叉熵损失如下:



 其中Np表示目标标签集合,Nn表示非目标标签集合,yi是每个标签的sigmoid之后的概率。损失函数的目标是最大化目标标签的得分与非目标标签的得分之间的差距。然而,在实际推断过程中,上面的公式没法算。


 为了解决这个问题,引入了一个常数得分为0的锚定标签,并希望目标标签和非目标标签的得分都大于和小于0。这样,他们提出了零边界多标签交叉熵损失:


它由两部分组成:第一部分是目标标签的得分,第二部分是非目标标签的得分。这样就很容易计算了。但是这个损失只是一层的损失,最后要求和。





image.png

相关文章
|
6月前
|
存储 JSON 算法
【论文代码】②.1 STIOCS: Active learning-based semi-supervised training framework for IOC extraction
【论文代码】②.1 STIOCS: Active learning-based semi-supervised training framework for IOC extraction
34 0
|
数据挖掘
【提示学习】Automatic Multi-Label Prompting: Simple and Interpretable Few-Shot Classification
文章提出了一种简单确高效地构建verbalization的方法:
|
自然语言处理 算法
SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model
在社交媒体上,面临着大量的知识和信息,一个有效的关键词抽取算法可以广泛地被应用的信息检索和自然语言处理中。传统的关键词抽取算法很难使用外部的知识信息。
156 0
SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
175 0
|
6月前
|
自然语言处理
【论文代码】① STIOCS: Active learning-based semi-supervised training framework for IOC extraction
【论文代码】① STIOCS: Active learning-based semi-supervised training framework for IOC extraction
44 0
|
自然语言处理 数据挖掘 数据处理
【提示学习】Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
目前流行的第四大范式Prompt的主流思路是PVP,即Pattern-Verbalizer-Pair,主打的就是Pattern(模板)与Verbalizer(标签映射器)。   本文基于PVP,提出PET与iPET,但是关注点在利用半监督扩充自己的数据集,让最终模型学习很多样本,从而达到好效果。
107 0
|
数据挖掘
【提示学习】Prompt Tuning for Multi-Label Text Classification: How to Link Exercises to Knowledge Concept
文章这里使用的是BCEWithLogitsLoss,它适用于多标签分类。即:把[MASK]位置预测到的词表的值进行sigmoid,取指定阈值以上的标签,然后算损失。
|
自然语言处理 数据挖掘 知识图谱
【提示学习】Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classific
目前流行的第四大范式Prompt的主流思路是PVP,即Pattern-Verbalizer-Pair,主打的就是Pattern(模板)与Verbalizer(标签映射器)。   本文是在Verbalizer(标签映射器)方面做出的创新。   文章思路是数据增强+去噪,不过数据增强在于verbalizer对于label space至expanding word space的映射,引入外部的扩展标签词集,辅助分类,去噪并不新颖,就是在细化两个场景,zeroshot滤掉扩展标签词集的低频词,并上下文校验。fewshot则是引入可学习权值,减小噪声影响。
152 0
|
存储 自然语言处理 测试技术
LASS: Joint Language Semantic and Structure Embedding for Knowledge Graph Completion 论文解读
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
125 0
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
145 0