【论文精读】AAAI 2022 - Unified Named Entity Recognition as Word-Word Relation Classification

简介: 到目前为止,命名实体识别(NER)已经涉及三种主要类型,包括扁平、重叠(又名嵌套)和不连续NER,它们大多是单独研究的。

【论文精读】AAAI 2022 - 统一的命名实体识别作为词与词之间的关系分类


【论文原文】:Unified Named Entity Recognition as Word-Word Relation Classification


【作者信息】:Li, Jingye and Fei, Hao and Liu, Jiang and Wu, Shengqiong and Zhang, Meishan and Teng, Chong and Ji, Donghong and Li, Fei


论文:https://arxiv.org/pdf/2112.10070.pdf
代码:https://github.com/ljynlp/W2NER


博主关键词:命名实体识别,关系分类


推荐论文:CasRel,TPLinker


摘要


到目前为止,命名实体识别(NER)已经涉及三种主要类型,包括扁平、重叠(又名嵌套)和不连续NER,它们大多是单独研究的。最近,人们对统一的NER越来越感兴趣,用一个单一的模式同时处理上述三个工作。目前性能最好的方法主要包括基于跨度的和seq2seq的模型,不幸的是,前者仅专注于边界识别,而后者可能存在暴露偏差。在这项工作中,我们通过将统一的NER建模为单词-单词关系分类,提出了一种新的替代方法,即W2NER。该体系结构通过有效地建模具有Next-Neighboring-Word(NNW)和Tail-Head_word-*(THW-*)关系的实体词之间的相邻关系,解决了统一NER的核心瓶颈。基于W2NER方案,我们开发了一个神经网络框架,其中统一的NER被建模为单词对的2D网格。然后,我们提出了多粒度2D卷积,以更好地细化网格表示。最后,使用共同预测器来充分推理单词之间的关系。我们在14个广泛使用的基准数据集上进行了广泛的实验,用于扁平、重叠和不连续的NER(8个英文数据集和6个中文数据集),其中我们的模型击败了所有当前表现最好的基线,推动了统一NER的最先进性能。


1、简介


命名实体识别(NER)长期以来一直是自然语言处理(NLP)社区的一项基本任务,因为它具有广泛的基于知识的应用,例如关系提取(Wei et al 2020; Li et al 2021b)、实体链接(Le and Titov 2018; Hou et al 2020)等。命名实体识别的研究最初是从扁平的NER逐渐演变而来的(Lample et al 2016; Strubell et al 2017),晚至重叠NER (Yu et al 2020; Shen et al 2021),最近至不连续NER。(Dai et al 2020; Li et al 2021a)。具体来说,扁平NER只是从文本中检测提及跨度及其语义类别,然而在重叠NER的不连续NER中的问题变得更加复杂,重叠实体包含相同的token,不连续实体需要不相邻的跨度,如图1所示。


d68f6d3afea64db48274100c10fa40e0.png


以前的多类型NER方法可以大致分为四大类:1)序列标记,2)基于超图的方法,3)Seq2Seq的方法和4)基于跨度的方法。大多数初始工作将NER形式化为序列标记问题(Lample et al 2016; Zheng et al 2019; Tang et al 2018; Straková et al 2019),为每个token分配一个标签。然而,很难为所有NER子任务设计一个标记方案。然后,提出了基于超图的模型(Lu and Roth 2015; Wang and Lu 2018; Katiyar and Cardie 2018)来表示所有实体跨度,然而,在推理过程中,这些实体跨度同时存在虚假结构和结构模糊问题。最近,Yan等人(2021)提出了一种序列-序列(Seq2Seq)模型来直接生成各种实体,但不幸的是,该模型可能存在解码效率问题以及Seq2Sq体系结构的某些常见缺陷,例如暴露偏差。基于跨度的方法是统一净入学率的另一种最先进的方法,列举了所有可能的跨度并进行跨度级分类。然而,由于枚举的性质,基于跨度的模型(Luan et al 2019; Li et al 2021a)可能受到最大跨度长度的影响,并导致相当大的模型复杂性。因此,设计一个有效的统一NER系统仍然具有挑战性。


大多数现有的工作主要集中在如何准确识别实体边界,即NER的核心问题,尤其是扁平边界 (Straková et al 2019; Fei et al 2021)。然而,在仔细反思这三种类型的NER的共同特征后,我们发现统一NER的瓶颈更多地在于实体词之间相邻关系的建模。这种邻接相关性本质上描述了部分文本片段之间的语义连接,尤其是对于重叠和不连续的文本片段起着关键作用。如图1(a)所示,由于其组成词都是自然相邻的,因此很容易检测到“aching in legs”这一扁平的提及。但是,要检测出“aching in shoulders”这一不连续实体,有效地捕捉“aching in”和“shoulders”相邻片段之间的语义关系是必不可少的。


在上述观察的基础上,我们在本文中研究了一种新的词-词关系分类体系结构的统一NER形式,即W2NER。我们的方法通过有效地建模实体边界识别以及实体词之间的相邻关系来解决统一的NER。具体而言,W2NER对两种类型的关系进行预测,包括Next-Neighboring-Word(NNW)和Tail-Head-Word-*(THW-*),如图1(b)所示。NNW关系处理实体词标识,指示两个论元词在一个实体中是否相邻(例如 aching→in),而THW-*关系说明了实体边界和类型检测,揭示了两个论元词是否分别是“*”实体的尾部和头部边界(例如,legs→aching、Symptom)。


在W2NER方案的基础上,我们进一步提出了统一NER的神经框架(参见图3)。首先,BERT(Devlin et al 2019)和BiLSTM(Lample et al 2016)用于提供上下文的单词表示,在此基础上,我们为单词对构建了二维(2D)网格。然后,我们设计了多粒度的2D卷积来细化词对表示,有效地捕捉了近词对和远词对之间的交互。共同预测器最终对单词-单词关系进行推理,并产生所有可能的实体提及,其中biaffine和多层感知器(MLP)分类器被联合使用以获得互补的好处。


我们在14个数据集上进行了广泛的实验,从2个英文和4个中文数据集到扁平NER,3个英文和2个中文数据集中到重叠NER;3个英文数据集到不连续NER。与扁平NER的12个基线、重叠NER的7个基线、不连续NER的7个基线相比,我们的模型在所有数据集上都取得了最好的性能,成为统一NER新的SoTA方法。我们的贡献包括:


  • 我们提出了一种创新的方法来铸造统一的NER作为词与词之间的关系分类,其中充分考虑了实体的边界词和内部词之间的关系。


  • 我们为统一NER开发了一个神经框架,在该框架中,我们新提出了一种多粒度2D卷积方法,用于充分捕捉近词和远词之间的相互作用。


  • 我们的模型在总共14个数据集上推动了NER的当前SoTA性能。


2、NER作为词之间关系分类


扁平、重叠、不连续的NER可以形式化为:给定一个由N 个token或单词X = { x 1 , x 2 , … , x N } 组成的输入句子,该任务旨在提取每个token对( x i , x j ) 之间的关系R ,其中R 是预定义的,包括NONE、Next-Neighboring-Word(NNW)和Tail-Head-Word-*(THW-*)。这些关系可以解释如下,为了更好地理解,我们还举了一个如图2所示的例子。


  • NONE,表示该词对没有本文中定义的任何关系。


  • Next-Neighboring-Word:NNW关系表示单词对属于实体提及,并且网格的某行中的单词在网格的某列中有一个连续的单词。


  • Tail-Head-Word-*:THW关系表示网格中某行的单词是实体提及的词尾,网格中某列的单词是主体提及的词头。“*”表示实体类型。


928e221dc8db461d8d8f758e50980b1f.png


通过这样的设计,我们的框架能够同时识别扁平、重叠和不连续的实体。如图2所示,很容易就能通过NNW关系(aching→in),(in→legs),(in→shoulders)和THW关系(legs→aching, Symptom),(shoulders→aching, Symptom),解码出两个实体“aching in legs”和“aching in shoulders”。此外,NNW和THW关系暗示了NER的其他影响。例如,NNW关系将同一不连续实体的片段(例如,“aching in”和“shoulders”)相关联,它们也有利于识别实体词(相邻)和非实体词(非相邻)。THW关系有助于确定实体的边界,这在最近的NER研究中发挥了重要作用 (Zheng et al 2019; Fei et al 2021; Shen et al 2021)。


3、统一的命名实体识别框架


我们的框架的体系结构如图3所示,它主要由三个组件组成。首先,广泛使用的预训练语言模型BERT(Devlin et al 2019)和双向LSTM(Lample et al 2016)被用作编码器,以从输入句子中产生上下文的单词表示。然后使用卷积层来构建和细化单词对网格的表示,用于以后的单词-单词关系分类。之后,利用包含biaffine分类器和多层感知器的共同预测层(Li et al 2021b)来联合推理所有单词对之间的关系。


894c2ff0beb44573ac50ea16fb031889.png


3.1 编码层


image.png


3.2 卷积层


我们采用卷积神经网络(CNNs)作为表示细化器,因为CNNs自然适用于网格上的2D卷积,并且在处理关系描述工作方面也表现出非常突出的作用(Zeng et al 2014; Wanget al 2016)。我们的卷积层包括三个模块,包括一个具有条件层标准化(Liu et al ,2021),用于生成文字网格的表示,一个BERT样式的网格表示构建,用于丰富文字网格的表达,以及一个多粒度空洞卷积,用于捕获近距离单词之间的交互。


3.2.1 条件层标准化(CLN)


image.png


3.2.2 BERT样式网格表示构建


image.png


3.2.3 多粒度空洞卷积

受TextCNN(Kim 2014)的启发,我们采用了具有不同空洞率l (例如,l ∈ [ 1 , 2 , 3 ] 的多个二维空洞卷积(DConv)来捕捉不同距离的单词之间的相互作用,因为我们的模型是预测这些单词之间的关系。一个空洞卷积中的计算可以公式化为:


image.png


3.3 共同预测层


在卷积层之后,我们获得单词对网格表示Q,用于使用MLP预测每对单词之间的关系。然而,先前的工作(Li et al 2021b)已经表明,MLP预测器可以通过与biaffine预测器合作进行关系分类来增强。因此,我们将这两个预测因子同时用于计算单词对( x i , x j )的两个单独的关系分布,并将它们合并为最终预测。


3.3.1 Biaffine预测器


image.png


3.3.2 MLP预测器


image.png


3.4 解码器


我们模型的预测是单词及其关系,可以认为是一个有方向的单词图。解码的目的是利用NNW关系在图中找到从一个词到另一个词的特定路径。每个路径对应一个实体提及。除了NER的类型和边界识别外,THW关系还可以用作消歧的辅助信息。图4说明了从容易到困难的四种解码情况。


a4527bf1f94848e3b365986fea73aaf6.png


  • 在示例(a)中,两条路径“A→B”和“D→E”对应于扁平实体,THW关系表示它们的边界和类型。


  • 在示例(b)中,如果没有THW关系,我们只能找到一条路径,因此缺少“BC”。相比之下,借助THW关系,很容易识别出“BC”嵌套在“ABC”中,这表明了THW关系的必要性。


  • 案例(c)展示了如何识别不连续的实体。两条路径“A→B→C”和“A→B→D”可以找到,并且NNW关系有助于连接不连续跨度“AB”和“D”。


  • 考虑到一个复杂而罕见的情况(d),不可能解码正确的实体“ACD”和“BCE”,因为我们可以在这种不明确的情况下只使用NNW关系找到4条路径。相反,只有使用THW关系才能识别连续实体(例如,“ABCD”),而不是正确的不连续实体(如,“ACD”)。因此,我们可以通过协作使用这两种关系来获得正确的答案。


3.5 学习


image.png


4、实验


e4b26399b2c34f46866d2b46d27a0415.png

f8f48e7bfc194d098cef08714749150a.png

c3edd9d8d3144fa6b8801c0b277d4c50.png


f8c1f71c02134b7ebfc77ca65ba1b611.png

6e2bb49d175445d69fbfab6a9f63ce4a.png

b944b224d75d4f0c9ed84e97be0ac338.png



消融实验:


1b5aeac9a83649f1b5ce4da2d4313ad9.png


5、总结


在本文中,我们提出了一种新的基于单词-单词关系分类的统一NER框架,以同时处理统一的NER。单词对之间的关系被预定义为下一个相邻单词关系和尾首词关系。我们发现,我们的框架对各种NER非常有效,它在14个广泛使用的基准数据集上实现了SoTA性能。此外,我们提出了一种新的骨干模型,该模型由BERT-BiLSTM编码器层、用于构建和细化词对网格表示的卷积层以及用于联合推理关系的共同预测器层组成。通过消融研究,我们发现我们的以卷积为中心的模型表现良好,并且提出的几个模块,如共同预测器和网格表示富集也是有效的。我们的框架和模型易于遵循,这将促进NER研究的发展。


【论文速递 | 精选】


fcc8fa9f87404652beb9e08a0ac9652d.png


坛地址:https://bbs.csdn.net/forums/paper


最近工作

目录
相关文章
|
4月前
|
存储 算法 计算机视觉
【博士每天一篇文献-模型】Meta-Learning Based Tasks Similarity Representation for Cross Domain Lifelong Learning
本文提出了一种基于元学习的跨域终身学习框架,通过跨域三元组网络(CDTN)学习任务间的相似性表示,并结合自注意模块与软注意网络(SAN)来增强特征提取和任务权重分配,以提高学习效率并减少对先前知识的遗忘。
49 1
【博士每天一篇文献-模型】Meta-Learning Based Tasks Similarity Representation for Cross Domain Lifelong Learning
|
7月前
|
机器学习/深度学习 自然语言处理 ice
[GloVe]论文实现:GloVe: Global Vectors for Word Representation*
[GloVe]论文实现:GloVe: Global Vectors for Word Representation*
52 2
[GloVe]论文实现:GloVe: Global Vectors for Word Representation*
|
7月前
|
算法 TensorFlow 算法框架/工具
[FastText in Word Representations]论文实现:Enriching Word Vectors with Subword Information*
[FastText in Word Representations]论文实现:Enriching Word Vectors with Subword Information*
38 2
|
7月前
|
机器学习/深度学习 数据挖掘 API
[FastText in Text Classification]论文实现:Bag of Tricks for Efficient Text Classification
[FastText in Text Classification]论文实现:Bag of Tricks for Efficient Text Classification
40 2
|
7月前
|
自然语言处理 算法 Python
[SentencePiece]论文解读:SentencePiece: A simple and language independent subword tokenizer...
[SentencePiece]论文解读:SentencePiece: A simple and language independent subword tokenizer...
88 0
|
人工智能 自然语言处理 算法
【论文精读】AAAI 2022 - OneRel Joint Entity and Relation Extraction with One Module in One Step
联合实体和关系提取是自然语言处理和知识图构建中的一项重要任务。现有的方法通常将联合提取任务分解为几个基本模块或处理步骤,以使其易于执行
216 0
|
机器学习/深度学习 自然语言处理
【论文精读】COLING 2022 - DESED: Dialogue-based Explanation for Sentence-level Event Detection
最近许多句子级事件检测的工作都集中在丰富句子语义上,例如通过多任务或基于提示的学习。尽管效果非常好,但这些方法通常依赖于标签广泛的人工标注
95 0
|
机器学习/深度学习 编解码 数据可视化
Speech Emotion Recognition With Local-Global aware Deep Representation Learning论文解读
语音情感识别(SER)通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。
143 0
|
存储 自然语言处理 测试技术
LASS: Joint Language Semantic and Structure Embedding for Knowledge Graph Completion 论文解读
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
132 0
|
数据可视化 数据挖掘
【论文解读】Dual Contrastive Learning:Text Classification via Label-Aware Data Augmentation
北航出了一篇比较有意思的文章,使用标签感知的数据增强方式,将对比学习放置在有监督的环境中 ,下游任务为多类文本分类,在低资源环境中进行实验取得了不错的效果
420 0