今天为大家介绍的是马萨诸塞大学阿默斯特分校Trapit Bansal等学者和谷歌研究院合作在AAAI2020上发表的一篇关于实体链接和关系抽取的文章。虽然关系提取通常可以用现成的弱的或远距离的监督来训练,但实体链接器通常需要昂贵的mention级别的监督—这在许多领域是不可用的。因此作者提出了一个模型SNERL,该模型经过训练,可以同时产生实体链接和关系决策,而不需要mention级别的注释。这种方法避免了由管道方法引起的级联错误,并且更准确地预测了文本中的实体关系。
1
介绍
在像生物医学和临床治疗这样的领域做出复杂的决定,需要以一种能够被专家容易地看到并且可以通过推理算法计算的形式访问信息和事实。存储此类数据的主要范式是在知识图中。
这些事实中的大部分都是由人类专家手工整理的,不可避免地导致了高度的不完整性。为了解决这个问题,研究人员已经集中于通过直接从文本中提取信息来自动构建知识库。这个过程可以分为三个主要部分:识别文本中实体的提及、将提到的同一实体连接在一起成为一个规范的概念和标识这些实体之间发生的关系。
这三个阶段几乎总是被当作提取管道中单独的串行组件,而目前最先进的方法为每个组件训练单独的机器学习模型,每个组件都有自己独特的训练数据。更准确地说,这些数据是由mention级别的监督组成,即在文本中识别和标定的实体和关系的个体实例。这类数据的获取成本可能高得令人望而却步,特别是在像生物医学这样需要专家知识来理解和注释相关信息的领域。
与此相反,远程监督的形式很容易在现有知识库的数据库条目中获得。这种类型的信息编码关于实体及其关系的全局属性,而不标识那些事实的特定文本实例。这种远程监督形式已成功地应用于关系抽取模型中。然而,所有这些方法仍然消耗实体链接决策作为预处理步骤,不幸的是,精确的实体链接器和需要培训它们的mention级别的监督在许多领域并不存在。
在这项工作中,作者开发了一种方法来同时链接文本中的实体并提取它们的关系。作者提出的模型SNERL可以利用现有知识库内可用的资源进行训练,而不需要任何mention级别的监督。
2
方法
模型SNERL的架构如下图所示:
模型的输入是一篇文章的完整标题和摘要,输出是文本中表示的实体和关系的预测图。首先使用自我注意对文本进行编码,以获得输入中提到的每个实体的上下文化表示。然后,这些上下文化的表示被用来预测在mention级别的实体上的分布和mention-pair级别的关系上的分布。这些预测的可能性对于每个mention-pair而组合,并且在document-level池化来得到预测文本元组 的最终可能性。
3
实验
作者的实验设置是,对于每个测试文档(标题和摘要),模型应该预测在该文档中表达的实体关系的完整图。因此,作者通过微平均精度、召回率和F1来预测整个跨文档的注释关系元组集。
为了说明先预测实体链接再预测关系的流水线方法的级联错误如何降低性能,作者在CTD的开发集上计算了元组预测任务的oracle召回。作者考虑了三种实体链接的方法:预测最优候选实体(基于从候选生成的字符串相似度评分),可以从25个最优候选实体中选择正确实体(如果存在)的oracle,以及BRAN使用的经过训练的实体链接模型。下表展示了结果:
从上表可以看到,实体链接步骤中的错误极大地限制了管道方法中的模型性能。另一方面,如果模型能够结合关系推断出实体链接(从前25个候选链接中),则可以改善级联错误的问题,可能会导致更高的召回率。
完整CTD数据的结果如下表所示:
从上图可以看到,同时考虑实体和关系的SNERL模型的性能显著优于采用外部模型的硬链接决策的模型。这主要是由于级联错误导致召回率大幅下降。
使用BRAN过滤的CTD数据的结果如下表所示:
2018年作者曾提出过使用原始滤波的方法,重要的是,这种方法给BRAN(链接器)基准带来了实质性的优势,因为数据被过滤,只考虑可能做出预测的关系。从上图可以看到,尽管存在这一缺点,SNERL模型的表现与BRAN(链接器)基准相当。
为了评估SNERL模型的成功在多大程度上归功于实体链接成分,作者在2015年提出的CDR数据集上测试了SNERL模型的性能。结果如下表所示:
从上图可以看出,作者提出的SNERL模型比Top Candidate链接实体性能要更好。
为了进一步研究SNERL模型的性能,作者创建了一个疾病/表型(即症状)关系的数据集。这里的目标是识别疾病引起的特定症状。疾病表型数据测试结果如下图所示:
从上图可以看出,疾病表型结果显示了与CTD实验相似的趋势。总的来说,BRAN模型的表现最差,SNERL模型优于两种使用硬实体链接决策的模型。
4
结果
本文提出了一种同时预测实体链接和实体关系决策的新方法SNERL。SNERL可以在不需要任何实体或关系的mention级别监督的情况下进行训练,而仅仅依赖于文档层面弱的和远程的监督,这在许多生物医学知识库中都很容易获得。与通过避免级联错误的最好的管道关系提取方法相比,SNERL模型表现良好,且所需求的标注更廉价,为低资源和标注昂贵的域的知识提取提供了可能性。