今天给大家介绍的是清华大学曾坚阳教授课题组在Nature Machine Intelligence杂志上发表的一篇关于生物医学关系抽取的文章。在文中,作者提出了一种从大规模文献库中自动提取生物医学关系的机器学习框架—BERE。BERE使用混合编码网络从语义和句法两个方面更好地表示每个句子,并在考虑所有相关语句后使用特征聚合网络进行预测。更重要的是,BERE也可以通过远程监督技术在没有任何人工标注的情况下进行训练。
1
介绍
生物医学研究者最关心的信息一般分为三种类型:生物医学实体、关系(实体之间的交互或关联)和事件(至少与一个实体相关的重要事实或发现)。在这篇文章中,作者主要关注第二种类型——生物医学实体关系。
在关系标注文本的监督下,BioRE任务通常被表述为一组句子中实体之间生物医学关系的分类。然而,收集这样的标注文本数据往往是费力的。为了缓解这个问题,远程监督被提出来拓展标注数据集。在远程监督中,所有提及同一对实体的句子都用某个知识库中报告的关系事实进行标记。
近年来,基于神经网络的关系抽取模型已成为一种从非结构化文本中自动提取实体关系的流行工具。这些方法通常使用基于卷积神经网络(CNNs)或递归神经网络的模型(RNNs)学习每个句子的语义表征,但往往忽略句子的句法特征。相比之下,基于递归神经网络(RvNNs)的模型,通过基于句子结构的解析树(即将单词组织成嵌套短语的组成结构),自下而上递归地传播信息,显式地对句法特征建模,取得了比其他方法更好的预测结果。与显式编码解析树的递归模型不同,潜在树学习的目的是通过学习如何在间接监督下,从下游任务的预测结果中对句子进行解析,从而隐式地理解句子结构。这种方法在自然语言处理和情感分析任务中取得了巨大的成功。此外,自注意力机制最近在图像识别和机器翻译领域得到了很大的应用,这主要是因为它在捕获远程依赖方面具有优势。总体而言,潜在树学习和自注意力机制都适合捕捉句子中的句法信息和长期依赖关系。然而,尽管这两种技术都有优点,但它们在过去很少被用于关系抽取任务。
受上述观察的启发,作者提出了一个新的机器学习框架—BERE,用于自动提取大规模生物医学文献库中的生物医学实体关系。BERE运用潜在树的学习和自注意力机制,充分挖掘句子内部的语义和句法信息,以及词语之间的短期和长期依赖关系。BERE进一步采用计分机制来评估每个句子在关系预测中的重要性。此外,BERE采用多实例学习框架和远程监控技术,极大地减轻了人工标注的工作量,扩大了训练数据,提高了预测结果。
2
模型
作者提出的BERE框架的架构如下图所示:
给定在一个句子包中共同提到的一对实体(Entity1、Entity2),BERE首先通过连接单词嵌入和词性嵌入来表示句子中的每个单词(该表示也称为词向量)。然后,每个词向量被送入一个自注意力层,以捕获长期依赖,并通过一个残差连接添加回原始词向量。接下来,BERE使用双向门控回归单元(Bi-GRU)对每个单词的局部上下文特征进行编码。其次是Gumbel Tree-GRU,它使用基于贪心的策略从所有可行方案(在图中用红色边标记)中找出最优的组合方案(在图中绿色边标记)。
3
实验
3.1对单句注释的DDI’13数据集进行测试
作者对 DDI’13数据集进行了广泛的测试,以比较BERE与其他六种最先进的DDI提取方法(SCNN, CNN-bioWE, MCCNN,联合AB-LSTM, RvNN和位置感知LSTM)的性能。下表显示了对DDI’13数据集进行DDI提取的所有方法的性能。作者提出的BERE模型的F1得分为73.9%,优于所有其他基线方法。与RvNN相比,该方法不需要任何外部解析器来构建解析树,并且兼容小批量训练。根据消融研究的结果(下表),BERE仍然产生了良好的性能,即使部分框架被删除。总的来说,消融研究进一步证明了我们框架中每个部分的有效性。
3.2对远程监督的DTI数据集进行测试
为了更好地验证BERE在远监督数据集上的有效性,我们进一步在远程监督DTI数据集上比较了BERE和其他具有代表性的基于远程监督的关系抽取方法,其中每个药物—目标关系由一大堆句子支持。结果如下图所示。与所有基线方法相比,BERE方法在大部分召回范围内的精度得分最高。总的来说,BERE产生了一个0.524的AUPRC和0.625的F1得分,比第二名分别高6.7%和4.6%。BERE比PCNN-ATT 和BiGRU-2ATT有更好的表现,说明考虑句子结构有助于关系抽取。此外,PCNN-ATT比起PCNN的性能提高,说明了在远距离监督关系提取中使用基于注意力的句子聚合策略的优点。BiGRU-2ATT比起BiGRU-ATT有更高的分类性能也证明了在关系抽取任务中词级别的注意力的有效性。
4
结论
在这项工作中,作者提出了BERE,一个新的机器学习框架,自动从大量的非结构化文献中提取生物医学关系。通过使用隐树学习方法对句子进行解析,通过Bi-GRU和self-attention机制捕获短期和长期的依赖关系,并将实体的局部上下文特征纳入到句子编码中,BERE可以从语义和句法两个方面充分利用句子信息。虽然这种混合特征表示方法可能会增加模型的复杂性,但其造成的开销增加了训练时间。BERE经过良好的训练后,用户可以使用它从大量文献中中快速提取出对应的关系。总的来说,作者通过对现有的单句注释DDI数据集、提出远距监督DTI数据集和识别潜在药物靶标相互作用的案例研究的广泛测试,证明了BERE在生物医学关系提取方面有良好性能。