Nat. Mach. Intell. | 生物医学关系抽取的机器学习新框架

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
公网NAT网关,每月750个小时 15CU
全局流量管理 GTM,标准版 1个月
简介: Nat. Mach. Intell. | 生物医学关系抽取的机器学习新框架

image.png

今天给大家介绍的是清华大学曾坚阳教授课题组在Nature Machine Intelligence杂志上发表的一篇关于生物医学关系抽取的文章。在文中,作者提出了一种从大规模文献库中自动提取生物医学关系的机器学习框架—BERE。BERE使用混合编码网络从语义和句法两个方面更好地表示每个句子,并在考虑所有相关语句后使用特征聚合网络进行预测。更重要的是,BERE也可以通过远程监督技术在没有任何人工标注的情况下进行训练。


1


介绍


生物医学研究者最关心的信息一般分为三种类型:生物医学实体、关系(实体之间的交互或关联)和事件(至少与一个实体相关的重要事实或发现)。在这篇文章中,作者主要关注第二种类型——生物医学实体关系。


在关系标注文本的监督下,BioRE任务通常被表述为一组句子中实体之间生物医学关系的分类。然而,收集这样的标注文本数据往往是费力的。为了缓解这个问题,远程监督被提出来拓展标注数据集。在远程监督中,所有提及同一对实体的句子都用某个知识库中报告的关系事实进行标记。


近年来,基于神经网络的关系抽取模型已成为一种从非结构化文本中自动提取实体关系的流行工具。这些方法通常使用基于卷积神经网络(CNNs)或递归神经网络的模型(RNNs)学习每个句子的语义表征,但往往忽略句子的句法特征。相比之下,基于递归神经网络(RvNNs)的模型,通过基于句子结构的解析树(即将单词组织成嵌套短语的组成结构),自下而上递归地传播信息,显式地对句法特征建模,取得了比其他方法更好的预测结果。与显式编码解析树的递归模型不同,潜在树学习的目的是通过学习如何在间接监督下,从下游任务的预测结果中对句子进行解析,从而隐式地理解句子结构。这种方法在自然语言处理和情感分析任务中取得了巨大的成功。此外,自注意力机制最近在图像识别和机器翻译领域得到了很大的应用,这主要是因为它在捕获远程依赖方面具有优势。总体而言,潜在树学习和自注意力机制都适合捕捉句子中的句法信息和长期依赖关系。然而,尽管这两种技术都有优点,但它们在过去很少被用于关系抽取任务。


受上述观察的启发,作者提出了一个新的机器学习框架—BERE,用于自动提取大规模生物医学文献库中的生物医学实体关系。BERE运用潜在树的学习和自注意力机制,充分挖掘句子内部的语义和句法信息,以及词语之间的短期和长期依赖关系。BERE进一步采用计分机制来评估每个句子在关系预测中的重要性。此外,BERE采用多实例学习框架和远程监控技术,极大地减轻了人工标注的工作量,扩大了训练数据,提高了预测结果。


2


模型


作者提出的BERE框架的架构如下图所示:

image.png

给定在一个句子包中共同提到的一对实体(Entity1、Entity2),BERE首先通过连接单词嵌入和词性嵌入来表示句子中的每个单词(该表示也称为词向量)。然后,每个词向量被送入一个自注意力层,以捕获长期依赖,并通过一个残差连接添加回原始词向量。接下来,BERE使用双向门控回归单元(Bi-GRU)对每个单词的局部上下文特征进行编码。其次是Gumbel Tree-GRU,它使用基于贪心的策略从所有可行方案(在图中用红色边标记)中找出最优的组合方案(在图中绿色边标记)。


3


实验


3.1对单句注释的DDI’13数据集进行测试


作者对 DDI’13数据集进行了广泛的测试,以比较BERE与其他六种最先进的DDI提取方法(SCNN, CNN-bioWE, MCCNN,联合AB-LSTM, RvNN和位置感知LSTM)的性能。下表显示了对DDI’13数据集进行DDI提取的所有方法的性能。作者提出的BERE模型的F1得分为73.9%,优于所有其他基线方法。与RvNN相比,该方法不需要任何外部解析器来构建解析树,并且兼容小批量训练。根据消融研究的结果(下表),BERE仍然产生了良好的性能,即使部分框架被删除。总的来说,消融研究进一步证明了我们框架中每个部分的有效性。

image.png

3.2对远程监督的DTI数据集进行测试


为了更好地验证BERE在远监督数据集上的有效性,我们进一步在远程监督DTI数据集上比较了BERE和其他具有代表性的基于远程监督的关系抽取方法,其中每个药物—目标关系由一大堆句子支持。结果如下图所示。与所有基线方法相比,BERE方法在大部分召回范围内的精度得分最高。总的来说,BERE产生了一个0.524的AUPRC和0.625的F1得分,比第二名分别高6.7%和4.6%。BERE比PCNN-ATT 和BiGRU-2ATT有更好的表现,说明考虑句子结构有助于关系抽取。此外,PCNN-ATT比起PCNN的性能提高,说明了在远距离监督关系提取中使用基于注意力的句子聚合策略的优点。BiGRU-2ATT比起BiGRU-ATT有更高的分类性能也证明了在关系抽取任务中词级别的注意力的有效性。

image.png

4


结论


在这项工作中,作者提出了BERE,一个新的机器学习框架,自动从大量的非结构化文献中提取生物医学关系。通过使用隐树学习方法对句子进行解析,通过Bi-GRU和self-attention机制捕获短期和长期的依赖关系,并将实体的局部上下文特征纳入到句子编码中,BERE可以从语义和句法两个方面充分利用句子信息。虽然这种混合特征表示方法可能会增加模型的复杂性,但其造成的开销增加了训练时间。BERE经过良好的训练后,用户可以使用它从大量文献中中快速提取出对应的关系。总的来说,作者通过对现有的单句注释DDI数据集、提出远距监督DTI数据集和识别潜在药物靶标相互作用的案例研究的广泛测试,证明了BERE在生物医学关系提取方面有良好性能。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
6月前
|
机器学习/深度学习 并行计算 测试技术
MLX vs MPS vs CUDA:苹果新机器学习框架的基准测试
如果你是一个Mac用户和一个深度学习爱好者,你可能希望在某些时候Mac可以处理一些重型模型。苹果刚刚发布了MLX,一个在苹果芯片上高效运行机器学习模型的框架。
311 1
|
6月前
|
机器学习/深度学习 PyTorch TensorFlow
是否有其他框架可以在iOS设备上进行机器学习?
是否有其他框架可以在iOS设备上进行机器学习?
51 1
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
171 4
|
2月前
|
机器学习/深度学习 人工智能 算法
ML.NET:一个.NET开源、免费、跨平台的机器学习框架
ML.NET:一个.NET开源、免费、跨平台的机器学习框架
|
3月前
|
机器学习/深度学习 PyTorch TensorFlow
机器学习框架调研
机器学习框架调研
38 1
|
3月前
|
机器学习/深度学习 JSON API
【Python奇迹】FastAPI框架大显神通:一键部署机器学习模型,让数据预测飞跃至Web舞台,震撼开启智能服务新纪元!
【8月更文挑战第16天】在数据驱动的时代,高效部署机器学习模型至关重要。FastAPI凭借其高性能与灵活性,成为搭建模型API的理想选择。本文详述了从环境准备、模型训练到使用FastAPI部署的全过程。首先,确保安装了Python及相关库(fastapi、uvicorn、scikit-learn)。接着,以线性回归为例,构建了一个预测房价的模型。通过定义FastAPI端点,实现了基于房屋大小预测价格的功能,并介绍了如何运行服务器及测试API。最终,用户可通过HTTP请求获取预测结果,极大地提升了模型的实用性和集成性。
238 1
|
3月前
|
机器学习/深度学习 PyTorch TensorFlow
NumPy 与机器学习框架的集成
【8月更文第30天】NumPy 是 Python 中用于科学计算的核心库之一,它提供了高效的多维数组对象,以及用于操作数组的大量函数。NumPy 的高效性和灵活性使其成为许多机器学习框架的基础。本文将探讨 NumPy 如何与 TensorFlow 和 PyTorch 等流行机器学习框架协同工作,并通过具体的代码示例来展示它们之间的交互。
53 0
|
3月前
|
机器学习/深度学习 数据采集 测试技术
利用Python实现简单的机器学习模型软件测试的艺术与科学:探索自动化测试框架的奥秘
【8月更文挑战第27天】在本文中,我们将一起探索如何通过Python编程语言创建一个简单的机器学习模型。我们将使用scikit-learn库中的线性回归模型作为示例,并通过一个实际的数据集来训练我们的模型。文章将详细解释每一步的过程,包括数据预处理、模型训练和预测结果的评估。最后,我们会用代码块展示整个过程,确保读者能够跟随步骤实践并理解每个阶段的重要性。
|
3月前
|
人工智能 物联网 异构计算
AI智能体研发之路-模型篇(一):大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用
AI智能体研发之路-模型篇(一):大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用
210 0
|
5月前
|
机器学习/深度学习 PyTorch 算法框架/工具
机器学习框架简介
【6月更文挑战第26天】机器学习框架简介。
46 5