Nat. Mach. Intell. | 生物医学关系抽取的机器学习新框架

简介: Nat. Mach. Intell. | 生物医学关系抽取的机器学习新框架

image.png

今天给大家介绍的是清华大学曾坚阳教授课题组在Nature Machine Intelligence杂志上发表的一篇关于生物医学关系抽取的文章。在文中,作者提出了一种从大规模文献库中自动提取生物医学关系的机器学习框架—BERE。BERE使用混合编码网络从语义和句法两个方面更好地表示每个句子,并在考虑所有相关语句后使用特征聚合网络进行预测。更重要的是,BERE也可以通过远程监督技术在没有任何人工标注的情况下进行训练。


1


介绍


生物医学研究者最关心的信息一般分为三种类型:生物医学实体、关系(实体之间的交互或关联)和事件(至少与一个实体相关的重要事实或发现)。在这篇文章中,作者主要关注第二种类型——生物医学实体关系。


在关系标注文本的监督下,BioRE任务通常被表述为一组句子中实体之间生物医学关系的分类。然而,收集这样的标注文本数据往往是费力的。为了缓解这个问题,远程监督被提出来拓展标注数据集。在远程监督中,所有提及同一对实体的句子都用某个知识库中报告的关系事实进行标记。


近年来,基于神经网络的关系抽取模型已成为一种从非结构化文本中自动提取实体关系的流行工具。这些方法通常使用基于卷积神经网络(CNNs)或递归神经网络的模型(RNNs)学习每个句子的语义表征,但往往忽略句子的句法特征。相比之下,基于递归神经网络(RvNNs)的模型,通过基于句子结构的解析树(即将单词组织成嵌套短语的组成结构),自下而上递归地传播信息,显式地对句法特征建模,取得了比其他方法更好的预测结果。与显式编码解析树的递归模型不同,潜在树学习的目的是通过学习如何在间接监督下,从下游任务的预测结果中对句子进行解析,从而隐式地理解句子结构。这种方法在自然语言处理和情感分析任务中取得了巨大的成功。此外,自注意力机制最近在图像识别和机器翻译领域得到了很大的应用,这主要是因为它在捕获远程依赖方面具有优势。总体而言,潜在树学习和自注意力机制都适合捕捉句子中的句法信息和长期依赖关系。然而,尽管这两种技术都有优点,但它们在过去很少被用于关系抽取任务。


受上述观察的启发,作者提出了一个新的机器学习框架—BERE,用于自动提取大规模生物医学文献库中的生物医学实体关系。BERE运用潜在树的学习和自注意力机制,充分挖掘句子内部的语义和句法信息,以及词语之间的短期和长期依赖关系。BERE进一步采用计分机制来评估每个句子在关系预测中的重要性。此外,BERE采用多实例学习框架和远程监控技术,极大地减轻了人工标注的工作量,扩大了训练数据,提高了预测结果。


2


模型


作者提出的BERE框架的架构如下图所示:

image.png

给定在一个句子包中共同提到的一对实体(Entity1、Entity2),BERE首先通过连接单词嵌入和词性嵌入来表示句子中的每个单词(该表示也称为词向量)。然后,每个词向量被送入一个自注意力层,以捕获长期依赖,并通过一个残差连接添加回原始词向量。接下来,BERE使用双向门控回归单元(Bi-GRU)对每个单词的局部上下文特征进行编码。其次是Gumbel Tree-GRU,它使用基于贪心的策略从所有可行方案(在图中用红色边标记)中找出最优的组合方案(在图中绿色边标记)。


3


实验


3.1对单句注释的DDI’13数据集进行测试


作者对 DDI’13数据集进行了广泛的测试,以比较BERE与其他六种最先进的DDI提取方法(SCNN, CNN-bioWE, MCCNN,联合AB-LSTM, RvNN和位置感知LSTM)的性能。下表显示了对DDI’13数据集进行DDI提取的所有方法的性能。作者提出的BERE模型的F1得分为73.9%,优于所有其他基线方法。与RvNN相比,该方法不需要任何外部解析器来构建解析树,并且兼容小批量训练。根据消融研究的结果(下表),BERE仍然产生了良好的性能,即使部分框架被删除。总的来说,消融研究进一步证明了我们框架中每个部分的有效性。

image.png

3.2对远程监督的DTI数据集进行测试


为了更好地验证BERE在远监督数据集上的有效性,我们进一步在远程监督DTI数据集上比较了BERE和其他具有代表性的基于远程监督的关系抽取方法,其中每个药物—目标关系由一大堆句子支持。结果如下图所示。与所有基线方法相比,BERE方法在大部分召回范围内的精度得分最高。总的来说,BERE产生了一个0.524的AUPRC和0.625的F1得分,比第二名分别高6.7%和4.6%。BERE比PCNN-ATT 和BiGRU-2ATT有更好的表现,说明考虑句子结构有助于关系抽取。此外,PCNN-ATT比起PCNN的性能提高,说明了在远距离监督关系提取中使用基于注意力的句子聚合策略的优点。BiGRU-2ATT比起BiGRU-ATT有更高的分类性能也证明了在关系抽取任务中词级别的注意力的有效性。

image.png

4


结论


在这项工作中,作者提出了BERE,一个新的机器学习框架,自动从大量的非结构化文献中提取生物医学关系。通过使用隐树学习方法对句子进行解析,通过Bi-GRU和self-attention机制捕获短期和长期的依赖关系,并将实体的局部上下文特征纳入到句子编码中,BERE可以从语义和句法两个方面充分利用句子信息。虽然这种混合特征表示方法可能会增加模型的复杂性,但其造成的开销增加了训练时间。BERE经过良好的训练后,用户可以使用它从大量文献中中快速提取出对应的关系。总的来说,作者通过对现有的单句注释DDI数据集、提出远距监督DTI数据集和识别潜在药物靶标相互作用的案例研究的广泛测试,证明了BERE在生物医学关系提取方面有良好性能。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
11月前
|
数据采集 自动驾驶 Java
PAI-TurboX:面向自动驾驶的训练推理加速框架
PAI-TurboX 为自动驾驶场景中的复杂数据预处理、离线大规模模型训练和实时智能驾驶推理,提供了全方位的加速解决方案。PAI-Notebook Gallery 提供PAI-TurboX 一键启动的 Notebook 最佳实践
|
机器学习/深度学习 人工智能 算法
Post-Training on PAI (3):PAI-ChatLearn,PAI 自研高性能强化学习框架
人工智能平台 PAI 推出了高性能一体化强化学习框架 PAI-Chatlearn,从框架层面解决强化学习在计算性能和易用性方面的挑战。
|
机器学习/深度学习 人工智能 算法
PaperCoder:一种利用大型语言模型自动生成机器学习论文代码的框架
PaperCoder是一种基于多智能体LLM框架的工具,可自动将机器学习研究论文转化为代码库。它通过规划、分析和生成三个阶段,系统性地实现从论文到代码的转化,解决当前研究中代码缺失导致的可复现性问题。实验表明,PaperCoder在自动生成高质量代码方面显著优于基线方法,并获得专家高度认可。这一工具降低了验证研究成果的门槛,推动科研透明与高效。
969 19
PaperCoder:一种利用大型语言模型自动生成机器学习论文代码的框架
|
11月前
|
机器学习/深度学习 人工智能 分布式计算
Post-Training on PAI (1):一文览尽开源强化学习框架在PAI平台的应用
Post-Training(即模型后训练)作为大模型落地的重要一环,能显著优化模型性能,适配特定领域需求。相比于 Pre-Training(即模型预训练),Post-Training 阶段对计算资源和数据资源需求更小,更易迭代,因此备受推崇。近期,我们将体系化地分享基于阿里云人工智能平台 PAI 在强化学习、模型蒸馏、数据预处理、SFT等方向的技术实践,旨在清晰地展现 PAI 在 Post-Training 各个环节的产品能力和使用方法,欢迎大家随时交流探讨。
|
机器学习/深度学习 算法 数据挖掘
PyTabKit:比sklearn更强大的表格数据机器学习框架
PyTabKit是一个专为表格数据设计的新兴机器学习框架,集成了RealMLP等先进深度学习技术与优化的GBDT超参数配置。相比传统Scikit-Learn,PyTabKit通过元级调优的默认参数设置,在无需复杂超参调整的情况下,显著提升中大型数据集的性能表现。其简化API设计、高效训练速度和多模型集成能力,使其成为企业决策与竞赛建模的理想工具。
511 12
PyTabKit:比sklearn更强大的表格数据机器学习框架
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
1142 4
|
人工智能 自然语言处理 算法
MT-MegatronLM:国产训练框架逆袭!三合一并行+FP8黑科技,大模型训练效率暴涨200%
MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架,支持多种模型架构和高效混合并行训练,显著提升 GPU 集群的算力利用率。
1010 18
|
机器学习/深度学习 人工智能 Java
Java机器学习实战:基于DJL框架的手写数字识别全解析
在人工智能蓬勃发展的今天,Python凭借丰富的生态库(如TensorFlow、PyTorch)成为AI开发的首选语言。但Java作为企业级应用的基石,其在生产环境部署、性能优化和工程化方面的优势不容忽视。DJL(Deep Java Library)的出现完美填补了Java在深度学习领域的空白,它提供了一套统一的API,允许开发者无缝对接主流深度学习框架,将AI模型高效部署到Java生态中。本文将通过手写数字识别的完整流程,深入解析DJL框架的核心机制与应用实践。
881 3
|
机器学习/深度学习 人工智能
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
398 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量