ACL-BioNLP 2020 | 耶鲁大学实践成果:生物医药知识图谱嵌入模型基准测试

简介: ACL-BioNLP 2020 | 耶鲁大学实践成果:生物医药知识图谱嵌入模型基准测试

image.png

今天给大家介绍的是耶鲁大学医学信息学中心主任Brandt教授实验室和爱丁堡大学的博士生联合发表在ACL-BioNLP 2020发表的文章“Benchmark and Best Practices for Biomedical Knowledge Graph Embeddings”。作者将五个KGE模型应用到SNOMED-CT知识图谱中,提供了与现有方法的比较基准并深入讨论目前的最佳实践应用,并说明了利用知识图谱的多关系特性来学习生物医学知识表示的重要性。


1


介绍


大量的生物医学领域知识存储在知识库和本体中。例如,SNOMED Clinical Terms(SNOMED-CT),世界上使用最广泛的医疗保健文献和报告的临床术语,包含数十万个医学术语及其关系并拥有多层次组织结构。我们可以将SNOMED-CT看作一个知识图谱,此外,它提供了一个词库,该词库在一个通用的本体论框架下结合了数百万种生物医学概念和关系。


自然语言处理中临床和生物医学领域的主要障碍之一是如何更有效地表示和整合领域知识。尽管自然语言处理领域的最新进展极大地改善了文本表示,但迄今为止,在术语或知识图谱中学习生物医学概念的类似密集概念嵌入的尝试限制了其可用性以及无法广泛使用。此外,当前仍未出现用于训练和比较这种嵌入的最佳实践或基准。


作者探索了知识图谱嵌入模型作为现有方法的替代方法并做出以下贡献:


在SNOMED-CT上训练了五个最新的KGE模型,并展示了它们相对于先前方法的优势,从而证明了利用知识图谱的多关系性质进行生物医学知识表示的重要性;


建立了一套基准任务,以实现各种方法之间的公平比较;


通过提供与现实世界相关的新数据集的基准来服务于整个KGE社区;


将嵌入,代码和其他资料开源,并概述了未来工作的几种方向,以促进该领域的进步。


2


实验设置


由于在通用的可扩展平台下实现,作者将实验限制在五个模型中:TransE, ComplEx, DistMult, SimplE和RotatE。


2.1数据


考虑到UMLS的复杂性,作者详细介绍了生成最终数据集的预处理步骤。将得到的三元组列表构成了最终的知识图谱数据集。另外作者还排除了不必要的特定语义类型。表1显示了最终数据集的描述性统计信息。

image.png

表1 最终SNOMED数据集的统计信息


2.2实现


考虑到SNOMED-CT的巨大规模以及可扩展性和一致的实施对于运行实验的重要性,作者将GraphVite用于KGE模型。虽然目前的工作仅限于这些模型,但未来的工作应该考虑其他最先进的模型,例如TuckER和MuRP,尤其是因为MuRP被证明对具有层次结构的图特别有效。


所有实验都在3个GTX-1080ti GPU上运行,最后的运行在单个GPU上花费了大约6个小时。可以根据每种模型的验证集调整超参数。


2.3评估和基准


2.3.1KGE链接预测


KGE文献中的标准评估任务是链接预测。但是,NE方法也将链接预测用作标准评估任务。当两者都预测是否连接了两个节点时,NE链接预测会基于该图是完整的假设,在一组平衡的正负边缘上执行二进制分类。相反,知识图谱通常被假定为不完整,这使得KGE的链接预测成为基于排名的任务,在该任务中,模型的评分函数被用于对候选样本进行排名,而不依赖于基本事实否定。在本文中,链接预测是指后一种基于排名的KGE方法。


典型的链接预测指标包括MR,MRR和Hits@k。MR被认为对异常值敏感,并且不可靠。Guu等人提出使用平均分位数(MQ)作为MR和MRR的更强大的替代方案。作者使用MQ100作为MQ的更具挑战性的版本,它在排名前100的位置引入了一个临界值,适用于大量可能的实体。


2.3.2嵌入评估


作者通过采用所有模型中涵盖的概念的交集来生成用于实体分类的数据集,包括39k个具有32个唯一语义类型和4个语义组的概念。并且以9:1的比率将数据分成训练集和测试集,训练一个dropout比率为0.1且没有进一步的超参数调整的简单线性层。用于分类的单一线性层评估每个模型的实体嵌入空间中语义信息的线性可分性。


3


可视化


作者首先讨论通过LargeVis获得的嵌入可视化效果,这是一种有效的大规模降维技术,可用作GraphVite中的应用。图1显示了RotatE,ComplEx,Snomed2Vec和Cui2Vec的概念嵌入,其颜色对应于广泛的语义组。


有趣的是,针对5个KGE模型的嵌入可视化分为两种类型:RotatE和TransE产生分离良好的簇,而ComplEx,DistMult和SimplE围绕原点产生球状簇。作者将两种模型类型之间的特征差异归因于其评分函数的性质:RotatE和TransE具有加法成分,而ComplEx,DistMult和SimplE具有乘法成分。

image.png

图1按语义组的概念嵌入可视化

通过在“Procedures”语义组下为5种选定的语义类型着色并将其余的部分灰显,显示了更细粒度的语义结构。图2中将具有2,000多个实体的语义类型抽样到1,200个以提高可见性。

image.png

图2 Procedures语义组下选定语义类型的可视化


4


结论


4.1链接预测


由于没有以前的结果可比较,作者将TransE和RotatE在两个标准KGE基准数据集上的性能作为参考:FB15k-237(14,541个实体,237个关系和310,116个三元组)和WN18RR(40,943个实体,11个关系和93,003个三元组)。鉴于SNOMED-CT比两个数据集更大,并且可以说是一个更复杂的知识图谱,因此链接预测结果表明KGE模型学习了SNOMED-CT的合理表示。表2显示了SNOMED-CT上5个KGE模型的链接预测任务的结果,其中表的上部针对SNOMED-CT上的5个KGE模型,下部针对两个标准KGE数据集上的TransE和RotatE。


表2 链接预测结果

image.png

4.2 嵌入评估和关系预测


根据语义簇的可视化效果(图1和2),KGE和NE方法的性能明显优于语料库-基于方法(Cui2Vec)。值得注意的是,对于更广泛的语义组分类(4类),TransE和RotatE达到了近乎完美的准确性。ComplEx,DistMult和SimplE的性能稍差一些,Snomed2Vec略低于它们,而Cui2Vec则落后很多。表3显示了实体语义类型(STY)和语义组(SG)分类的测试集准确性。


表3 语义类型和组的分类结果

image.png

为了与相关工作进行比较,作者还研究了由Beam等人提出的基于统计能力和余弦相似性自举的基准任务,以评估医学概念的嵌入。相比之下,KGE方法显式地建立关系模型,并且可以更好地推断知识图谱嵌入的关系结构。表3的最后3列报告了5个KGE模型的关系预测指标。尤其是RotatE和SimplE表现良好,达到了约0.8 Hits @ 1和大约0.85 MRR。


作者根据源语义组和目标语义组的基数和同质性将关系类型分为6个组,从而进行错误分析,以进一步了解问题。表4显示了RotatE和ComplEx的6组关系类型的每一个的关系预测指标,最后两行与因果关系类型相关。


表4 按关系类型分类的RotatE和ComplEx的关系预测结果

image.png

每个模型下的最后两行显示了前面提到的因果关系的每个关系结果:cause_of和causative_agent_of。与ComplEx相比,RotatE再次显示出明显更好的结果,这与其理论上优越的表示能力一致。


5


展望


未来可以从几种途径直接入手,作者致力于GraphVite中实现的SNOMED-CT数据集和KGE模型,但也可以扩展到其他生物医学术语(如基因本体论和RxNorm),并应用更近期的KGE模型(如TuckER和MuRP);还可以纳入其他信息来源,如实体和关系的文本描述。最后,可以在生物医学NLP的下游应用中研究生物医学知识图谱嵌入的有用性,例如信息提取,概念归一化和实体链接等。总体而言,用于学习和合并特定领域知识表示的方法仍处于早期阶段,需要进一步讨论。


目录
相关文章
|
2天前
|
敏捷开发 测试技术 持续交付
深入理解自动化测试:框架与实践
【5月更文挑战第5天】 在现代软件开发周期中,自动化测试已成为确保产品质量和加速交付过程的关键环节。本文将深入探讨自动化测试的核心概念、框架选择以及实际实施过程中的最佳实践。通过分析各种自动化测试工具和技术的优缺点,我们旨在为读者提供一种系统化的方法来构建和维护有效的自动化测试环境。
|
6天前
|
机器学习/深度学习 人工智能 算法
深入理解与实践:基于AI的软件测试自动化
【5月更文挑战第1天】随着人工智能的不断发展,其在软件测试中的应用也日益广泛。本文将探讨如何利用AI进行软件测试自动化,包括其理论基础、实现方式以及在实际中的应用。我们将通过实例分析,展示AI在提高软件测试效率和质量方面的巨大潜力。
|
7天前
|
中间件 测试技术 API
探索自动化测试工具的新边界:Selenium与Appium的集成实践
【4月更文挑战第30天】 随着移动应用和Web应用的不断融合,传统的自动化测试工具需要适应新的测试环境。本文将详细分析Selenium和Appium这两款流行的自动化测试工具的集成实践,探讨如何构建一个能够同时支持Web和移动端应用的自动化测试框架。通过对比两者的技术架构、功能特性以及在实际项目中的集成过程,我们旨在为读者提供一个清晰的指导,帮助他们在复杂的应用环境中实现高效、稳定的自动化测试流程。
|
7天前
|
机器学习/深度学习 人工智能 数据管理
深入探索自动化测试框架的设计与实践
【4月更文挑战第30天】 随着软件行业的快速发展,传统的手动测试方式在效率和可靠性方面逐渐暴露出不足。本文将重点探讨自动化测试框架的设计理念、关键组成部分以及实际应用中的挑战与解决方案。通过对自动化测试框架的深入研究,我们旨在为读者提供构建高效、可靠的自动化测试系统的指导和启示。文章首先分析了自动化测试的重要性,接着详细介绍了几种流行的自动化测试工具,并以此为基础提出了设计框架的核心原则和架构模式。最后,通过案例研究,展示了如何在实际项目中实施自动化测试框架,并讨论了面临的常见问题及解决策略。
|
7天前
|
机器学习/深度学习 人工智能 机器人
深入理解自动化测试:框架、工具与实践
【4月更文挑战第30天】 在现代软件开发周期中,自动化测试已成为确保产品质量和加速市场交付的关键环节。本文将探讨自动化测试的核心框架、常用工具以及实际应用的最佳实践,旨在为软件测试工程师提供深入的理解和有效的策略,以改进其自动化测试流程。我们将分析几种流行的测试自动化框架,包括Selenium、Appium和JUnit,并讨论如何根据项目需求选择适合的工具。此外,文中还将介绍持续集成(CI)环境下的自动化测试策略,以及如何通过测试结果分析和报告来优化测试过程。目标是帮助读者构建更健壮、更高效的自动化测试系统。
|
8天前
|
敏捷开发 机器学习/深度学习 Java
Java中的异常处理机制深入理解与实践:持续集成在软件测试中的应用探索自动化测试在敏捷开发中的关键作用
【4月更文挑战第29天】在Java编程中,异常处理是一个重要的概念。它允许开发者在程序执行过程中遇到错误或异常情况时,能够捕获并处理这些异常,从而保证程序的稳定运行。本文将详细介绍Java中的异常处理机制,包括异常的分类、异常的处理方式以及自定义异常等内容。 【4月更文挑战第29天】 随着敏捷开发和DevOps文化的兴起,持续集成(CI)已成为现代软件开发周期中不可或缺的一环。本文将探讨持续集成在软件测试领域内的关键作用、实施策略以及面临的挑战。通过对自动化构建、测试用例管理、及时反馈等核心要素的详细分析,揭示持续集成如何提高软件质量和加速交付过程。 【4月更文挑战第29天】 在当今快速发
|
8天前
|
Java 测试技术 Shell
单元测试3.0实践之Golang质量生态建设
研发是否必须写单测?文章提到,单元测试对于确保代码质量、提高软件可靠性至关重要。在顶级互联网公司中,单元测试被认为是必要的,因为它能快速执行、降低维护成本,并能发现代码中的问题。文章还讨论了Go语言中单元测试的优化,如支持不同版本的Go、提高测试覆盖率、处理并发问题等。此外,文章介绍了一个用于Go语言单元测试的插件,该插件可以集成到持续集成流程中,提供详细的测试报告和覆盖率信息。通过这个插件,团队可以方便地管理和执行单元测试,提升开发效率和代码质量。
|
8天前
|
敏捷开发 设计模式 Devops
深入探索自动化测试框架的设计原则与实践
【4月更文挑战第29天】在追求软件开发效率和质量的当下,自动化测试成为确保软件可靠性的关键步骤。本文旨在剖析构建高效自动化测试框架的设计原则,并通过具体实例展示如何在实际项目中应用这些原则以提高测试效率和准确性。文章首先介绍了自动化测试的重要性及其对持续集成/持续部署(CI/CD)流程的贡献,随后详细探讨了模块化、可扩展性、易用性和可维护性四个核心设计原则。最后,通过一个案例研究,演示了如何将这些原则融入到自动化测试框架的构建中,以及实施后的效果评估。
10 1
|
10天前
|
jenkins 测试技术 持续交付
深入探索软件测试中的持续集成与自动化测试实践
【4月更文挑战第27天】 在当今软件开发的快速迭代过程中,持续集成(CI)和自动化测试已成为确保代码质量和加快交付速度的关键因素。本文将探讨如何通过实施持续集成流程,并结合自动化测试策略来优化软件测试工作。我们将分析持续集成的原理、自动化测试的最佳实践以及如何将这些方法应用于实际项目中,旨在为读者提供一套完整的解决方案,以提高软件项目的效率和质量。
13 3
|
10天前
|
Web App开发 IDE 测试技术
深入理解自动化测试框架Selenium的设计与实践
【4月更文挑战第27天】在软件开发周期中,确保代码质量和功能正确性至关重要。随着敏捷开发的普及和持续集成/持续部署(CI/CD)的实践,自动化测试已成为现代开发工作流程的核心部分。本文将探讨一个广泛使用的开源自动化测试工具——Selenium,并剖析其设计原理、架构以及在实际中的应用。我们将通过具体案例分析,展示如何有效利用Selenium进行跨浏览器测试,并讨论在真实环境中可能遇到的挑战及解决方案。

热门文章

最新文章