Bioinformatics|基于知识图谱嵌入的药物靶标发现

简介: Bioinformatics|基于知识图谱嵌入的药物靶标发现

image.png

1.研究背景


药物靶点的预测对于早期药物分子的成药性评价和老药新用等领域都具有重大意义,但由于通量、精度和费用的限制,实验手段的应用难以广泛开展。作为一类快速而低成本的方法,基于人工智能的药物-靶标预测算法正受到越来越多的重视。


2019年8月,英国Bristol大学研究者在生物信息学顶级期刊Bioinformatics上提出一种基于知识图谱嵌入的药物-靶标预测方法—TriModel模型,将药物靶标预测转化为知识图谱中的表征学习和链接预测问题。该方法通过生物医学知识库生成与药物-靶标相关的知识图谱。然后对知识图谱进行表征学习得到药物和靶点的向量表示,然后预测药物和靶标的关系


2.方法


2.1 知识图谱


知识图谱是一种将关系信息表示为图的数据表示模型,其中图节点表示实体,边表示实体之间的关系。使用(头实体,关系,尾实体)这种三元组的形式进行表示,如(阿司匹林,药物靶标,COX-1)。其中头实体(药物)通过关系(药物靶标)与目标实体(靶蛋白)相连接。


由于药物-靶标知识库通常被构造为与靶蛋白相关的药物信息网络,该数据可理解为一种知识图谱。因此,发现药物-靶标之间新的关系的问题便转化为知识图谱嵌入的链接预测问题,如图1所示。

image.png

图1 从KEGG和UniProt数据库中提取的有关药物、靶标基因、途径、疾病和基因网络的知识图谱


2.2 知识图谱嵌入技术


知识图谱嵌入(KGE)将知识图谱中的实体和关系映射到低维连续的向量空间,能够保留知识图谱固有特性,并减轻了知识图谱应用过程中可能面临的特征稀疏问题。其训练过程分为多个阶段。首先,KGE模型使用随机噪声对嵌入向量进行初始化。然后,使用一个评分函数对模型进行打分。最后,通过得分函数计算损失误差,并进行训练。通过AMSGrad等优化器将误差回传并更新初始嵌入,更新后的嵌入对真实事实给出更高的分数,对伪事实给出较低的分数。通过将这一过程不断迭代,使得所学习的嵌入为可能的真假事实提供最佳的可能评分。


2.3 嵌入表达


TriModel是一种基于张量因子分解的知识图谱嵌入模型,是DistMultand和ComplEx模型的扩展。该模型使用三个嵌入向量表示每个实体和关系。TriModel模型的嵌入由Glorot均匀随机生成器进行初始化,并随着训练次数更新嵌入向量。


2.4 训练阶段


TriModel模型通过最小化负的softmax对数损失函数来学习实体和关系的嵌入,该对数最大化真实事实的得分并最小化未知事实的得分(在训练中假设为假)。损失函数通过下式进行定义:

image.png

3.结果



3.1 评估策略


作者在Yamanishi_08和DrugBank_FDA两个数据集上对模型进行训练并与当前最新模型进行对比。实验采用交叉验证对模型进行评估,将数据中的90%用于训练集,另外10%用于评估模型。


在训练集中,使用已知的药物-靶标相互作用作为正例,数据库中其他药物-靶标可能的连接作为负例,如表1所示:


image.png

image.png

表1 本文所使用数据集中元素统计DTIs列表示已知药物靶标相互作用的数量,Corruptions列代表未知药物靶标相互作用中药物和靶标的所有可能组合的数量(在模型训练和评估中用作负例),P2N列代表正负实例的比。

3.2 与其他模型的对比

在Yamanishi_08和DrugBank_FDA数据集上对模型进行测试,并将实验结果与各种模型进行比较。图2为所有模型的AUC-ROC和AUC-PR得分的总体比较结果。


image.png

图2 TriModel模型与其他最新模型的AUC-ROC和AUC-PR值的对比图所有制使用百分比(%)表示, DB代DrugBank_FDA数据集


3.3局限性


TriModel模型适合于在已经充分研究的药物和靶标之间找到新的关联,并不适用于新型药物发现。


4 结论


作者把预测新药物-靶标作为生物医学知识图谱的链接预测任务来研究。提出了一种能够有效预测新药物-靶标间相互作用的知识图谱嵌入模型——TriModel模型。通过使用如KEGG、UniProt和DrugBank等现有的生物知识库生成了与药物-靶标相关的生物实体知识图谱。然后,训练TriModel模型来学习药物-靶标的有效向量表示。实验结果显示, TriModel模型在AUC-ROC和AUC-PR指标下的表现都要优于目前最先进的模型。


目录
相关文章
|
XML 安全 定位技术
无人船水下地形测量作业流程
无人船水下地形测量作业流程
915 0
|
JSON 开发工具 git
工作五年多,idea插件推荐(一)
工作五年多,idea插件推荐(一)
|
机器学习/深度学习 Linux vr&ar
ARIMA差分自回归移动平均模型
ARIMA是**差分自回归移动平均模型**的引文缩写,其中AR表示的是自回归模型,MA表示的是移动平均模型,I表示的是差分。一般写成ARIMA(p,d,q),p是自回归阶数,q是移动平均阶数,d表示差分的次数。
2514 0
ARIMA差分自回归移动平均模型
|
数据可视化 JavaScript API
NGLView 安装与配置-交互式分子结构和轨迹查看
NGLView 安装与配置-交互式分子结构和轨迹查看
1011 0
NGLView 安装与配置-交互式分子结构和轨迹查看
|
9月前
|
机器学习/深度学习 存储 NoSQL
基于 Flink + Redis 的实时特征工程实战:电商场景动态分桶计数实现
本文介绍了基于 Flink 与 Redis 构建的电商场景下实时特征工程解决方案,重点实现动态分桶计数等复杂特征计算。通过流处理引擎 Flink 实时加工用户行为数据,结合 Redis 高性能存储,满足推荐系统毫秒级特征更新需求。技术架构涵盖状态管理、窗口计算、Redis 数据模型设计及特征服务集成,有效提升模型预测效果与系统吞吐能力。
973 10
|
前端开发 IDE Go
One API本地开发环境搭建
本文介绍如何在本地搭建 One API 开发环境,包括安装 Go 语言和 GoLand IDE,以及如何新建项目和配置数据库信息。通过简明的步骤说明,帮助开发者快速完成基本的开发环境配置,方便进行二次开发和开源贡献。
436 2
One API本地开发环境搭建
|
开发框架 移动开发 小程序
【微信小程序】-- 配置uni-app的开发环境(四十八)
【微信小程序】-- 配置uni-app的开发环境(四十八)
|
芯片
浮动CPU和定点CPU的主要区别是什么
浮动CPU和定点CPU的主要区别在于处理数据的方式不同。浮动CPU支持浮点运算,能高效处理小数和高精度计算;而定点CPU仅支持整数运算,适用于对精度要求不高的场景。
|
Linux

热门文章

最新文章