1.研究背景
药物靶点的预测对于早期药物分子的成药性评价和老药新用等领域都具有重大意义,但由于通量、精度和费用的限制,实验手段的应用难以广泛开展。作为一类快速而低成本的方法,基于人工智能的药物-靶标预测算法正受到越来越多的重视。
2019年8月,英国Bristol大学研究者在生物信息学顶级期刊Bioinformatics上提出一种基于知识图谱嵌入的药物-靶标预测方法—TriModel模型,将药物靶标预测转化为知识图谱中的表征学习和链接预测问题。该方法通过生物医学知识库生成与药物-靶标相关的知识图谱。然后对知识图谱进行表征学习得到药物和靶点的向量表示,然后预测药物和靶标的关系
2.方法
2.1 知识图谱
知识图谱是一种将关系信息表示为图的数据表示模型,其中图节点表示实体,边表示实体之间的关系。使用(头实体,关系,尾实体)这种三元组的形式进行表示,如(阿司匹林,药物靶标,COX-1)。其中头实体(药物)通过关系(药物靶标)与目标实体(靶蛋白)相连接。
由于药物-靶标知识库通常被构造为与靶蛋白相关的药物信息网络,该数据可理解为一种知识图谱。因此,发现药物-靶标之间新的关系的问题便转化为知识图谱嵌入的链接预测问题,如图1所示。
图1 从KEGG和UniProt数据库中提取的有关药物、靶标基因、途径、疾病和基因网络的知识图谱
2.2 知识图谱嵌入技术
知识图谱嵌入(KGE)将知识图谱中的实体和关系映射到低维连续的向量空间,能够保留知识图谱固有特性,并减轻了知识图谱应用过程中可能面临的特征稀疏问题。其训练过程分为多个阶段。首先,KGE模型使用随机噪声对嵌入向量进行初始化。然后,使用一个评分函数对模型进行打分。最后,通过得分函数计算损失误差,并进行训练。通过AMSGrad等优化器将误差回传并更新初始嵌入,更新后的嵌入对真实事实给出更高的分数,对伪事实给出较低的分数。通过将这一过程不断迭代,使得所学习的嵌入为可能的真假事实提供最佳的可能评分。
2.3 嵌入表达
TriModel是一种基于张量因子分解的知识图谱嵌入模型,是DistMultand和ComplEx模型的扩展。该模型使用三个嵌入向量表示每个实体和关系。TriModel模型的嵌入由Glorot均匀随机生成器进行初始化,并随着训练次数更新嵌入向量。
2.4 训练阶段
TriModel模型通过最小化负的softmax对数损失函数来学习实体和关系的嵌入,该对数最大化真实事实的得分并最小化未知事实的得分(在训练中假设为假)。损失函数通过下式进行定义:
3.结果
3.1 评估策略
作者在Yamanishi_08和DrugBank_FDA两个数据集上对模型进行训练并与当前最新模型进行对比。实验采用交叉验证对模型进行评估,将数据中的90%用于训练集,另外10%用于评估模型。
在训练集中,使用已知的药物-靶标相互作用作为正例,数据库中其他药物-靶标可能的连接作为负例,如表1所示:
表1 本文所使用数据集中元素统计DTIs列表示已知药物靶标相互作用的数量,Corruptions列代表未知药物靶标相互作用中药物和靶标的所有可能组合的数量(在模型训练和评估中用作负例),P2N列代表正负实例的比。
3.2 与其他模型的对比
在Yamanishi_08和DrugBank_FDA数据集上对模型进行测试,并将实验结果与各种模型进行比较。图2为所有模型的AUC-ROC和AUC-PR得分的总体比较结果。
图2 TriModel模型与其他最新模型的AUC-ROC和AUC-PR值的对比图所有制使用百分比(%)表示, DB代DrugBank_FDA数据集
3.3局限性
TriModel模型适合于在已经充分研究的药物和靶标之间找到新的关联,并不适用于新型药物发现。
4 结论
作者把预测新药物-靶标作为生物医学知识图谱的链接预测任务来研究。提出了一种能够有效预测新药物-靶标间相互作用的知识图谱嵌入模型——TriModel模型。通过使用如KEGG、UniProt和DrugBank等现有的生物知识库生成了与药物-靶标相关的生物实体知识图谱。然后,训练TriModel模型来学习药物-靶标的有效向量表示。实验结果显示, TriModel模型在AUC-ROC和AUC-PR指标下的表现都要优于目前最先进的模型。