Bioinformatics|基于知识图谱嵌入的药物靶标发现

简介: Bioinformatics|基于知识图谱嵌入的药物靶标发现

image.png

1.研究背景


药物靶点的预测对于早期药物分子的成药性评价和老药新用等领域都具有重大意义,但由于通量、精度和费用的限制,实验手段的应用难以广泛开展。作为一类快速而低成本的方法,基于人工智能的药物-靶标预测算法正受到越来越多的重视。


2019年8月,英国Bristol大学研究者在生物信息学顶级期刊Bioinformatics上提出一种基于知识图谱嵌入的药物-靶标预测方法—TriModel模型,将药物靶标预测转化为知识图谱中的表征学习和链接预测问题。该方法通过生物医学知识库生成与药物-靶标相关的知识图谱。然后对知识图谱进行表征学习得到药物和靶点的向量表示,然后预测药物和靶标的关系


2.方法


2.1 知识图谱


知识图谱是一种将关系信息表示为图的数据表示模型,其中图节点表示实体,边表示实体之间的关系。使用(头实体,关系,尾实体)这种三元组的形式进行表示,如(阿司匹林,药物靶标,COX-1)。其中头实体(药物)通过关系(药物靶标)与目标实体(靶蛋白)相连接。


由于药物-靶标知识库通常被构造为与靶蛋白相关的药物信息网络,该数据可理解为一种知识图谱。因此,发现药物-靶标之间新的关系的问题便转化为知识图谱嵌入的链接预测问题,如图1所示。

image.png

图1 从KEGG和UniProt数据库中提取的有关药物、靶标基因、途径、疾病和基因网络的知识图谱


2.2 知识图谱嵌入技术


知识图谱嵌入(KGE)将知识图谱中的实体和关系映射到低维连续的向量空间,能够保留知识图谱固有特性,并减轻了知识图谱应用过程中可能面临的特征稀疏问题。其训练过程分为多个阶段。首先,KGE模型使用随机噪声对嵌入向量进行初始化。然后,使用一个评分函数对模型进行打分。最后,通过得分函数计算损失误差,并进行训练。通过AMSGrad等优化器将误差回传并更新初始嵌入,更新后的嵌入对真实事实给出更高的分数,对伪事实给出较低的分数。通过将这一过程不断迭代,使得所学习的嵌入为可能的真假事实提供最佳的可能评分。


2.3 嵌入表达


TriModel是一种基于张量因子分解的知识图谱嵌入模型,是DistMultand和ComplEx模型的扩展。该模型使用三个嵌入向量表示每个实体和关系。TriModel模型的嵌入由Glorot均匀随机生成器进行初始化,并随着训练次数更新嵌入向量。


2.4 训练阶段


TriModel模型通过最小化负的softmax对数损失函数来学习实体和关系的嵌入,该对数最大化真实事实的得分并最小化未知事实的得分(在训练中假设为假)。损失函数通过下式进行定义:

image.png

3.结果



3.1 评估策略


作者在Yamanishi_08和DrugBank_FDA两个数据集上对模型进行训练并与当前最新模型进行对比。实验采用交叉验证对模型进行评估,将数据中的90%用于训练集,另外10%用于评估模型。


在训练集中,使用已知的药物-靶标相互作用作为正例,数据库中其他药物-靶标可能的连接作为负例,如表1所示:


image.png

image.png

表1 本文所使用数据集中元素统计DTIs列表示已知药物靶标相互作用的数量,Corruptions列代表未知药物靶标相互作用中药物和靶标的所有可能组合的数量(在模型训练和评估中用作负例),P2N列代表正负实例的比。

3.2 与其他模型的对比

在Yamanishi_08和DrugBank_FDA数据集上对模型进行测试,并将实验结果与各种模型进行比较。图2为所有模型的AUC-ROC和AUC-PR得分的总体比较结果。


image.png

图2 TriModel模型与其他最新模型的AUC-ROC和AUC-PR值的对比图所有制使用百分比(%)表示, DB代DrugBank_FDA数据集


3.3局限性


TriModel模型适合于在已经充分研究的药物和靶标之间找到新的关联,并不适用于新型药物发现。


4 结论


作者把预测新药物-靶标作为生物医学知识图谱的链接预测任务来研究。提出了一种能够有效预测新药物-靶标间相互作用的知识图谱嵌入模型——TriModel模型。通过使用如KEGG、UniProt和DrugBank等现有的生物知识库生成了与药物-靶标相关的生物实体知识图谱。然后,训练TriModel模型来学习药物-靶标的有效向量表示。实验结果显示, TriModel模型在AUC-ROC和AUC-PR指标下的表现都要优于目前最先进的模型。


目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
【医学知识图谱构建】基于有监督对比学习的上下位关系预测
背景 & 挑战(Background & Challenge)随着人工智能和医疗行业的蓬勃发展,各种医疗知识库与医疗知识图谱的构建已成为精准医学领域的研究热点。大数据时代,随着医疗系统的信息化发展,医疗领域已经积累了海量的数据。医疗知识图谱所具有的数据集成能力和知识推理能力能够将大量的医疗数据进行有序整合并应用到各类医疗场景中。目前在医疗领域,国外已经构建了一些知识库,比如医学主题
1526 1
【医学知识图谱构建】基于有监督对比学习的上下位关系预测
|
12天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的地面垃圾识别分类技术
AI垃圾分类系统结合深度学习和计算机视觉技术,实现高效、精准的垃圾识别与自动分类。系统集成高精度图像识别、多模态数据分析和实时处理技术,适用于市政环卫、垃圾处理厂和智能回收设备,显著提升管理效率,降低人工成本。
基于深度学习的地面垃圾识别分类技术
|
4月前
|
机器学习/深度学习 TensorFlow 数据处理
使用Python实现深度学习模型:医学影像识别与疾病预测
【7月更文挑战第24天】 使用Python实现深度学习模型:医学影像识别与疾病预测
69 4
|
4月前
|
机器学习/深度学习 数据采集 搜索推荐
深度学习之医学影像分类
基于深度学习的医学影像分类是利用深度学习模型对医学影像(如X光片、CT、MRI等)进行自动分类,以辅助医生进行疾病诊断和治疗决策。
54 0
|
数据采集 人工智能 自然语言处理
领域知识图谱的医生推荐系统:利用BERT+CRF+BiLSTM的医疗实体识别,建立医学知识图谱,建立知识问答系统
领域知识图谱的医生推荐系统:利用BERT+CRF+BiLSTM的医疗实体识别,建立医学知识图谱,建立知识问答系统
领域知识图谱的医生推荐系统:利用BERT+CRF+BiLSTM的医疗实体识别,建立医学知识图谱,建立知识问答系统
|
6月前
|
机器学习/深度学习 算法 搜索推荐
《深度学习在医学影像识别中的应用与前景》
【2月更文挑战第4天】 医学影像识别是近年来深度学习技术的一个热门应用领域。本文将介绍深度学习在医学影像识别中的应用现状,探讨其在医学诊断、治疗以及医疗大数据分析等方面的潜在前景,并对未来发展进行展望。
72 4
|
机器学习/深度学习 人工智能 自然语言处理
关于医学多模态大模型,你需要来学习这些最新研究
关于医学多模态大模型,你需要来学习这些最新研究
314 0
|
机器学习/深度学习 人工智能 文字识别
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
|
机器学习/深度学习 算法 自动驾驶
深度学习交通标志识别项目
深度学习交通标志识别项目
|
机器学习/深度学习 人工智能 自然语言处理
蛋白质语言模型 ProGen:在实验室合成由 AI 预测的蛋白质
蛋白质语言模型 ProGen:在实验室合成由 AI 预测的蛋白质
581 0