Bioinformatics|基于知识图谱嵌入的药物靶标发现

简介: Bioinformatics|基于知识图谱嵌入的药物靶标发现

image.png

1.研究背景


药物靶点的预测对于早期药物分子的成药性评价和老药新用等领域都具有重大意义,但由于通量、精度和费用的限制,实验手段的应用难以广泛开展。作为一类快速而低成本的方法,基于人工智能的药物-靶标预测算法正受到越来越多的重视。


2019年8月,英国Bristol大学研究者在生物信息学顶级期刊Bioinformatics上提出一种基于知识图谱嵌入的药物-靶标预测方法—TriModel模型,将药物靶标预测转化为知识图谱中的表征学习和链接预测问题。该方法通过生物医学知识库生成与药物-靶标相关的知识图谱。然后对知识图谱进行表征学习得到药物和靶点的向量表示,然后预测药物和靶标的关系


2.方法


2.1 知识图谱


知识图谱是一种将关系信息表示为图的数据表示模型,其中图节点表示实体,边表示实体之间的关系。使用(头实体,关系,尾实体)这种三元组的形式进行表示,如(阿司匹林,药物靶标,COX-1)。其中头实体(药物)通过关系(药物靶标)与目标实体(靶蛋白)相连接。


由于药物-靶标知识库通常被构造为与靶蛋白相关的药物信息网络,该数据可理解为一种知识图谱。因此,发现药物-靶标之间新的关系的问题便转化为知识图谱嵌入的链接预测问题,如图1所示。

image.png

图1 从KEGG和UniProt数据库中提取的有关药物、靶标基因、途径、疾病和基因网络的知识图谱


2.2 知识图谱嵌入技术


知识图谱嵌入(KGE)将知识图谱中的实体和关系映射到低维连续的向量空间,能够保留知识图谱固有特性,并减轻了知识图谱应用过程中可能面临的特征稀疏问题。其训练过程分为多个阶段。首先,KGE模型使用随机噪声对嵌入向量进行初始化。然后,使用一个评分函数对模型进行打分。最后,通过得分函数计算损失误差,并进行训练。通过AMSGrad等优化器将误差回传并更新初始嵌入,更新后的嵌入对真实事实给出更高的分数,对伪事实给出较低的分数。通过将这一过程不断迭代,使得所学习的嵌入为可能的真假事实提供最佳的可能评分。


2.3 嵌入表达


TriModel是一种基于张量因子分解的知识图谱嵌入模型,是DistMultand和ComplEx模型的扩展。该模型使用三个嵌入向量表示每个实体和关系。TriModel模型的嵌入由Glorot均匀随机生成器进行初始化,并随着训练次数更新嵌入向量。


2.4 训练阶段


TriModel模型通过最小化负的softmax对数损失函数来学习实体和关系的嵌入,该对数最大化真实事实的得分并最小化未知事实的得分(在训练中假设为假)。损失函数通过下式进行定义:

image.png

3.结果



3.1 评估策略


作者在Yamanishi_08和DrugBank_FDA两个数据集上对模型进行训练并与当前最新模型进行对比。实验采用交叉验证对模型进行评估,将数据中的90%用于训练集,另外10%用于评估模型。


在训练集中,使用已知的药物-靶标相互作用作为正例,数据库中其他药物-靶标可能的连接作为负例,如表1所示:


image.png

image.png

表1 本文所使用数据集中元素统计DTIs列表示已知药物靶标相互作用的数量,Corruptions列代表未知药物靶标相互作用中药物和靶标的所有可能组合的数量(在模型训练和评估中用作负例),P2N列代表正负实例的比。

3.2 与其他模型的对比

在Yamanishi_08和DrugBank_FDA数据集上对模型进行测试,并将实验结果与各种模型进行比较。图2为所有模型的AUC-ROC和AUC-PR得分的总体比较结果。


image.png

图2 TriModel模型与其他最新模型的AUC-ROC和AUC-PR值的对比图所有制使用百分比(%)表示, DB代DrugBank_FDA数据集


3.3局限性


TriModel模型适合于在已经充分研究的药物和靶标之间找到新的关联,并不适用于新型药物发现。


4 结论


作者把预测新药物-靶标作为生物医学知识图谱的链接预测任务来研究。提出了一种能够有效预测新药物-靶标间相互作用的知识图谱嵌入模型——TriModel模型。通过使用如KEGG、UniProt和DrugBank等现有的生物知识库生成了与药物-靶标相关的生物实体知识图谱。然后,训练TriModel模型来学习药物-靶标的有效向量表示。实验结果显示, TriModel模型在AUC-ROC和AUC-PR指标下的表现都要优于目前最先进的模型。


目录
相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 数据可视化
NLP:预测新闻类别 - 自然语言处理中嵌入技术
NLP:预测新闻类别 - 自然语言处理中嵌入技术
110 0
|
机器学习/深度学习 人工智能 自然语言处理
【医学知识图谱构建】基于有监督对比学习的上下位关系预测
背景 & 挑战(Background & Challenge)随着人工智能和医疗行业的蓬勃发展,各种医疗知识库与医疗知识图谱的构建已成为精准医学领域的研究热点。大数据时代,随着医疗系统的信息化发展,医疗领域已经积累了海量的数据。医疗知识图谱所具有的数据集成能力和知识推理能力能够将大量的医疗数据进行有序整合并应用到各类医疗场景中。目前在医疗领域,国外已经构建了一些知识库,比如医学主题
1560 1
【医学知识图谱构建】基于有监督对比学习的上下位关系预测
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
58 25
|
3月前
|
自然语言处理
【NLP自然语言处理】文本特征处理与数据增强
【NLP自然语言处理】文本特征处理与数据增强
|
6月前
|
机器学习/深度学习 TensorFlow 数据处理
使用Python实现深度学习模型:医学影像识别与疾病预测
【7月更文挑战第24天】 使用Python实现深度学习模型:医学影像识别与疾病预测
83 4
|
8月前
|
编解码 人工智能 自然语言处理
扩散模型的多元化应用:药物发现、文本生成、时间序列预测等
AlphaFold3是DeepMind的蛋白质结构预测软件,它引入扩散模型以提升预测准确性。扩散模型通过逐步添加和去除噪声来理解和生成数据,应用广泛,包括图像、音频、文本和时间序列数据的处理。在图像领域,它们擅长合成、编辑和超分辨率;在文本处理中,扩散模型在代码合成和问答任务中表现出色;在音频和视频生成方面也有重要应用;同时,它们在时间序列预测和增强模型鲁棒性方面也展现出潜力。随着技术发展,扩散模型将在更多领域发挥作用。
275 0
|
8月前
|
存储 自然语言处理 算法
知识图谱算法有哪些
知识图谱是以图结构描述的知识。与传统数据库相比,知识图谱在存储、查询、检索方面具有诸多优势。传统数据库对数据的组织是以字段为单位,而知识图谱通过关系、属性和实体等数据类型,将数据组织成复杂的图,使其更容易理解。
|
8月前
|
自然语言处理 数据可视化
R语言自然语言处理NLP:情感分析上市公司文本信息知识发现可视化
R语言自然语言处理NLP:情感分析上市公司文本信息知识发现可视化
|
数据采集 人工智能 自然语言处理
领域知识图谱的医生推荐系统:利用BERT+CRF+BiLSTM的医疗实体识别,建立医学知识图谱,建立知识问答系统
领域知识图谱的医生推荐系统:利用BERT+CRF+BiLSTM的医疗实体识别,建立医学知识图谱,建立知识问答系统
领域知识图谱的医生推荐系统:利用BERT+CRF+BiLSTM的医疗实体识别,建立医学知识图谱,建立知识问答系统
|
8月前
|
机器学习/深度学习 数据采集 自然语言处理
【论文精读】大语言模型融合知识图谱的问答系统研究
论文题目:大语言模型融合知识图谱的问答系统研究