iScience | 大规模表征学习寻找分子间相互作用

简介: iScience | 大规模表征学习寻找分子间相互作用

image.png

今天给大家介绍的文章是“Learning Representations to Predict Intermolecular Interactions on Large-Scale Heterogeneous Molecular Association Network”,这篇文章是中国科学院新疆理化技术研究所尤著宏教授团队的研究成果。作者整合了miRNAs、lncRNAs、circRNAs、mRNAs、蛋白质、药物、微生物、复杂疾病之间的综合关联,形成异质性分子关联网络,并提出了一种预测分子间相互作用的机器学习方法——MMI-Pred。具体的说,提出了一种充分利用生物分子的网络行为的网络嵌入模型,并计算了生物分子的属性特征。然后,结合这些鉴别特征来训练一个随机森林分类器来预测分子间的相互作用。实验表明,这个方法可以很好地推断各种分子组成之间的复杂关联。


1


介绍


各种分子组成及其相互作用在细胞的生命活动中起着重要的作用。例如,蛋白质是许多基本生命活动的直接载体,miRNAs,lncRNAs,circRNAs和微生物等作为环境或共同进化的伙伴,对人类的健康和疾病也有重要影响,这些分子和它们的协同作用维持着特殊的细胞活动,作为一个高度互联的分子联合网络的一部分运作。随着相关分子生物学、计算生物学和组学研究的快速发展,许多有价值的关于人类个体分子间联系的研究被开发出来,并且发布了各种有价值的实验数据,比如,miRNA-protein关联,circRNA-disease关联等。目前的研究关注的是两个或非常有限的分子间关系。然而,分子间的相互作用是广泛而相互关联的。受此启发,该研究团队提出了一种基于分子关联网络的框架,可以通过生物分子的学习行为和属性特征来预测分子与分子之间的关联,称为MMI-Pred。


该研究的主要贡献是:(1)整合构造了一个目前具有8个生物分子的比较完整的异构网络;(2)提出了一种基于分子关联网络的模型,结合了生物分子的学习行为和属性特征来预测分子与分子之间的关联。


2


方法


image.png

图1 MMI-Pred的工作流程图


MMI-Pred的工作流程如图1所示。通过连接miRNAs、lncRNAs、circRNAs、mRNAs、蛋白质、药物、微生物、复杂疾病之间的广泛关联,形成了一个全面的异构网络,包含了8种分子,18种关联,14315个节点,114150个分子关联,分布情况如图2所示。首先,采用基于随机游走和跳跃图的网络表示学习方法node2vec,来学习生物分子节点的行为特征。node2vec是一种考虑了宽度优先搜索(BFS)邻域和深度优先搜索(DFS)邻域的图嵌入方法,可以看作是DeepWalk结合DFS和BFS的随机漫步。


同时节点也有其属性特征,如mRNA、miRNA、lncRNA、circRNA、蛋白质的序列信息、化合物的化学结构、疾病和微生物的表型等,为了充分利用分子的这些属性特征,采用了各相关研究中广泛使用的特征提取方法。对于生物序列,该研究团队使用k-mer频率来表示属性信息(这里k=3),在化学结构上,将简化的分子输入线输入规范(SMILES)转化为摩根指纹。对于疾病和微生物,采用医学主题词(MeSH)描述来构造的有向无环图(DAG)获取语义相似度作为属性。考虑到上述属性表示方法所提取的不同类型生物分子的特征在维数上并不一致,采用深层栈式自编码器(SA)模型来学习不同类型节点,形成具有统一维度的表示。最后,引入一个随机森林分类器,结合属性和行为特征进行训练,进而预测分子间的关联。

image.png

图2. 异构网络中分子节点和分子间结合的数量和类型分布


3


实验


为了评估MMI-Pred的性能,首先在五折交叉验证下评估在网络中关联预测的能力,采用了AUC和AUPR作为评价指标,总体性能如图3和表1所示。在每次交叉验证中,MMI-Pred的性能非常接近,说明了模型的健壮性。模型最高Acc为93.50%,AUC值为0.9780。

image.png

图3. MMI-Pred在整个数据集上的五折交叉验证性能

表 1. MMI-Pred在整个数据集上的五折交叉验证性能

image.png

该团队设计了对比实验,验证节点的行为特征和属性特征对预测结果的影响,从图4和表2可以看出,MMI-Pred模型无论使用属性特征还是行为特征,都可以达到90%以上的准确率,说明特征的辨识能力是可以接受的。一般情况下,行为特征的性能略优于属性特征,而两种特征同时使用时性能最好。

image.png

图 4. 利用随机森林分类器比较网络行为和属性特征

表 2. 利用随机森林分类器比较网络行为和属性特征

image.png

该研究团队对比了随机森林算法与LR、 AdaBoost、 贝叶斯分类器和XGBoost分类器的性能,实验结果如图5,表3,可以看出采用随机森林分类器的MMI-Pred方法的性能最好。

image.png

图 5. MMI-Pred与四种不同的分类器模型之间的性能比较(包括NaiveBayes、Adaboost、Logistic回归和XGBoost分类器)

表 3. MMI-Pred与四种不同的分类器模型之间的性能比较

image.png

此外,该研究团队做了一个案例研究:MMI-Pred被用于预测与乳腺肿瘤和结肠肿瘤最相关的miRNAs。MMI-Pred预测了排名前30位的乳腺癌相关miRNA,其中25个得到了证实,说明MMI-Pred模型对特定类型连接的有较强的预测能力。


4


总结


在这项研究中,该团队整合了具有8种分子,18种关联的异构网络,并提出了一个基于网络表示学习的计算框架MMI-Pred,可以通过生物分子的学习行为和属性特征来预测分子与分子之间的关联,在五折交叉验证下,MMI-Pred在混合关联预测中实现了93.50%的准确率。这项工作未来可以考虑丰富异构网络的数据,对异构信息网络表示学习算法的进一步研究将有很大的帮助。


目录
相关文章
|
4天前
|
机器学习/深度学习 算法
扩散模型=进化算法!生物学大佬用数学揭示本质
在机器学习与生物学交叉领域,Tufts和Harvard大学研究人员揭示了扩散模型与进化算法的深刻联系。研究表明,扩散模型本质上是一种进化算法,通过逐步去噪生成数据点,类似于进化中的变异和选择机制。这一发现不仅在理论上具有重要意义,还提出了扩散进化方法,能够高效识别多解、处理高维复杂参数空间,并显著减少计算步骤,为图像生成、视频合成及神经网络优化等应用带来广泛潜力。论文地址:https://arxiv.org/pdf/2410.02543。
31 21
|
9月前
|
机器学习/深度学习 开发框架 算法
R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究
R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究
|
9月前
|
机器学习/深度学习 开发框架 算法
非线性混合效应 NLME模型对抗哮喘药物茶碱动力学研究
非线性混合效应 NLME模型对抗哮喘药物茶碱动力学研究
|
机器学习/深度学习 传感器 编解码
2023最新 | 单目深度估计网络结构的通用性研究
单目深度估计已经被广泛研究,最近已经报道了许多在性能上显著改进的方法。然而,大多数先前的工作都是在一些基准数据集(如KITTI数据集)上进行评估的,并且没有一项工作对单目深度估计的泛化性能进行深入分析。本文深入研究了各种骨干网络(例如CNN和Transformer模型),以推广单目深度估计。首先,评估了分布内和分布外数据集上的SOTA模型,这在网络训练期间从未见过。然后,使用合成纹理移位数据集研究了基于CNN和Transformer的模型中间层表示的内部属性。通过大量实验,观察到transformer呈现出强烈的形状偏差,而CNN具有强烈纹理偏差。
2023最新 | 单目深度估计网络结构的通用性研究
|
机器学习/深度学习 数据采集 数据可视化
基于Kaggle训练集预测的多层人工神经网络的能源消耗的时间序列预测研究(Matlab代码实现)
基于Kaggle训练集预测的多层人工神经网络的能源消耗的时间序列预测研究(Matlab代码实现)
125 0
|
机器学习/深度学习
采用多层人工神经网络的能源消耗的时间序列预测(Matlab代码实现)
采用多层人工神经网络的能源消耗的时间序列预测(Matlab代码实现)
115 0
|
编解码 自然语言处理 语音技术
概率图模型在真实世界中的应用
概率图模型有许多不同的实际应用。 为了激起大家对概率图模型的兴趣,也为了让大家能够对概率图模型有感性的认知,本章会分享概率图模型的诸多实际应用案例。
287 0
概率图模型在真实世界中的应用
|
机器学习/深度学习 自然语言处理 算法
预测蛋白质间相互作用更准确、更细致,一个基于基因本体术语集的Transformer框架
预测蛋白质间相互作用更准确、更细致,一个基于基因本体术语集的Transformer框架
143 0
预测蛋白质间相互作用更准确、更细致,一个基于基因本体术语集的Transformer框架
|
机器学习/深度学习 自然语言处理 PyTorch
大规模的化学语言 transformer 模型捕捉分子结构和性质
大规模的化学语言 transformer 模型捕捉分子结构和性质
545 0
|
机器学习/深度学习 自然语言处理 数据安全/隐私保护
一个基于Transformer的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群
一个基于Transformer的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群
158 0