今天给大家介绍的文章是“Learning Representations to Predict Intermolecular Interactions on Large-Scale Heterogeneous Molecular Association Network”,这篇文章是中国科学院新疆理化技术研究所尤著宏教授团队的研究成果。作者整合了miRNAs、lncRNAs、circRNAs、mRNAs、蛋白质、药物、微生物、复杂疾病之间的综合关联,形成异质性分子关联网络,并提出了一种预测分子间相互作用的机器学习方法——MMI-Pred。具体的说,提出了一种充分利用生物分子的网络行为的网络嵌入模型,并计算了生物分子的属性特征。然后,结合这些鉴别特征来训练一个随机森林分类器来预测分子间的相互作用。实验表明,这个方法可以很好地推断各种分子组成之间的复杂关联。
1
介绍
各种分子组成及其相互作用在细胞的生命活动中起着重要的作用。例如,蛋白质是许多基本生命活动的直接载体,miRNAs,lncRNAs,circRNAs和微生物等作为环境或共同进化的伙伴,对人类的健康和疾病也有重要影响,这些分子和它们的协同作用维持着特殊的细胞活动,作为一个高度互联的分子联合网络的一部分运作。随着相关分子生物学、计算生物学和组学研究的快速发展,许多有价值的关于人类个体分子间联系的研究被开发出来,并且发布了各种有价值的实验数据,比如,miRNA-protein关联,circRNA-disease关联等。目前的研究关注的是两个或非常有限的分子间关系。然而,分子间的相互作用是广泛而相互关联的。受此启发,该研究团队提出了一种基于分子关联网络的框架,可以通过生物分子的学习行为和属性特征来预测分子与分子之间的关联,称为MMI-Pred。
该研究的主要贡献是:(1)整合构造了一个目前具有8个生物分子的比较完整的异构网络;(2)提出了一种基于分子关联网络的模型,结合了生物分子的学习行为和属性特征来预测分子与分子之间的关联。
2
方法
图1 MMI-Pred的工作流程图
MMI-Pred的工作流程如图1所示。通过连接miRNAs、lncRNAs、circRNAs、mRNAs、蛋白质、药物、微生物、复杂疾病之间的广泛关联,形成了一个全面的异构网络,包含了8种分子,18种关联,14315个节点,114150个分子关联,分布情况如图2所示。首先,采用基于随机游走和跳跃图的网络表示学习方法node2vec,来学习生物分子节点的行为特征。node2vec是一种考虑了宽度优先搜索(BFS)邻域和深度优先搜索(DFS)邻域的图嵌入方法,可以看作是DeepWalk结合DFS和BFS的随机漫步。
同时节点也有其属性特征,如mRNA、miRNA、lncRNA、circRNA、蛋白质的序列信息、化合物的化学结构、疾病和微生物的表型等,为了充分利用分子的这些属性特征,采用了各相关研究中广泛使用的特征提取方法。对于生物序列,该研究团队使用k-mer频率来表示属性信息(这里k=3),在化学结构上,将简化的分子输入线输入规范(SMILES)转化为摩根指纹。对于疾病和微生物,采用医学主题词(MeSH)描述来构造的有向无环图(DAG)获取语义相似度作为属性。考虑到上述属性表示方法所提取的不同类型生物分子的特征在维数上并不一致,采用深层栈式自编码器(SA)模型来学习不同类型节点,形成具有统一维度的表示。最后,引入一个随机森林分类器,结合属性和行为特征进行训练,进而预测分子间的关联。
图2. 异构网络中分子节点和分子间结合的数量和类型分布
3
实验
为了评估MMI-Pred的性能,首先在五折交叉验证下评估在网络中关联预测的能力,采用了AUC和AUPR作为评价指标,总体性能如图3和表1所示。在每次交叉验证中,MMI-Pred的性能非常接近,说明了模型的健壮性。模型最高Acc为93.50%,AUC值为0.9780。
图3. MMI-Pred在整个数据集上的五折交叉验证性能
表 1. MMI-Pred在整个数据集上的五折交叉验证性能
该团队设计了对比实验,验证节点的行为特征和属性特征对预测结果的影响,从图4和表2可以看出,MMI-Pred模型无论使用属性特征还是行为特征,都可以达到90%以上的准确率,说明特征的辨识能力是可以接受的。一般情况下,行为特征的性能略优于属性特征,而两种特征同时使用时性能最好。
图 4. 利用随机森林分类器比较网络行为和属性特征
表 2. 利用随机森林分类器比较网络行为和属性特征
该研究团队对比了随机森林算法与LR、 AdaBoost、 贝叶斯分类器和XGBoost分类器的性能,实验结果如图5,表3,可以看出采用随机森林分类器的MMI-Pred方法的性能最好。
图 5. MMI-Pred与四种不同的分类器模型之间的性能比较(包括NaiveBayes、Adaboost、Logistic回归和XGBoost分类器)
表 3. MMI-Pred与四种不同的分类器模型之间的性能比较
此外,该研究团队做了一个案例研究:MMI-Pred被用于预测与乳腺肿瘤和结肠肿瘤最相关的miRNAs。MMI-Pred预测了排名前30位的乳腺癌相关miRNA,其中25个得到了证实,说明MMI-Pred模型对特定类型连接的有较强的预测能力。
4
总结
在这项研究中,该团队整合了具有8种分子,18种关联的异构网络,并提出了一个基于网络表示学习的计算框架MMI-Pred,可以通过生物分子的学习行为和属性特征来预测分子与分子之间的关联,在五折交叉验证下,MMI-Pred在混合关联预测中实现了93.50%的准确率。这项工作未来可以考虑丰富异构网络的数据,对异构信息网络表示学习算法的进一步研究将有很大的帮助。