基于张量分解和关系约束的多种类型的MicroRNA-疾病预测

简介: 基于张量分解和关系约束的多种类型的MicroRNA-疾病预测

image.png

今天给大家介绍的文章是“Tensor Decomposition with Relational Constraints for Predicting Multiple Types of MicroRNA-disease Associations”,这篇文章是华中农业大学章文教授团队的研究成果。该论文年初出现在arXiv网站,6月初被Briefings in Bioinformatics杂志接收。作者创新性地将miRNA-disease-type三元组表示为一个张量,引入张量分解的方法来预测多种类型的miRNA-disease的关联,并进一步提出了一种新的张量分解方法——关联约束张量分解法(TDRC)。实验证明了该方法与现有的两种张量分解法相比具有很好的性能和更高的效率。

image.png

1


研究背景


MicroRNA(miRNA)是一种小型的非编码RNA,在与人类疾病相关的多种生物学过程中发挥着重要作用, miRNA的异常表达也与多种人类疾病相关。识别与miRNA相关的潜在关联有助于理解miRNA相关疾病的分子机制,帮助开发新的疗法。大多数现有的计算方法主要预测是否存在miRNA-disease的关联,如已有研究使用随机游走和矩阵分解模型等来预测潜在关联的存在。从下图1中可以看出,miRNA与疾病的关联有多种类型,要研究与miRNA失调有关的疾病的发病机制,不仅要探究miRNA与疾病的相关性而且还需要了解其具体类型。张量是一个多维数组,三维张量通常用于三联体数据分析,如多关系网络、推荐系统和知识图谱等。一个miRNA-disease-type可以自然地建模为一个三元组,研究的目标是分解张量来探索一些未被观察到的三元组。张量分解是一种常用的张量补全方法,它将一个张量分解为几个小张量的乘积,从而得到它的逼近,可以很好地克服上述局限性。此外,现有的一些张量分解方法仅利用了关联信息,无法很好地深入捕捉miRNAs与疾病之间的相关性。

image.png

图1 以前的研究和该论文的研究对比


2


主要贡献


(1)引入张量分解方法来研究多型miRNA-disease关联预测任务,并与最近的基线方法相比取得了不错的改进;


(2)研究了现有张量分解方法在研究问题上的有效性,并提出了TDRC方法以整合辅助生物信息作为约束来进一步提高性能;


(3)利用乘子的交替方向法(ADMM)框架,为TDRC模型提供了一种高效的优化算法,并利用共轭梯度(CG)方法避免在ADMM内部迭代时计算逆矩阵,以降低时间复杂度;


(4)实验结果表明,该算法具有良好的鲁棒性和有效性。


3


方法


本节首先介绍了最常用的CANDECOMP/PARAFAC (CP)分解,然后描述了将生物辅助信息整合到CP分解框架中的TDRC方法,最后提出了一种求解TDRC目标函数的有效优化方法。


3.1 CP分解


CP分解是一种最常见的张量分解形式。已知miRNA-disease型张量,CP分解模型可表示为以下优化问题:

image.png

3.2 TDRC方法

标准的CP模型只利用关联信息。作者进一步提出关联约束张量分解法(TDRC)方法,将相似性作为约束纳入CP模型。TDRC的整个模型体系结构如图2所示。

image.png

图2 用张量表示数据以及TDRC的模型体系结构

引入投影矩阵和,分别将疾病(P)和类型模式(C)的因子矩阵,转换为疾病语义相似矩阵和miRNA-miRNA功能相似矩阵,根据正则化,得到TDRC的目标函数:

image.png

作者使用交替更新的方式来优化目标函数,会交替更新投影矩阵和,相似矩阵和,求解优化目标函数方法见算法1。

image.png

4


实验


4.1数据库


人类MiRNA疾病数据库(HMDD)是一个含有经过实验验证的人类miRNA-disease关联的数据库。HMDD v2.0根据遗传学、表观遗传学、循环和miRNA靶点相互作用的证据,这些关联被分为四种类型。HMDD v3.0已经发布,论文使用的是2019年3月27日发布的最新版本v3.2,包含了五种不同类型的miRNA-disease关联。为了获得稠密的数据,论文删除了所有类型中涉及总关联少于两种的miRNAs(疾病),获得的数据中对两个数据集的统计结果如表1所示。研究者同时下载了Medical Subject Heading数据库,包括了医学主题标题中的疾病描述,可用于计算疾病语义相似度。


表1 本研究中使用的数据统计

image.png

4.2对比试验


为了全面研究模型在预测多种miRNA-disease相关性方面的表现,作者考虑了两种类型的10折交叉验证:和,选择了的方式,即将至少有一种关联的miRNA-disease对随机分为10个大小相等的集合,每轮使用一个子集进行测试,其余9个子集作为训练集。对于测试集中的每对miRNA-disease,都对其所有关联类型的预测进行排序,计算出最高的precision、recall和F1测度。选择NLPMMDA,两种张量分解方法CP和TFAI作为基线方法,实验对比结果如表2,可以看到在HMDD v3.2和HMDD v2.0上,TDRC的性能明显优于与其他方法相比有了明显的改进。


表2 各种方法效果对比(1)

image.png

作者对张量分解方法进行了时间效率分析,使用HMDD v3.2中的整个的张量和预先计算的相似性作为输入,在同样条件下做了对比试验,结果如表3所示,可以看到,TDRC相比其他张量分解方法具有高效性。

表3不同张量分解方法的平均运行时间(20次)

image.png

作者进一步评估张量分解方法预测未观察到的miRNA-disease三元组的实际能力。在HMDD v2.0数据集中使用所有已知的四种miRNA-disease关联类型来构建所有模型,然后得到那些未知的miRNA-disease三元组的预测分数,对与特定疾病相关的miRNA配对进行排序,并从HMDD v3.2中找到了前20位预测的结果。图3为TDRC方法的15种选定疾病的结果,可以看到,对于某些疾病,前20名的预测精度不低于50%,表明张量分解方法在预测疾病相关miRNA及其相关类型方面具有很大的潜力。

image.png

图3 TDRC基于HMDD v2.0对15种流行疾病的前20个预测中,在基于HMDD v3.2确认的miRNA-disease三元组的数量


5


总结


预测多种miRNA-disease关联有助于理解与miRNA失调相关的人类疾病的发病机制。在这项研究中,该论文介绍了一系列张量分解方法来预测未观察到的miRNA-disease-type三元组关联。此外,还提出了一种新的基于张量分解的方法,称为TDRC,它将关系约束引入到张量分解模型中,集成了miRNA-miRNA相似性和疾病相似性。利用ADMM框架,作者提供了一种高效率的优化算法,并利用共轭梯度(CG)方法避免在ADMM内部迭代时计算逆矩阵,以降低时间复杂度。实验结果表明,张量分解方法优于基线方法,并且有较强的鲁棒性和较高的效率。在未来的工作中,将讨论更多张量分解形式,如Tucker分解,同时也适用于基于张量的模型,比如药物靶点-疾病三元关联和多关联的药物-药物相互作用。


目录
相关文章
|
18天前
|
机器学习/深度学习 数据可视化 数据挖掘
基于Copula分布的合成数据采样:保持多维数据依赖结构的高效建模方法
本文深入探讨了Copula的基础理论、运作机制及其在数据科学领域的应用。Copula作为一种数学框架,能够将随机变量间的依赖关系与其边际分布分离,特别适用于处理非线性依赖关系或异质分布变量。文章通过年龄与收入的关系分析,展示了Copula在多元分析中的独特优势,并介绍了高斯Copula的具体应用实例。此外,还详细讲解了Copula在合成数据生成中的应用,验证了合成数据在训练机器学习模型时的有效性。
80 18
|
2月前
|
机器学习/深度学习 运维 监控
基于特征子空间的高维异常检测:一种高效且可解释的方法
本文探讨了一种替代传统单一检测器的方法,通过构建多个专注于特征子集(子空间)的检测器系统,来提高异常检测的准确性和效率。文章详细介绍了子空间方法在处理高维数据时的优势,包括缓解维度灾难、提高异常检测的可解释性和计算效率。同时,文中还讨论了子空间的选择策略,如基于领域知识、相关性、随机选择等,并介绍了PyOD工具包中实现子空间异常检测的具体方法。通过这些技术,异常检测系统能够更有效地识别数据中的异常记录,尤其是在特征数量众多的情况下。
51 9
基于特征子空间的高维异常检测:一种高效且可解释的方法
|
3月前
|
机器学习/深度学习 算法
马尔科夫决策过程及表格型方法
马尔科夫决策过程及表格型方法
33 1
|
8月前
|
机器学习/深度学习 SQL 算法
如何在因果推断中更好地利用数据?
本报告从两个方面来介绍我们如何利用更多的数据来做好因果推断,一个是利用历史对照数据来显式缓解混淆偏差,另一个是多源数据融合下的因果推断。
|
6月前
|
机器学习/深度学习 数据采集 数据挖掘
Python实现深度神经网络gcForest(多粒度级联森林)分类模型
Python实现深度神经网络gcForest(多粒度级联森林)分类模型
Python实现深度神经网络gcForest(多粒度级联森林)分类模型
|
7月前
|
机器学习/深度学习 算法 vr&ar
Theta方法:一种时间序列分解与预测的简化方法
Theta方法整合了两个基本概念:分解时间序列和利用基本预测技术来估计未来的价值。
219 0
|
8月前
|
机器学习/深度学习 数据可视化 算法
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
|
8月前
R语言分析协变量之间的非线性关系
R语言分析协变量之间的非线性关系
|
8月前
线性回归前特征离散化可简化模型、增强稳定性、选有意义特征、降低过拟合、提升计算效率及捕捉非线性关系。
【5月更文挑战第2天】线性回归前特征离散化可简化模型、增强稳定性、选有意义特征、降低过拟合、提升计算效率及捕捉非线性关系。但过多离散特征可能增加复杂度,丢失信息,影响模型泛化和精度。需谨慎平衡离散化利弊。
67 0
|
算法
基于有序模式的度量对多变量时间序列进行非线性分析研究(Matlab代码实现)
基于有序模式的度量对多变量时间序列进行非线性分析研究(Matlab代码实现)
158 0