单变量和多变量对基因表达式的预测能力对比(下)

简介: 单变量和多变量对基因表达式的预测能力对比

640.png

在这里我们可以得出结论,LASSO比这两种单变量特征选择方法具有更大的预测能力。更好看的差异ROC曲线下的面积(AUC ROC)之间的三种方法,以及能够执行统计测试来解决如何重要ROC曲线之间的差异,让我们做一个箱线图的AUC ROC套索,单变量斯皮尔曼相关和Mann-Whitney U测试。

boxplot(roc_obj_multivar_AUC,roc_obj_univar_AUC,roc_obj_wilcox_univar_AUC,
names=c("LASSO","SPEARMAN","MANN-WHITNEY U TEST"),col=c("blue","green","red"))
mwu<-wilcox.test(roc_obj_wilcox_univar_AUC,roc_obj_multivar_AUC)
mtext(paste0("LASSO vs. Mann-Whitney U test: P-value = ",mwu$p.value))

640.png

我们可以看到,Spearman correlation和Mann-Whitney U test单变量特征选择模型具有相当的AUC ROC指标(尽管Mann-Whitney U test较好),且两者的AUC ROC即预测能力均明显低于multivarite LASSO。

然而,这种比较可能存在偏差。谈到单变量模型(Spearman和Mann-Whitney U检验),我们提到只有少数基因在多次检验的Bonferroni校正后是显著的。所以我们在构建单变量模型的预测得分时只使用了少量的基因,而LASSO选择了更多的基因~30个,请参阅github上的完整代码。如果LASSO更好的预测能力仅仅是因为它的预测分数使用了更多的特征呢?为了验证这一假设,在下一节中,我们将暂时忽略Bonferroni校正,并使用Spearman相关性和Mann-Whitney U检验,单独使用p值排序来确定~30个最具预测性的基因。换句话说,我们将使用与多品种相同数量的基因来构建其预测得分。通过选择的基因数量来模拟LASSO的相应的单变量模型称为SPEAR30 (Spearman correlation with ~30 differential expressed genes)和MWU30 (Mann-Whitney U test with ~30 differential expressed genes)。

性别预测:DESeq2与多元方法

在本节中,除了将LASSO与SPEAR30(具有约30个差异表达基因的Spearman相关性)模型和MWU30(具有约30个差异表达基因的Mann-Whitney U检验)模型进行比较之外,我们还将添加其他一些流行的单变量和多变量模型。

首先,当进行差异基因表达分析时,DESeq2是业界的一个黄金标准。该工具享有很高的声誉,在RNAseq社区中非常受欢迎。这是一个单变量工具,即假设基因表达计数为负二项分布,它会执行逐个基因的测试。此外,它采用了方差稳定程序,其中高表达的基因有助于低表达的基因得到正确测试。比较DESeq2预测能力与Mann-Whitney U检验和Spearman相关性,这些检验本质上利用相同的单变量思想,但是与假定基因表达为负生物学分布的DESeq2相比,都执行非参数类型的检验,这将是很有意思的。执行参数测试。并行地,我们将计算DESEQ2_30模型,该模型使用与LASSO选择的相同数目的基因(按与性别相关的p值排序)建立预测得分。类似于SPEAR30和MWU30模型。

其次,我们将添加另外两个多元特征选择模型,以与LASSO和单变量模型进行比较。这两个是偏最小二乘判别分析(PLS-DA)和随机森林,它们都是通用的多元模型。其中一个(PLS-DA)和LASSO是线性的,另一个(Random Forest)是非线性的。在这里,我们不仅旨在比较单变量或多变量特征选择模型,而且还想了解与线性LASSO和PLS-DA相比,非线性随机森林能否改善预测。

如上一节所述,我们将通过将数据集分为多次训练和测试来围绕ROC曲线建立置信区间。它涉及很多编码,我在这里不介绍代码,但是欢迎您在我的github上检查它们。在下面,我仅介绍经过多次训练测试后的每个模型的平均ROC曲线,以及AUC的箱线图。

640.png

640.png

我们在这里观察到一些有趣的事情。首先,与所有多变量模型相比,所有单变量模型的预测能力似乎都更差。即使是最差的多元模型,在这里是随机森林(RF),其AUC ROC也明显高于最好的单变量模型,在这里似乎是Mann-Whitney U检验(MWU)。

其次,具有与LASSO选择的基因数量相同的所有单变量模型(DESeq230,SPEAR30和MWU30)无法与所有其他单变量或多变量模型竞争,这暗示单变量模型的预测能力较差的原因不是由于数目不同特征/基因的选择,但由于构建预测得分的基因的等级和权重不同而异。

第三,与线性多变量LASSO和PLS-DA模型相比,非线性多变量随机森林对RNAseq基因表达的预测效果似乎没有改善。然而,根据我的经验,许多生命科学问题通常都是这样,在使用非线性分类器之前,通常值得检查一下简单的线性模型。

第四,也是最有趣的是,DESeq2单变量参数预测得分似乎不仅比多变量模型(LASSO, PLS-DA, Random Forest)表现更差,而且比单变量非参数模型,如Spearman相关和Mann-Whitney U检验也差。考虑到上述非参数测试的简单性和DESeq2的卓越声誉,这是相当出乎意料的。然而,事实证明,至少对于这个特定的数据集,简单的Spearman和Mann-Whitney非参数测试在预测能力方面优于DESeq2。

LASSO,Ridge和Elastic Net

作为奖励,在本节中,我们将比较LASSO(L1规范),Ridge(L2规范)和Elastic Net(L1和L2规范的组合)的预测能力的预测得分。通常,惩罚线性模型族的这三个成员之间的区别并不明显。在不赘述的情况下(有很多文献解释了这种差异),我们仅强调LASSO是最保守的方法,因此由于生命科学数据的高噪声水平,在生命科学中通常首选LASSO。Elastic Net在Ridge的凸优化优势和LASSO的严格性之间提供了很好的平衡,并且在癌症研究中非常受欢迎。接下来,我们再次对RNAseq基因表达数据集进行100次训练测试后,得出LASSO,Ridge和Elastic Net的平均ROC曲线,以及AUC ROC指标的箱线图。

640.png

640.png

我们可以看到LASSO和Elastic Net给出了几乎相同的ROC曲线,并且胜过了已知的最宽松的Ridge模型,这显然不利于模型概括,因此对于预测目的无益,因此Ridge可能不是第一个生命科学数据的最佳选择。

总结

在本文中,我们了解到,与单变量模型相比,多元统计模型似乎具有更好的预测能力。至少对于本文研究的GTEX骨骼肌RNAseq基因表达数据而言,单变量差异基因表达工具DESeq2不仅比诸如LASSO,PLS-DA和Random Forest等多变量模型,而且与简单非 参数单变量模型,例如Spearman相关性和Mann-Whitney U检验。


目录
相关文章
|
3月前
|
机器学习/深度学习 数据处理 Python
深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例
本文探讨了统计学与机器学习中的二元投影技术,它基于二元正态分布,用于预测一个变量在给定另一变量值时的期望值。文章分为三部分:首先介绍了二元正态投影的基本公式及其在回归中的应用;接着通过直观解释和模拟展示了不同相关性下变量间的关系;最后运用投影公式推导出线性回归的参数估计,并通过实例说明其在预测房屋价格等场景中的应用。附录中详细推导了二元线性投影的过程。二元投影作为一种强大工具,在数据分析中帮助简化复杂问题并揭示数据背后的规律。
51 1
深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例
|
6月前
stata对包含协变量的模型进行缺失值多重插补分析
stata对包含协变量的模型进行缺失值多重插补分析
|
6月前
R语言计量经济学:虚拟变量(哑变量)在线性回归模型中的应用
R语言计量经济学:虚拟变量(哑变量)在线性回归模型中的应用
|
6月前
SPSS两变量相关性分析
SPSS两变量相关性分析
126 0
|
Android开发
空间选择模型--既能帮决策,还可助推断
空间选择模型--既能帮决策,还可助推断
89 0
第4章 MATLAB编程基础——4.2 变量
第4章 MATLAB编程基础——4.2 变量
|
机器学习/深度学习 人工智能 分布式计算
因果推断:效应估计的常用方法及工具变量讨论
日常工作中很多的策略/产品的效果是无法设计完美的随机实验的,要求我们从观察性数据中去(拟合随机试验)发现因果关系、测算因果效应。
1848 0
因果推断:效应估计的常用方法及工具变量讨论
|
资源调度 算法 关系型数据库
概率图推断之变量消除算法
事实证明,推理是一项颇具挑战的任务。对于很多我们感兴趣的概率,要准确回答这些问题都是NP难题。至关重要的是,推理是否容易处理取决于描述概率的图的结构。尽管有些问题很难解决,我们仍然可以通过近似推理方法获得有用的答案。
260 0
概率图推断之变量消除算法
|
机器学习/深度学习
数理逻辑—命题公式及其赋值与分类
数理逻辑—命题公式及其赋值与分类
|
数据可视化
单变量和多变量对基因表达式的预测能力对比(上)
单变量和多变量对基因表达式的预测能力对比
144 0
单变量和多变量对基因表达式的预测能力对比(上)
下一篇
无影云桌面