单变量和多变量对基因表达式的预测能力对比(下)

简介: 单变量和多变量对基因表达式的预测能力对比

640.png

在这里我们可以得出结论,LASSO比这两种单变量特征选择方法具有更大的预测能力。更好看的差异ROC曲线下的面积(AUC ROC)之间的三种方法,以及能够执行统计测试来解决如何重要ROC曲线之间的差异,让我们做一个箱线图的AUC ROC套索,单变量斯皮尔曼相关和Mann-Whitney U测试。

boxplot(roc_obj_multivar_AUC,roc_obj_univar_AUC,roc_obj_wilcox_univar_AUC,
names=c("LASSO","SPEARMAN","MANN-WHITNEY U TEST"),col=c("blue","green","red"))
mwu<-wilcox.test(roc_obj_wilcox_univar_AUC,roc_obj_multivar_AUC)
mtext(paste0("LASSO vs. Mann-Whitney U test: P-value = ",mwu$p.value))

640.png

我们可以看到,Spearman correlation和Mann-Whitney U test单变量特征选择模型具有相当的AUC ROC指标(尽管Mann-Whitney U test较好),且两者的AUC ROC即预测能力均明显低于multivarite LASSO。

然而,这种比较可能存在偏差。谈到单变量模型(Spearman和Mann-Whitney U检验),我们提到只有少数基因在多次检验的Bonferroni校正后是显著的。所以我们在构建单变量模型的预测得分时只使用了少量的基因,而LASSO选择了更多的基因~30个,请参阅github上的完整代码。如果LASSO更好的预测能力仅仅是因为它的预测分数使用了更多的特征呢?为了验证这一假设,在下一节中,我们将暂时忽略Bonferroni校正,并使用Spearman相关性和Mann-Whitney U检验,单独使用p值排序来确定~30个最具预测性的基因。换句话说,我们将使用与多品种相同数量的基因来构建其预测得分。通过选择的基因数量来模拟LASSO的相应的单变量模型称为SPEAR30 (Spearman correlation with ~30 differential expressed genes)和MWU30 (Mann-Whitney U test with ~30 differential expressed genes)。

性别预测:DESeq2与多元方法

在本节中,除了将LASSO与SPEAR30(具有约30个差异表达基因的Spearman相关性)模型和MWU30(具有约30个差异表达基因的Mann-Whitney U检验)模型进行比较之外,我们还将添加其他一些流行的单变量和多变量模型。

首先,当进行差异基因表达分析时,DESeq2是业界的一个黄金标准。该工具享有很高的声誉,在RNAseq社区中非常受欢迎。这是一个单变量工具,即假设基因表达计数为负二项分布,它会执行逐个基因的测试。此外,它采用了方差稳定程序,其中高表达的基因有助于低表达的基因得到正确测试。比较DESeq2预测能力与Mann-Whitney U检验和Spearman相关性,这些检验本质上利用相同的单变量思想,但是与假定基因表达为负生物学分布的DESeq2相比,都执行非参数类型的检验,这将是很有意思的。执行参数测试。并行地,我们将计算DESEQ2_30模型,该模型使用与LASSO选择的相同数目的基因(按与性别相关的p值排序)建立预测得分。类似于SPEAR30和MWU30模型。

其次,我们将添加另外两个多元特征选择模型,以与LASSO和单变量模型进行比较。这两个是偏最小二乘判别分析(PLS-DA)和随机森林,它们都是通用的多元模型。其中一个(PLS-DA)和LASSO是线性的,另一个(Random Forest)是非线性的。在这里,我们不仅旨在比较单变量或多变量特征选择模型,而且还想了解与线性LASSO和PLS-DA相比,非线性随机森林能否改善预测。

如上一节所述,我们将通过将数据集分为多次训练和测试来围绕ROC曲线建立置信区间。它涉及很多编码,我在这里不介绍代码,但是欢迎您在我的github上检查它们。在下面,我仅介绍经过多次训练测试后的每个模型的平均ROC曲线,以及AUC的箱线图。

640.png

640.png

我们在这里观察到一些有趣的事情。首先,与所有多变量模型相比,所有单变量模型的预测能力似乎都更差。即使是最差的多元模型,在这里是随机森林(RF),其AUC ROC也明显高于最好的单变量模型,在这里似乎是Mann-Whitney U检验(MWU)。

其次,具有与LASSO选择的基因数量相同的所有单变量模型(DESeq230,SPEAR30和MWU30)无法与所有其他单变量或多变量模型竞争,这暗示单变量模型的预测能力较差的原因不是由于数目不同特征/基因的选择,但由于构建预测得分的基因的等级和权重不同而异。

第三,与线性多变量LASSO和PLS-DA模型相比,非线性多变量随机森林对RNAseq基因表达的预测效果似乎没有改善。然而,根据我的经验,许多生命科学问题通常都是这样,在使用非线性分类器之前,通常值得检查一下简单的线性模型。

第四,也是最有趣的是,DESeq2单变量参数预测得分似乎不仅比多变量模型(LASSO, PLS-DA, Random Forest)表现更差,而且比单变量非参数模型,如Spearman相关和Mann-Whitney U检验也差。考虑到上述非参数测试的简单性和DESeq2的卓越声誉,这是相当出乎意料的。然而,事实证明,至少对于这个特定的数据集,简单的Spearman和Mann-Whitney非参数测试在预测能力方面优于DESeq2。

LASSO,Ridge和Elastic Net

作为奖励,在本节中,我们将比较LASSO(L1规范),Ridge(L2规范)和Elastic Net(L1和L2规范的组合)的预测能力的预测得分。通常,惩罚线性模型族的这三个成员之间的区别并不明显。在不赘述的情况下(有很多文献解释了这种差异),我们仅强调LASSO是最保守的方法,因此由于生命科学数据的高噪声水平,在生命科学中通常首选LASSO。Elastic Net在Ridge的凸优化优势和LASSO的严格性之间提供了很好的平衡,并且在癌症研究中非常受欢迎。接下来,我们再次对RNAseq基因表达数据集进行100次训练测试后,得出LASSO,Ridge和Elastic Net的平均ROC曲线,以及AUC ROC指标的箱线图。

640.png

640.png

我们可以看到LASSO和Elastic Net给出了几乎相同的ROC曲线,并且胜过了已知的最宽松的Ridge模型,这显然不利于模型概括,因此对于预测目的无益,因此Ridge可能不是第一个生命科学数据的最佳选择。

总结

在本文中,我们了解到,与单变量模型相比,多元统计模型似乎具有更好的预测能力。至少对于本文研究的GTEX骨骼肌RNAseq基因表达数据而言,单变量差异基因表达工具DESeq2不仅比诸如LASSO,PLS-DA和Random Forest等多变量模型,而且与简单非 参数单变量模型,例如Spearman相关性和Mann-Whitney U检验。


目录
相关文章
|
SpringCloudAlibaba 容灾 关系型数据库
nacos常见问题之启动报错如何解决
Nacos是阿里云开源的服务发现和配置管理平台,用于构建动态微服务应用架构;本汇总针对Nacos在实际应用中用户常遇到的问题进行了归纳和解答,旨在帮助开发者和运维人员高效解决使用Nacos时的各类疑难杂症。
2609 2
|
7月前
|
小程序 JavaScript 搜索推荐
基于springboot的考研互助小程序
本项目基于SpringBoot开发考研互助小程序,整合优质资源,提供真题、视频、学习计划等功能,构建交流社区,助力考生高效备考,促进教育公平与信息化发展。
|
监控 安全 网络安全
你会爱上这三款公司电脑监控软件
探索高效团队管理的电脑监控软件,推荐WorkWin、Hubstaff和Veriato。WorkWin提供实时员工监控、USB管理、远程控制及权限控制,确保生产力和安全。Hubstaff聚焦时间追踪和活动记录,通过屏幕截图确保工作执行。Veriato则细致到键盘记录和邮件监控,全面了解用户活动。这三款工具将提升工作效率,保障信息安全。[了解更多](https://www.bilibili.com/read/cv35378263)
354 1
|
7月前
|
数据采集 搜索推荐 数据可视化
基于python大数据的商品数据可视化及推荐系统
本系统基于Python、Django与ECharts,构建大数据商品可视化及推荐平台。通过爬虫获取商品数据,利用可视化技术呈现销售趋势与用户行为,结合机器学习实现个性化推荐,助力电商精准营销与用户体验提升。
|
机器学习/深度学习 并行计算 算法
《探秘小批量梯度下降:批量大小如何左右算法性能》
小批量梯度下降(MBGD)在机器学习中广泛应用,其批量大小选择至关重要。合适的批量大小能平衡计算效率与收敛稳定性:较大批量提高硬件利用率、加速训练,但占用更多内存;较小小批量引入噪声,增强泛化能力,避免过拟合。批量大小影响梯度估计准确性、学习率调整及跳出局部最优的能力。实际应用需综合考虑数据集规模、硬件资源和模型复杂度,通过实验找到最优值。
414 1
|
机器学习/深度学习 数据处理 网络架构
基于深度学习的图像识别优化策略
【4月更文挑战第30天】 在当前的计算机视觉领域,深度学习已成为推动图像识别技术革新的核心动力。本文旨在探讨并提出一系列优化策略,以增强现有深度神经网络模型在处理复杂图像数据时的性能和效率。通过分析网络架构、训练过程和数据处理流程,我们提出了改进的模型正则化方法、高效的训练技巧以及针对特定问题的适应性调整。这些策略不仅在理论上具有创新性,而且在实践中已被证明能够显著提高模型的准确率和泛化能力,为图像识别领域的研究与应用提供了新的视角和技术路径。
|
运维 监控 安全
系统故障排查与问题解决指南:步步为营,精准定位
【8月更文挑战第16天】系统故障排查与问题解决是一项复杂而艰巨的任务,需要运维人员具备扎实的专业知识、丰富的实践经验以及良好的沟通能力和团队合作精神。通过遵循本文提供的指南,您可以更加高效地应对系统故障挑战,保障系统的稳定运行和业务的持续发展。
1051 2
|
缓存 测试技术 网络安全
gitlab ci cd 不完全指南
gitlab ci cd 不完全指南
706 1
|
JavaScript 前端开发 NoSQL
构建基于Node.js的全栈应用:从前端到后端的完整指南
【5月更文挑战第24天】本文是关于使用Node.js构建全栈应用的指南,涵盖前端(React或Vue)、后端(Node.js + Express)和数据库(MongoDB)的选型与实现。文章介绍了项目结构、前端组件化开发、后端API接口编写、前后端联调及部署上线的注意事项,帮助读者掌握全栈开发流程。
2674 2

热门文章

最新文章