GSEA 富集分析原理分析

简介: 本分分享了自己学习参考多篇 关于GSEA 原理的博客文献后总结的个人理解,以供参考学习

GSEA定义的富集分数计算原理

Gene Set Enrichment Analysis (基因集富集分析) 主要用来评估一个给定基因集内的基因与表型相关性强度,从而判断其对表型的贡献。

根据计算基因与表型的关联度(正相关变化或负相关变化),然后判断基因集内的基因是否富集在表型相关度排序基因表的前部或者后部。从而反映基因集内基因的协同变化是否与表型关联。在表型关联研究中,GSEA从基因集的富集角度出发,理论上更容易纳入变化水平较低但也与表型协同变化的基因,尤其是差异倍数不太大的基因集。

基因-表型-相关性顺序表(L)

富集得分ES, enrichment score ,该指标反映了基因集(S)内成员在基因-表型-相关性顺序表(L)中位于两端的富集程度。计算方式,从顺序表(L)的上的第一个基因开始,当遇到S内成员时加上统计值,否者降低统计值。ES分数记录为统计值最大的峰值,ES大于零表示在L的左端富集,ES小于零表示在L的右端富集。ES的计算非常类似 Kolmogorov–Smirnov test 统计量 $D$,反映了基因集(S)与其它基因的分布差异,如果基因集(S)内成员在一端极度富集,经验累积分布函数将在一段快速提升获得一个很大的 eCDF差值 $D$,从而反映了基因集(S)的两端富集情况。

runing ES step

ES显著性检验 Permutation Test,大量构造与观测基因集(s)等大的随机基因集,这些随机构造的结果大概率是与研究表型不具有相关性的结果,随机构造集内的成员在相关性顺序表(L)中的分布应呈接近均匀分布的状态,从而基于Permutation test 生成判断 观测ES 的有效富集显著性分数。基本过程就是打乱样本的表型标签(也可以随机抽取观测集),然后重新计算相关性顺序表(L)和ES得分(一般为执行1000次),然后估计观测ES的估计P-value(根据抽样ES的分布来估计),通常呈正态分布可计算 P_val = (大于观测ES的随机观测结果数)/ 1000(总测试次数)。当ES大于0并且具有统计学意义时,就可以说基因集S内基因相比其他基因表达上调。

NES,Normalized Enrichment Score,考虑了不同查询基因集的大小,将观测ES除以Permutation Test得到的所有 ES均值 计算得出NES。本质是考虑了不同基因集所代表的不同总体来源的观测ES的比较问题,将ES观测值转换为与总体背景下的ES均值的距离(类似方差距离的度量)来作为跨总体比较的结果。对于大于总体均值的ES观测值,NES应大于1。

$\therefore $ 判断基因集有效贡献的标准为 |NES|>1, p-val<0.05, q-val<0.25


Reference

GSA、GSEA、ssGSEA、GSVA的算法原理及它们的联系与区别
Permutation Test 置换检验 | Public Library of Bioinformatics (plob.org)
一文掌握GSEA,超详细教程! - 知乎 (zhihu.com)
Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles | PNAS
GSEA的统计学原理试讲 | 生信菜鸟团 (bio-info-trainee.com)

目录
相关文章
|
人工智能 数据可视化 Go
R绘图实战|GSEA富集分析图
GSEA(Gene Set EnrichmentAnalysis),即基因集富集分析,它的基本思想是使用预定义的基因,将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。
2792 0
R绘图实战|GSEA富集分析图
|
6月前
|
数据挖掘 Python
【Python数据分析】假设检验的基本思想、原理和步骤
文章详细介绍了假设检验的基本思想、原理、可能犯的错误类型、基本步骤以及在不同总体情况下的检验方法,阐述了如何在Python中应用假设检验,并通过P值来判断假设的可靠性。
119 1
|
8月前
|
数据可视化 算法 大数据
深入解析高斯过程:数学理论、重要概念和直观可视化全解
这篇文章探讨了高斯过程作为解决小数据问题的工具,介绍了多元高斯分布的基础和其边缘及条件分布的性质。文章通过线性回归与维度诅咒的问题引出高斯过程,展示如何使用高斯过程克服参数爆炸的问题。作者通过数学公式和可视化解释了高斯过程的理论,并使用Python的GPy库展示了在一维和多维数据上的高斯过程回归应用。高斯过程在数据稀疏时提供了一种有效的方法,但计算成本限制了其在大数据集上的应用。
500 1
|
9月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行典型相关分析实战
利用R语言进行典型相关分析实战
|
9月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
9月前
|
算法 数据可视化
R语言社区检测算法可视化网络图:ggplot2绘制igraph对象分析物种相对丰度
R语言社区检测算法可视化网络图:ggplot2绘制igraph对象分析物种相对丰度
|
定位技术
关于GIS原理的实际分析应用题的一些解法
关于GIS原理的实际分析应用题的一些解法
132 0
|
数据可视化 数据库
scRNA分析|使用CellChat完成细胞通讯分析-简单且可视化出众,代码自取
scRNA分析|使用CellChat完成细胞通讯分析-简单且可视化出众,代码自取
1716 0
|
9月前
【SPSS】相关分析和偏相关分析详细操作过程(附案例实战)
【SPSS】相关分析和偏相关分析详细操作过程(附案例实战)
973 0