GSEA 富集分析原理分析

简介: 本分分享了自己学习参考多篇 关于GSEA 原理的博客文献后总结的个人理解,以供参考学习

GSEA定义的富集分数计算原理

Gene Set Enrichment Analysis (基因集富集分析) 主要用来评估一个给定基因集内的基因与表型相关性强度,从而判断其对表型的贡献。

根据计算基因与表型的关联度(正相关变化或负相关变化),然后判断基因集内的基因是否富集在表型相关度排序基因表的前部或者后部。从而反映基因集内基因的协同变化是否与表型关联。在表型关联研究中,GSEA从基因集的富集角度出发,理论上更容易纳入变化水平较低但也与表型协同变化的基因,尤其是差异倍数不太大的基因集。

基因-表型-相关性顺序表(L)

富集得分ES, enrichment score ,该指标反映了基因集(S)内成员在基因-表型-相关性顺序表(L)中位于两端的富集程度。计算方式,从顺序表(L)的上的第一个基因开始,当遇到S内成员时加上统计值,否者降低统计值。ES分数记录为统计值最大的峰值,ES大于零表示在L的左端富集,ES小于零表示在L的右端富集。ES的计算非常类似 Kolmogorov–Smirnov test 统计量 $D$,反映了基因集(S)与其它基因的分布差异,如果基因集(S)内成员在一端极度富集,经验累积分布函数将在一段快速提升获得一个很大的 eCDF差值 $D$,从而反映了基因集(S)的两端富集情况。

runing ES step

ES显著性检验 Permutation Test,大量构造与观测基因集(s)等大的随机基因集,这些随机构造的结果大概率是与研究表型不具有相关性的结果,随机构造集内的成员在相关性顺序表(L)中的分布应呈接近均匀分布的状态,从而基于Permutation test 生成判断 观测ES 的有效富集显著性分数。基本过程就是打乱样本的表型标签(也可以随机抽取观测集),然后重新计算相关性顺序表(L)和ES得分(一般为执行1000次),然后估计观测ES的估计P-value(根据抽样ES的分布来估计),通常呈正态分布可计算 P_val = (大于观测ES的随机观测结果数)/ 1000(总测试次数)。当ES大于0并且具有统计学意义时,就可以说基因集S内基因相比其他基因表达上调。

NES,Normalized Enrichment Score,考虑了不同查询基因集的大小,将观测ES除以Permutation Test得到的所有 ES均值 计算得出NES。本质是考虑了不同基因集所代表的不同总体来源的观测ES的比较问题,将ES观测值转换为与总体背景下的ES均值的距离(类似方差距离的度量)来作为跨总体比较的结果。对于大于总体均值的ES观测值,NES应大于1。

$\therefore $ 判断基因集有效贡献的标准为 |NES|>1, p-val<0.05, q-val<0.25


Reference

GSA、GSEA、ssGSEA、GSVA的算法原理及它们的联系与区别
Permutation Test 置换检验 | Public Library of Bioinformatics (plob.org)
一文掌握GSEA,超详细教程! - 知乎 (zhihu.com)
Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles | PNAS
GSEA的统计学原理试讲 | 生信菜鸟团 (bio-info-trainee.com)

目录
相关文章
|
5月前
|
数据可视化 数据挖掘 大数据
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
135 0
|
2月前
|
机器学习/深度学习 算法 数据可视化
决策树算法介绍:原理与案例实现
决策树算法介绍:原理与案例实现
|
3月前
|
资源调度 数据可视化 算法
贝叶斯统计是一种基于贝叶斯定理的统计学方法,它不同于传统的频率派统计(或称为经典统计)。
贝叶斯统计是一种基于贝叶斯定理的统计学方法,它不同于传统的频率派统计(或称为经典统计)。
|
5月前
|
算法 数据可视化 数据挖掘
【数据挖掘】密度聚类DBSCAN讲解及实战应用(图文解释 附源码)
【数据挖掘】密度聚类DBSCAN讲解及实战应用(图文解释 附源码)
534 1
|
4月前
|
自然语言处理 算法 Serverless
详尽分享贝叶斯算法的基本原理和算法实现
详尽分享贝叶斯算法的基本原理和算法实现
47 0
|
5月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
5月前
利用R语言进行典型相关分析实战
利用R语言进行典型相关分析实战
|
5月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
5月前
|
机器学习/深度学习 数据挖掘 BI
【数据挖掘】回归分析定义、概念、分类、过程讲解(图文解释 超详细)
【数据挖掘】回归分析定义、概念、分类、过程讲解(图文解释 超详细)
275 0
|
存储 数据可视化 数据挖掘
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍