差异基因通路富集分析的统计学假设-个人见解分享

简介: 本文主要分享了学习 “差异基因通路富集中使用的 超几何检验方法背后意义” 的个人见解

单细胞转录谱可以根据基因表达水平进行差异分析,通过差异分析,我们可以知道不同分群之间是否存在差异,以及存在显著表达量差异的基因集(DEG,在单细胞Seurat分析流程中,通过Seurat::FindAllMarkers()方法计算得到簇间的过表达差异基因)。进一步,探究这些DEG是由哪些生物学过程介导的,我们的实验处理影响了哪些生物学过程。理解这些DEG所代表的生物学意义的最佳途径就是基因富集分析(Gene Set Enrichment Analysis, GSEA)

1、富集分析的原理

富集分析(Gene Set Enrichment Analysis, GSEA)的基本思想是,如果一个生物学过程在当前研究中发生异常,则共同发挥功能的基因被选择出来作为与这一过程相关的基因集是大概率事件。分析比较一种生物学状态的研究群体的【过表达差异基因集】在一通路的富集概率相比在总基因集中【随机抽取的同数目基因集】在该通路的富集概率是否有显著差异,如果有显著差异,则认为该通路对于在当前研究群体是具有意义的。

生物学过程(通路)是受基因表达调控的,一条通路中富集的差异表达基因数目越多,这条通路整体的表达紊乱的可能性就越大。通过富集分析可以用来解读一组基因背后所代表的生物学知识,揭示其在细胞内或细胞外扮演了什么样的角色。

2、富集分析的统计模型-超几何分布型

超几何分布是统计学中的一种离散分布,它描述了由有限总体中抽出n个样本,成功抽出指定种类的样本的个数。 是生物信息学中常用的一种统计分布模型。基因的富集分析就采用这个模型来检验一组基因出现在某个通路的显著性。

2.1超几何分布与二项分布

在概率论中,超几何分布是一个在产品检验和随机抽样中应用广泛的离散概率分布模型。超几何分布与二项分布均基于伯努利试验

二项分布是建立在有放回抽样的基础上的,也就是抽出一个样品测量或处理完后再放回去,然后抽下一个,所以二项分布每次试验结果的发生概率是不变的(有放回抽样,每次实验相互独立)。但在实际的工作中通常我们很少会这样抽,一般都属于无放回抽样,这时候需要用超几何分布来计算概率。在一般的教课书上都会要求,当总体的容量N不大时,要用超几何分布来计算,如果N很大而n很小,则可以用二项分布来近似计算,也就是可以将无放回抽样近似看出有放回抽样。至于n要小到什么程度,有的书上说n/N小于0.1就可以了,有的书上则要求小于0.05。

总结:二项分布每次试验结果的发生概率是不变的(有放回抽样,每次实验相互独立),而超几何分布试验是在有限总体中进行无放回抽样(总体数量不断减少),所以每次试验结果发生的概率将发生变化(不放回抽样,每次实验相互影响)。

2.2离散分布中的两个重要函数:

概率质量函数(probability mass function,简称PMF):是离散随机变量X在各特定取值上的概率P(x),其总和为1。与概率密度函数f(x)不同,概率质量函数是对离散随机变量定义的,本身就代表该值的概率;而概率- - 密度函数是对连续随机变量定义的,本身不是概率,它在某区间内的积分才是概率。

  • R语言的概率质量函数求算方法dhyper(k,M,N-M,n):返回一次抽样的成功概率:

    超几何分布的概率质量函数:

累积分布函数(cumulative distribution function, 简称CDF):定义为F(x)=P(X≤x),是单调递增的,且满足:F(-∞)=0和F(+∞)=1。对离散分布而言,它是所有小于等于x的值出现的概率之和。

  • R语言的累积概率函数求算方法phyper(k,M,N-M,n):求解"至多"问题,返回相应的累计概率(超几何分布左尾概率):

3、超几何分布型的假设检验-Fisher's 精确检验

3.1 关于 Fisher's test:

Fisher's test 用来检验一次随机实验的结果是否支持对于某个随机实验的假设。具体如下:随机事件发生的概率小于0.05则认定该事件为小概率事件。一般原则认为在某个假设前提下,一次随机实验的结果不会出现小概率事件。若一次随机实验的结果出现了小概率事件则认定该假设不被支持。

  • 在给定假设(如零假设:事件间无显著相关性)的前提下,对假设事件的出现可能性做统计学检验,p-value越小,越能拒绝原假设。
  • p-value是一种概率:是在原假设为真的前提下,出现该样本或比该样本更极端的结果的概率之和。

3.2 富集分析的一般假设

H0: 已知生物学状态下的研究样本的n个过表达差异基因中富集$m$个A通路基因的事件是随机事件,说明A通路在该生物学状态下的研究样本中未发生紊乱。
H1: A通路在该生物学状态下的研究样本中发生了紊乱。

3.3 统计学显著性的 $p$值 计算

统计检验的$p$值($p-value$)是在原假设为真的前提下计算的比观察事件更极端事件的发生概率。对应离散分布型中的单尾概率或双尾概率。富集分析计算的是超几何分布型的右尾概率

关于$p$值计算的理解:既然我们需要通过在已知生物学状态下的研究样本的$n$个DEGs中富集了A通路相关基因的数目来检验A通路在该样本中是否发生紊乱。那么在假设H0为真的前提下,事件(随机在研究样本的基因集中抽取$n$个基因,其中富集有$\geq m$个通路A相关基因)应该是大概率事件,事件的发生概率$p \geq 95\%$。所以如果事件(随机在研究样本的基因集中抽取$n$个基因,其中富集有$\geq m$个通路A相关基因)的发生概率$p \leq 5\%$,就可以认为在统计假设为真的前提下发生了小概率事件,我们就有理由怀疑假设的真实性,从而拒绝接受该假设。

事件(随机在研究样本的基因集中抽取n个基因,其中富集有$\geq m$个通路A相关基因) 的发生概率$p$可以由计算超几何分布型的右尾概率得到,$p=1- F_X(m)$。
超几何分布右尾概率

Reference

假设检验、P值、假设检验和置信区间的关系 - 知乎 (zhihu.com)
R-概率统计 | 概率分布与假设检验 - 知乎 (zhihu.com)
R统计学(03): 超几何分布 - 知乎 (zhihu.com)
浅探富集分析中的超几何分布 - 简书 (jianshu.com)

目录
相关文章
|
数据挖掘
生信教程:使用拓扑加权探索基因组进化(1)
生信教程:使用拓扑加权探索基因组进化(1)
111 1
|
数据可视化 Python
生信教程:使用拓扑加权探索基因组进化(3)
生信教程:使用拓扑加权探索基因组进化(3)
83 0
|
18天前
|
数据挖掘 Python
时间序列分析中的互相关与相干性分析:前导-滞后关系的理论基础与实际应用
时间序列数据在现代数据分析中广泛应用,从金融市场到生物医学领域。本文重点介绍两种分析工具:互相关和相干性分析。互相关用于量化两个时间序列的时域关系,揭示前导-滞后关系;相干性分析则评估信号在频率域的相关性,适用于脑电图等研究。通过实际案例和Python代码示例,展示了这两种方法的应用价值。
143 8
时间序列分析中的互相关与相干性分析:前导-滞后关系的理论基础与实际应用
|
6天前
|
数据挖掘
五种被低估的非常规统计检验方法:数学原理剖析与多领域应用价值研究
本文将详细介绍五种具有重要应用价值的统计检验方法,并探讨它们在免疫学(TCR/BCR库分析)、金融数据分析和运动科学等领域的具体应用。
33 11
|
8月前
|
算法 数据挖掘
R语言——AVOCADO“(异常植被变化检测)算法(1990-2015数据分析)监测森林干扰和再生(含GEE影像下载代码)
R语言——AVOCADO“(异常植被变化检测)算法(1990-2015数据分析)监测森林干扰和再生(含GEE影像下载代码)
116 1
|
8月前
|
机器学习/深度学习 算法 搜索推荐
SPSS大学生网络购物行为研究:因子分析、主成分、聚类、交叉表和卡方检验
SPSS大学生网络购物行为研究:因子分析、主成分、聚类、交叉表和卡方检验
|
8月前
|
数据可视化 Python
R语言布朗运动模拟股市、物种进化树状图、二项分布可视化
R语言布朗运动模拟股市、物种进化树状图、二项分布可视化
|
8月前
R语言用GAM广义相加模型研究公交专用道对行程时间变异度数据的影响
R语言用GAM广义相加模型研究公交专用道对行程时间变异度数据的影响
|
8月前
|
存储
R语言分布滞后非线性模型(DLNM)研究发病率,死亡率和空气污染示例
R语言分布滞后非线性模型(DLNM)研究发病率,死亡率和空气污染示例
|
8月前
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状