差异基因通路富集分析的统计学假设-个人见解分享

简介: 本文主要分享了学习 “差异基因通路富集中使用的 超几何检验方法背后意义” 的个人见解

单细胞转录谱可以根据基因表达水平进行差异分析,通过差异分析,我们可以知道不同分群之间是否存在差异,以及存在显著表达量差异的基因集(DEG,在单细胞Seurat分析流程中,通过Seurat::FindAllMarkers()方法计算得到簇间的过表达差异基因)。进一步,探究这些DEG是由哪些生物学过程介导的,我们的实验处理影响了哪些生物学过程。理解这些DEG所代表的生物学意义的最佳途径就是基因富集分析(Gene Set Enrichment Analysis, GSEA)

1、富集分析的原理

富集分析(Gene Set Enrichment Analysis, GSEA)的基本思想是,如果一个生物学过程在当前研究中发生异常,则共同发挥功能的基因被选择出来作为与这一过程相关的基因集是大概率事件。分析比较一种生物学状态的研究群体的【过表达差异基因集】在一通路的富集概率相比在总基因集中【随机抽取的同数目基因集】在该通路的富集概率是否有显著差异,如果有显著差异,则认为该通路对于在当前研究群体是具有意义的。

生物学过程(通路)是受基因表达调控的,一条通路中富集的差异表达基因数目越多,这条通路整体的表达紊乱的可能性就越大。通过富集分析可以用来解读一组基因背后所代表的生物学知识,揭示其在细胞内或细胞外扮演了什么样的角色。

2、富集分析的统计模型-超几何分布型

超几何分布是统计学中的一种离散分布,它描述了由有限总体中抽出n个样本,成功抽出指定种类的样本的个数。 是生物信息学中常用的一种统计分布模型。基因的富集分析就采用这个模型来检验一组基因出现在某个通路的显著性。

2.1超几何分布与二项分布

在概率论中,超几何分布是一个在产品检验和随机抽样中应用广泛的离散概率分布模型。超几何分布与二项分布均基于伯努利试验

二项分布是建立在有放回抽样的基础上的,也就是抽出一个样品测量或处理完后再放回去,然后抽下一个,所以二项分布每次试验结果的发生概率是不变的(有放回抽样,每次实验相互独立)。但在实际的工作中通常我们很少会这样抽,一般都属于无放回抽样,这时候需要用超几何分布来计算概率。在一般的教课书上都会要求,当总体的容量N不大时,要用超几何分布来计算,如果N很大而n很小,则可以用二项分布来近似计算,也就是可以将无放回抽样近似看出有放回抽样。至于n要小到什么程度,有的书上说n/N小于0.1就可以了,有的书上则要求小于0.05。

总结:二项分布每次试验结果的发生概率是不变的(有放回抽样,每次实验相互独立),而超几何分布试验是在有限总体中进行无放回抽样(总体数量不断减少),所以每次试验结果发生的概率将发生变化(不放回抽样,每次实验相互影响)。

2.2离散分布中的两个重要函数:

概率质量函数(probability mass function,简称PMF):是离散随机变量X在各特定取值上的概率P(x),其总和为1。与概率密度函数f(x)不同,概率质量函数是对离散随机变量定义的,本身就代表该值的概率;而概率- - 密度函数是对连续随机变量定义的,本身不是概率,它在某区间内的积分才是概率。

  • R语言的概率质量函数求算方法dhyper(k,M,N-M,n):返回一次抽样的成功概率:

    超几何分布的概率质量函数:

累积分布函数(cumulative distribution function, 简称CDF):定义为F(x)=P(X≤x),是单调递增的,且满足:F(-∞)=0和F(+∞)=1。对离散分布而言,它是所有小于等于x的值出现的概率之和。

  • R语言的累积概率函数求算方法phyper(k,M,N-M,n):求解"至多"问题,返回相应的累计概率(超几何分布左尾概率):

3、超几何分布型的假设检验-Fisher's 精确检验

3.1 关于 Fisher's test:

Fisher's test 用来检验一次随机实验的结果是否支持对于某个随机实验的假设。具体如下:随机事件发生的概率小于0.05则认定该事件为小概率事件。一般原则认为在某个假设前提下,一次随机实验的结果不会出现小概率事件。若一次随机实验的结果出现了小概率事件则认定该假设不被支持。

  • 在给定假设(如零假设:事件间无显著相关性)的前提下,对假设事件的出现可能性做统计学检验,p-value越小,越能拒绝原假设。
  • p-value是一种概率:是在原假设为真的前提下,出现该样本或比该样本更极端的结果的概率之和。

3.2 富集分析的一般假设

H0: 已知生物学状态下的研究样本的n个过表达差异基因中富集$m$个A通路基因的事件是随机事件,说明A通路在该生物学状态下的研究样本中未发生紊乱。
H1: A通路在该生物学状态下的研究样本中发生了紊乱。

3.3 统计学显著性的 $p$值 计算

统计检验的$p$值($p-value$)是在原假设为真的前提下计算的比观察事件更极端事件的发生概率。对应离散分布型中的单尾概率或双尾概率。富集分析计算的是超几何分布型的右尾概率

关于$p$值计算的理解:既然我们需要通过在已知生物学状态下的研究样本的$n$个DEGs中富集了A通路相关基因的数目来检验A通路在该样本中是否发生紊乱。那么在假设H0为真的前提下,事件(随机在研究样本的基因集中抽取$n$个基因,其中富集有$\geq m$个通路A相关基因)应该是大概率事件,事件的发生概率$p \geq 95\%$。所以如果事件(随机在研究样本的基因集中抽取$n$个基因,其中富集有$\geq m$个通路A相关基因)的发生概率$p \leq 5\%$,就可以认为在统计假设为真的前提下发生了小概率事件,我们就有理由怀疑假设的真实性,从而拒绝接受该假设。

事件(随机在研究样本的基因集中抽取n个基因,其中富集有$\geq m$个通路A相关基因) 的发生概率$p$可以由计算超几何分布型的右尾概率得到,$p=1- F_X(m)$。
超几何分布右尾概率

Reference

假设检验、P值、假设检验和置信区间的关系 - 知乎 (zhihu.com)
R-概率统计 | 概率分布与假设检验 - 知乎 (zhihu.com)
R统计学(03): 超几何分布 - 知乎 (zhihu.com)
浅探富集分析中的超几何分布 - 简书 (jianshu.com)

目录
相关文章
|
2天前
|
数据可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
|
3天前
R语言用GAM广义相加模型研究公交专用道对行程时间变异度数据的影响
R语言用GAM广义相加模型研究公交专用道对行程时间变异度数据的影响
10 0
|
3天前
|
数据可视化 算法 数据挖掘
结构方程模型SEM、路径分析房价和犯罪率数据、预测智力影响因素可视化2案例(下)
结构方程模型SEM、路径分析房价和犯罪率数据、预测智力影响因素可视化2案例
14 1
|
3天前
|
数据可视化 前端开发 索引
结构方程模型SEM、路径分析房价和犯罪率数据、预测智力影响因素可视化2案例(上)
结构方程模型SEM、路径分析房价和犯罪率数据、预测智力影响因素可视化2案例
|
13天前
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状
18 0
|
1月前
|
机器学习/深度学习 存储 供应链
【软件设计师备考 专题 】运算基本方法:预测与决策、线性规划、网络图、模拟
【软件设计师备考 专题 】运算基本方法:预测与决策、线性规划、网络图、模拟
57 0
|
5月前
典型偏差和非典型偏差练习
典型偏差和非典型偏差练习
42 5
|
6月前
|
人工智能 数据挖掘
这图怎么画 | 相关分析棒棒糖图
这图怎么画 | 相关分析棒棒糖图
46 0
|
10月前
|
数据可视化 关系型数据库 数据挖掘
scRNA分析|一(尽)文(力)解决你的单细胞火山图问题
scRNA分析|一(尽)文(力)解决你的单细胞火山图问题
250 0
|
5月前
|
项目管理
典型偏差和非典型偏差
典型偏差和非典型偏差。
83 2

热门文章

最新文章