生物体必须要有精确的调控网络才能发挥其作用,序列特异性 TF 通过结合在顺式作用元件 (cis-regulatory element,CRE)上的特异性位点 (motif) 来调节靶标基因的转录,进而影响生物表型和适应度景观,同时还要跟其它很多因子交互,包括其它的转录因子、共同因子等。例如 40% 的肿瘤变异基因通过影响TF影响发病机制,一些著名的肿瘤基因如MYC, E2F, 和NF-κB都是转录因子。
人类基因组包含了 1800个 序列特异性的TF,每一个TF可以调节数百个靶标基因。某个TF和它所调控的所有靶标基因称为一个调节子( Regulon )。
SCENIC 的转录因子分析
SCENIC 的转录因子分析内容主要可分为两部分,建立 Regulon 和 Regulon活性分析。
生成由转录因子主导的基因调控网络(gene regulation network,GRNs) $\rightarrow$ 过滤网络内的假阳性靶点 $\rightarrow$ Regulon活性分析
1、共表达识别TF基因调控网络(GENIE3)
SCENIE 基于GRNBoost(由于R语言中好像没有GRNBoost算法框架,所以R版本的SCENIC使用了随机森林分类器,本质都是集成决策树模型),以 TF转录因子在样本的表达建立分类模型,从而搜索与 TF基因 协同变化的基因来确定潜在靶标基因(转录因子的潜在共表达网络)。每个网络包含一个转录因子及其系列潜在靶基因,纯粹基于共表达分析。…. 这也是SCENIC与WGCNA生成共表达网络时的差异(前者是分类,后者是聚类)。
GENIE 推断共表达这一步,可以事先通过降采样抽取少量细胞来推断 GRNs,后面在Regulon活性分析时纳入全组织细胞。
2、 构建Regulon (RcisTarget )
GENIE3 只是基于基因与TF的共表达推断建立了一个粗糙的调控网络,因此每个GRNs里面肯定存在假阳性的靶基因(即虽然是同该网络下的TF具有共表达趋势,但其实并不是受到了该TF调控的结果),对应构建一个尽量可靠的TF调控网络,这些靶点是有必要被过滤掉的。RcisTarget 基序富集分析方法基于 ENCODE 项目组的 motif数据库 ,该数据库记录了每个基因上游序列与 motif 的结合能,从而能够为每个TF-GRNs 执行 motif 富集分析,以过滤掉每个网络内缺乏 当前TF的直接motif支持 的假阳性靶标得到每个TF和其更可靠的靶标基因组成,称为 Regulon 。
2.1 RcisTarget 框架下的 Motif 富集原理
2.2 RcisTarget 纯化靶标基因策略
- 对于一个 TF1 的所有潜在靶标基因集(s),执行 RcisTarget 富集 motifs ;
- 对这些TF1靶标基因集合富集的 motifs 参考注释表,过滤出是TF1直接结合的 motifs ;
- 使用 GSEA 的排列富集策略,保留每个 motif 中对富集得分贡献最大的基因成员与TF1 组成最终的Regulon。
3、 Regulon 活性评分-AUCell
AUCell 分析内容是对每个 Regulon 在各个细胞的活性进行评分。参考 GSVA 算法基于基因表达水平的排列策略。
我个人理解这个AUC应该是和motif富集的AUC是同个概念的,即计算了每个细胞里排列前5%的基因里 Regulon的召回率。
AUCell:计算单细胞转录组的每个细胞中特定基因集的活性程度
---
原理类:
iRegulon:从基因列表到调控网络
用iRegulon进行主转录因子的预测
RcisTarget包基因集的转录因子富集分析
单细胞SCENIC分析原理和流程
GSA、GSEA、ssGSEA、GSVA的算法原理及它们的联系与区别
经验累积分布函数
教程类:
官方SCENIC (aertslab.org)
SCENIC软件配套数据库_database
SCENIC单细胞转录因子分析
【单细胞测序21】scenic转录因子应用全解析和代码讲解-欧易生物_哔哩哔哩_bilibili