SCENIC分析转录因子调控网络的三步原理-开发者社区-阿里云

SCENIC 识别转录因子调控网络原理分享

2023-06-14 1843

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本分分享了关于学习参考多篇介绍SCENIC 软件分析原理的博客和文献后总结的个人关于 SCENIC 识别转录因子调控网络原理的理解，以供参考学习

生物体必须要有精确的调控网络才能发挥其作用，序列特异性 TF 通过结合在顺式作用元件 (cis-regulatory element，CRE)上的特异性位点 (motif) 来调节靶标基因的转录，进而影响生物表型和适应度景观，同时还要跟其它很多因子交互，包括其它的转录因子、共同因子等。例如 40% 的肿瘤变异基因通过影响TF影响发病机制，一些著名的肿瘤基因如MYC, E2F, 和NF-κB都是转录因子。

人类基因组包含了 1800个 序列特异性的TF，每一个TF可以调节数百个靶标基因。某个TF和它所调控的所有靶标基因称为一个调节子( Regulon )。

SCENIC 的转录因子分析

SCENIC 的转录因子分析内容主要可分为两部分，建立 Regulon 和 Regulon活性分析。

生成由转录因子主导的基因调控网络(gene regulation network，GRNs) $\rightarrow$ 过滤网络内的假阳性靶点 $\rightarrow$ Regulon活性分析

1、共表达识别TF基因调控网络(GENIE3)

SCENIE 基于GRNBoost（由于R语言中好像没有GRNBoost算法框架，所以R版本的SCENIC使用了随机森林分类器，本质都是集成决策树模型），以 TF转录因子在样本的表达建立分类模型，从而搜索与 TF基因协同变化的基因来确定潜在靶标基因（转录因子的潜在共表达网络）。每个网络包含一个转录因子及其系列潜在靶基因，纯粹基于共表达分析。…. 这也是SCENIC与WGCNA生成共表达网络时的差异（前者是分类，后者是聚类）。

GENIE 推断共表达这一步，可以事先通过降采样抽取少量细胞来推断 GRNs，后面在Regulon活性分析时纳入全组织细胞。

2、构建Regulon (RcisTarget )

GENIE3 只是基于基因与TF的共表达推断建立了一个粗糙的调控网络，因此每个GRNs里面肯定存在假阳性的靶基因（即虽然是同该网络下的TF具有共表达趋势，但其实并不是受到了该TF调控的结果），对应构建一个尽量可靠的TF调控网络，这些靶点是有必要被过滤掉的。RcisTarget 基序富集分析方法基于 ENCODE 项目组的 motif数据库 ，该数据库记录了每个基因上游序列与 motif 的结合能，从而能够为每个TF-GRNs 执行 motif 富集分析，以过滤掉每个网络内缺乏 当前TF的直接motif支持 的假阳性靶标得到每个TF和其更可靠的靶标基因组成，称为 Regulon 。

2.1 RcisTarget 框架下的 Motif 富集原理

2.2 RcisTarget 纯化靶标基因策略

对于一个 TF1 的所有潜在靶标基因集(s)，执行 RcisTarget 富集 motifs ；
对这些TF1靶标基因集合富集的 motifs 参考注释表，过滤出是TF1直接结合的 motifs ；
使用 GSEA 的排列富集策略，保留每个 motif 中对富集得分贡献最大的基因成员与TF1 组成最终的Regulon。

参考官网该步骤的解释 createRegulons

3、 Regulon 活性评分-AUCell

AUCell 分析内容是对每个 Regulon 在各个细胞的活性进行评分。参考 GSVA 算法基于基因表达水平的排列策略。
我个人理解这个AUC应该是和motif富集的AUC是同个概念的，即计算了每个细胞里排列前5%的基因里 Regulon的召回率。
AUCell：计算单细胞转录组的每个细胞中特定基因集的活性程度

---

原理类：
iRegulon：从基因列表到调控网络
 用iRegulon进行主转录因子的预测
 RcisTarget包基因集的转录因子富集分析
 单细胞SCENIC分析原理和流程
 GSA、GSEA、ssGSEA、GSVA的算法原理及它们的联系与区别
 经验累积分布函数

教程类：
官方SCENIC (aertslab.org)
SCENIC软件配套数据库_database
SCENIC单细胞转录因子分析
 【单细胞测序21】scenic转录因子应用全解析和代码讲解-欧易生物_哔哩哔哩_bilibili

SCENIC 识别转录因子调控网络原理分享