今天给大家介绍2019年11月发表在Nature Genetics的论文“Activity-by-contact model of enhancer-promoter regulation from thousands of CRISPR perturbations”,该工作由剑桥大学-哈佛大学-麻省理工学院联合研究所的Fulco团队联合完成。本研究提出一种新的实验方法CRISPRi-FlowFISH用于量化增强子对基因的影响,并提出一个名为ABC(Activity-by-contact model)的模型用于预测增强子-基因之间的相互作用。
1
研究背景
人类基因组中的增强子可以控制基因在特定细胞类型中的表达。因此,增强子的遗传变异会导致许多常见疾病。但是,哪些增强子调节哪些特定基因,这个问题仍待解决,目前也缺乏预测跨细胞类型的增强子与基因的联系的一般规则。为解决这一难题,Fulco团队提出了一种实验方法CRISPRi-FlowFISH,该方法的关键在于基于目标基因的表达并且通过CRISPRi和荧光原位杂交技术(FISH)来测量候选增强子功能。同时该团队发现一个简单的ABC(Activity-by-contact model)模型在预测CRISPR数据集中的复杂连接方面明显优于其他的方法。这种ABC模型能够在染色质状态测量的基础上,构建给定细胞类型中增强子与基因的连接的全基因组图。CRISPRi-FlowFISH和Activity-by-contact模型一起提供了一种系统的方法来定位和预测哪些增强子调节哪些基因,并将有助于解释非编码基因组中数千种疾病风险变体的功能。
2
方法
2.1 CRISPRi-FlowFISH
CRISPRi-FlowFISH结合了CRISPRi(一种基因干扰技术)和FISH(荧光原位杂交技术,一种基因染色技术),通过干扰目标基因附近的候选增强子核苷酸序列,并量化这些序列对目标基因的影响。其主要原理是gRNA可以引导KRAB-dCas9与特定核苷酸序列结合,抑制该序列表达。KRAB-dCas9已经被证明可以抑制许多启动子和增强子,并影响gRNA附近的200-500个碱基对(bp)内的候选调控元素。主要操作步骤如下:
检测目标基因附近核苷酸序列的DNase I hypersensitive (DHS)值,DHS峰值对应着候选增强子序列,为各个候选增强子设计gRNA并用荧光原位杂交技术为gRNA病毒染色。
gRNA病毒引导KRAB-dCas9进入细胞抑制候选增强子的表达并为细胞着色。同时对一个细胞群落的多个细胞进行实验,每个细胞至多能与一个gRNA结合。
利用荧光激活细胞分选技术,采样着色的细胞并根据目标基因表达强度将采集样本分为六组,然后使用高通量测序技术确定每组内每种gRNA的丰富度。
根据各种gRNA的丰富度和基因表达情况,使用Broyden–Fletcher–Goldfarb–Shanno 算法与极大似然估计方法推导各个gRNA抑制的候选增强子对目标基因的作用。
图1 CRISPRi-FlowFISH操作流程
2.2 Activity-by-contact model
目前已有基于增强子与目标基因的方法、基于基因组三维特征的方法和基于表观基因组特征的机器学习方法用于预测增强子和目标基因之间的功能性连接,其表现均不尽人意。Fulco团队提出了ABC模型,该模型基于简单的生物化学概念:一种远端候选元素对目标基因的定量影响应该取决于它作为增强子的活性(Activity),加权于它与目标基因启动子的3D接触频率(Contact);一个远端候选元素对目标基因表达的相对贡献应该取决于该元素的定量影响除以所有元素的总定量影响。在这个概念下,得到远端候选元素E对目标基因G的相对贡献值公式:
其中:
- 增强子活性(A)取远端候选元素核苷酸序列上DHS和H3K24ac ChIP–seq 的几何平均值,这两个参数被用于识别增强子。
- 接触频率(C)取5 kb分辨率下,远端候选元素E与目标基因G上启动子之间的由Hi-C实验法测得的KR归一化接触频率。
图2 ABC score计算过程
3
结果
3.1 使用CRISPRi-FlowFISH识别目标基因的调控元素
Fulco团队对K562人类白血病细胞进行实验,反复实验中对每个候选元素的计算出的量化影响具有高度相关性,皮尔森相关系数达0.94且CRISPRi-FlowFISH计算得到的量化影响满足逆转录定量PCR的测量,皮尔森相关系数达0.81。此外,在对GATA1的实验中,识别出三个之前已确定的候选元素。图3展示了CRISPRi-FlowFISH对目标基因GATA1与HDAC6对应调控元素的识别。计算得到的对目标基因表达有促进或抑制作用的远端候选元素正好对应核苷酸序列中DHS和H3K27ac值的波峰位置。
图3 CRISPRi-FlowFISH识别GATA 1和HDAC6的远端候选元素
3.2 使用CRISPRi-FlowFISH映射多个调控元素和多个目标基因的关系
在对全基因组进行调控元素和目标基因的CRISPRi-FlowFISH映射后,实验结果表明一个增强子可以调控多达五个目标基因、一个目标基因可以被多达十四个远端候选元素调控、部分增强子会跳过近端的基因而调控远端的基因、调控元素与目标基因之间的距离大多小于100kb,这些符合其他实验方法的结果。此外,在测试的3863个远端候选元素-目标基因对中,141对涉及重要基因表达的识别错误率低于0.05。
图4 CRISPRi-FlowFISH映射多个调控元素和多个目标基因的关系
3.3 使用ABC模型预测目标基因的增强子
Fulco团队将ABC模型对远端候选元素-目标基因对的评分与CRISPRi-FlowFISH测得的量化影响进行了对比,二者之间相关性说明了模型的优秀性能。
图5 远端候选元素-目标基因的ABC评分和量化影响的相关性
作者还比较了基于ABC阈值的二元分类模型和其他增强子-基因调控预测模型的召回率,精确度和AUPRC,结果表明ABC模型性能极佳,AUPRC达0.65,优于其他预测模型,如图6。此外,ABC模型也优于单独使用A或C的模型(AUPRC分别为0.22和0.29)。
图6 ABC与其他模型的预测性能比较
3.4 ABC模型跨细胞类型的泛化能力
虽然染色质可达性和组蛋白修饰在许多类型的细胞中可以测量,但并不是所有细胞类型都有三维接触谱,因此需要定义其他方法来计算ABC模型中的C值。由于Hi-C实验测得的接触频率在不同细胞类型中具有极大相关性且很大程度上取决于基因序列的一维距离,因此可以直接使用K562的Hi-C数据或者十个人类细胞类型的Hi-C平均值或者一维距离的倒数作为C值,这三种替代方案在K562中达到了与原方案相近的预测性能(AUPRC = 0.65, 0.66 ,0.64)。迁移到其他细胞类型上时也有不错的表现,如图7。
图7 ABC模型跨五个细胞类型的平均性能
4
讨论
为了更好地表征并预测增强子对目标基因的影响,本文提出新型实验方法CRISPRi-FlowFISH 和ABC预测模型,两者结合提供了映射和预测增强子调控基因和破译非编码基因组中疾病风险变体功能的系统性方法。在30个基因上测试了多达3500对潜在的增强子-基因对后,结果表明简单的ABC模型预测复杂影响的能力大幅度优于先前的预测模型。
本文还揭示了增强子-基因连接的关键性质并为将来研究调控元素和非编码基因遗传变异奠定了基础。文章中的实验数据以及ABC模型的预测都表明增强子往往调控多个基因、大部分起作用的增强子距离目标启动子的不超过100kb、增强子对目标基因的量化影响时大范围的。
然而,目前的增强子-基因相互作用模型是不完整的。特别是,仅根据物理接触来推断增强子影响的方法,其精确度和灵敏度都很低,本文目前工作重点为寻找更有效的特征来表示和预测相互作用。此外,未来研究一个有前景的领域将是使用额外的CRISPRi-FlowFISH数据集来迭代地细化和改进ABC或类似的模型,并将这些模型应用于来自多种细胞类型的许多公共功能基因组数据集。
Data availability
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE118912
Code availability
https://github.com/broadinstitute/ABC-Enhancer-Gene-Prediction