合集说明
本系列合集主要用于3D-Genome
(Hi-C )系列的分析,主要涉及三维基因组分析中的数据处理,重复性评估,Compartment/TAD/Loop检测,差异分析等,欢迎订阅!
摘要
细胞核内的染色质折叠可以通过高通量染色体构象捕获(Hi-C)技术进行研究。Hi-C 实验能够统计基因组中任意两个基因组位点之间的相互作用次数,从而绘制出基因组范围内染色体内和染色体间的接触图谱(接触图)。对 Hi-C 数据进行统计和算法分析,主要是从这些接触图中提取有用信息。在染色体内 Hi-C 接触图中,一个特别显著的模式是某些基因组区域内部的接触非常密集,但与其他区域的接触则很少。这些区域被称为拓扑关联域(TADs)。识别 Hi-C 接触图中的 TADs 非常重要,因为它们是染色体组织的基本单元,且可能与功能活动密切相关。目前已经开发出多种用于识别 TADs 的方法(TAD 调用器),但这些方法的结果往往受到数据分辨率的影响,且不同方法之间的结果一致性较差。在后续,将介绍四种 TAD 调用器,并提供了详细的使用指南。此外,还展示了如何比较不同调用器识别出的 TADs,以及如何评估与 TAD 相关的生物学特征的富集情况。TAD 调用已经成为研究不同细胞环境中染色质三维结构的关键步骤。在此,还提供了提高这些分析稳健性和质量的建议。
简介
要将 2 米长的 DNA 纤维压缩进只有几微米大小的细胞核内,必须进行高度的折叠。因此,哺乳动物的基因组被折叠成一个复杂的多级结构,既能满足空间限制,又能保持足够的灵活性,以应对细胞内的各种活动,比如 DNA 修复和基因调控。然而,染色体构象捕获技术(包括 3C、4C、5C 和 Hi-C)的出现成为了该领域的一个重要转折点。尤其是 Hi-C 技术,它能够在全基因组水平上,以无偏倚的方式测量任意两个基因组位点之间的相互作用频率,从而为解析染色质的三维结构提供了前所未有的规模和精度。
Hi-C 实验通过量化基因组片段之间的染色质接触来生成数据,这些数据可以存储在一个对称矩阵(即“相互作用图”或“接触图”)中。在该矩阵中,行和列分别对应于固定大小的小基因组区域(称为“bin”),而矩阵中的数值则表示两个 bin 之间的相互作用次数。接触图可以通过多种方法进行归一化处理,并且通常以热图的形式呈现,其中颜色的深浅与相互作用的次数成正比。
在染色体内接触图谱中,一个非常显著的特征是主对角线上出现深色方块(上图)。这些方块代表了基因组中亚兆碱基级别的区域,这些区域内基因组片段之间的相互作用频率很高,但与其他相邻区域的接触却很少。这些区域被称为拓扑关联域(Topologically Associating Domains,TADs)。研究表明,TADs 的边界处通常会结合结构蛋白(如 CTCF 和黏连蛋白),并且这些区域还会优先富集活性或抑制性组蛋白修饰,但不会同时富集两者。此外,TADs 是染色体组织中的稳定单元,它们在不同细胞类型和细胞分化阶段都能保持相对稳定,并且可能与基因的转录活性和调控功能密切相关。实际上,TAD 边界的破坏或 TAD 内相互作用的中断,已被发现与遗传性疾病和癌症的发生有关。
TADs 鉴定
随着实验技术的发展,人们也开发了多种计算和统计方法,用于对 Hi-C 接触图进行归一化、可视化和比较,并从中提取染色质结构元素,例如环、拓扑关联域(TADs)和区室。特别是,目前已经发布了数十种用于从接触图中识别 TADs 的计算工具。这些 TAD 调用器基于一个假设:相互作用频率在 TAD 内较高,而在域边界处则较低,此外,域边界还表现出显著的上游或下游相互作用偏差。检测 TAD 边界的方法通常会为每个固定大小的基因组区域(bin)计算一个线性得分,并根据该得分的局部峰值(或谷值)来确定边界位置。此外,还有一些替代方法被提出用于识别 TADs,例如通过建立接触计数分布的统计模型,或者对 Hi-C 矩阵的列进行聚类分析。最后,少数方法采用了基于图论的方法:将接触图视为图的邻接矩阵,从而将 TAD 识别问题转化为在图中检测密集子网络或“社区”的问题。根据不同的工具,染色质划分成 TADs 的结果可能包含间隙,也可能出现嵌套或重叠的域。现有工具的一个较大子集已经接受了最近的基准测试评估,这些测试确定了一些“高质量”的 TAD 调用器。后续将介绍四种高质量的 TAD 调用器,这些工具要么基于线性得分的计算(例如 Arrowhead、CaTCH和 TopDom),要么基于接触频率的统计建模(例如 HiCseg)。
基因组分区的“质量”
此前发现,不同工具提取出的 TADs 可能存在明显差异。因此,为了确保与特定区域相关的结论能够重复验证,比较不同工具得出的分割结果并衡量它们之间的差异就显得尤为重要。为此,可以通过成对比较 TADs 列表的方式,采用在聚类或集合分析中常见的指标来进行评估,比如 Jaccard 指数( JI )、信息变异( VI )和一致性度量( MoC )。然而,由于目前没有一个通用的、不依赖具体方法的 TAD 分割“标准答案”,要客观判断某个 TAD 调用工具分割结果的好坏仍然是个难题。一种间接的办法是通过检查这些分割结果能否反映出那些常被认为与 TADs 及其边界相关的生物学特性来评估质量。比如,结构蛋白如 CTCF 和包含 RAD21、SMC3 的 cohesin 复合物,通常在 TAD 边界处大量聚集;而 TADs 内部则往往富含激活性标记( H3K36me3 )或抑制性标记( H3K27me3 ),但不会两者兼具。因此,一个有生物学意义的 TAD 分割,应该在边界处明显检测到结构蛋白的 ChIP-seq 信号峰值,并且在 TAD 内部能体现出 H3K27me3 与 H3K36me3 的显著比例差异。后续将详细介绍如何比较不同方法得出的 TADs,并评估它们在这些 TAD 相关特性上的表现。