摘要
结构变异(SVs)是大型基因组重排,由于基因组重复序列和复杂 SV 结构等各种混淆因素的存在,当前使用短读长测序技术进行识别颇具挑战。Hi-C breakfinder
是首个利用高通量染色质构象捕获测定(Hi-C)技术来系统识别 SVs 的计算工具,不受常规混淆因素干扰。SVs 会改变基因组区域的空间距离,并在 Hi-C 中产生不连续信号,这些信号通过常规信息学实践难以分析。在此,我们提供逐步指导,说明如何使用 Hi-C 数据识别 SVs,以及如何在存在 SVs 的情况下重建 Hi-C 图谱。
本文介绍基础概念,下一节进行实战分析!
结构变异
结构变异(SVs)是包括倒位、缺失、重复、非整倍体、易位和染色质碎裂在内的大规模基因组重排。每个正常个体基因组都可能携带数千个种系 SVs。尽管其中大多数对人类健康影响中性,但一小部分种系 SVs 若破坏已知肿瘤抑制基因(如 BRCA2 与 ATM)则可能使个体对特定癌症易感。与此同时,大多数癌症基因组中都可见大量体细胞 SVs。癌基因激活事件已被确认为复发性 SVs 的产物,例如涉及 ABL1 与 MLL1 的易位诱导基因融合事件,可驱动白血病的发展。SVs 已在临床提供了明确的诊断与预后信息,并成为药物疗法的成功靶点。
检测方法
SVs 可以通过多种技术进行检测。历史上,核型分析、荧光原位杂交和微阵列曾被广泛使用。由于它们的通量和分辨率有限,近年来,基于全基因组高通量测序的技术(如 whole genome sequencing, WGS)已成为 SV 检测的诱人替代方案。尽管 WGS 已取得成功,但它受限于对短序列读长的依赖,导致基因组的结构连续性大量丢失,因此需要一种新方法,能够以可承受的成本有效识别基因组重复序列中的 SVs 并解析复杂的 SV。2018 年,最初为描绘染色质空间结构而发明的高通量染色体构象捕获技术Hi-C首次被用于 SV 检测。
Hi-C
Hi-C 之所以能够检测 SV,归功于其独特的实验设计。首先用交联剂固定细胞,以保存染色质的空间结构;随后用限制酶切断 DNA。DNA 断端经生物素标记并用 DNA 连接酶处理,使得空间上彼此邻近的 DNA 片段更易重新连接,并可通过生物素亲和富集。接着进行解交联,使重新连接的 DNA 与蛋白质分离。最后,以这些 DNA 构建测序文库并进行测序,产生数亿条测序读长。来自基因组两个位点的重连读长被成对回贴,大量这样的配对最终构成一个方阵,用来描述任意两个给定区域之间染色质接触的频率。
Hi-C breakfinder
Hi-C 显示出很适合用于 SV 检测的潜力,因为 SV 能够改变两个原本相距很远的基因组区域之间的空间距离,从而大幅提高这些区域 DNA 被重新连接的概率;与具有类似基因组距离的背景相比,这类重连读长会异常富集。事实上,自 2009 年以来,随着生成的 Hi-C 数据越来越多,人们已直观地注意到某些癌细胞系在 Hi-C 矩阵中呈现出特定模式,并推测它们正是由 SV 引起的。Hi-C breakfinder
是首个能在全基因组范围内系统识别 SV 的方法,可给出 SV 的类型、位点、方向及置信度评分。该方法在考虑基因组距离、A/B 区室、TAD 以及小染色体之间及亚端粒区域之间相互作用的背景下,当 Hi-C 接触数显著高于期望值时,即可判定 SV。与 WGS 相比,其一大优势是 Hi-C breakfinder
可利用映射到已连接 SV 臂上任意位置的读长,稳健地识别大规模 SV,而不受 SV 断点附近重复等复杂基因组序列的干扰。长插入读长还保留了遗传连续性,有助于解析和重建复杂 SV 簇。
展望
最近的研究表明,SVs 通过将远端增强子置于重要癌症基因旁边——一种被称为“增强子劫持”的现象——并重组局部染色质构象,从而诱导异常基因表达。因此,阐明 SV 引起的染色质构象变化可为基因调控的新机制带来启示。然而,系统识别新的染色质构象变化(如新型 TAD 和环结构域的形成)仍然困难重重。SV 位点的 SV 杂合性以及拷贝数变异(CNV)和肿瘤样本的异质性进一步增加了复杂性。未来工作需要更精密的计算方法来应对这些问题。