简介
在本文中,我们将使用 Caki2 细胞系的 Hi-C 数据来说明利用 Hi-C 数据发现 SVs 的过程。
使用Hi-C Breakfinder检测SVs
除了比对文件之外,Hi-C breakfinder 还需要两个expectation文件作为输入。该 expectation file 通过将来自多条正常细胞系的预期染色质contacts取平均而生成。这些预期contacts将被用于一个 negative binomial model 中,以检测由 SV 诱导的染色质contacts。
hic_breakfinder --bam-file Caki2.nodups.bam --exp-file-inter inter_expect_1Mb.hg38.txt --exp-file-intra intra_expect_100kb.hg38.txt --name Caki2
Hi-C breakfinder 可以通过设置选项 --min-1 kb
在 1 kb 的最终分辨率下检测 SV。这需要限制性内切酶,例如 MboI 和 DnpII。
最终的 SV 预测结果保存在名为 “Caki2.breaks.txt” 的文件中。该文件包含 10 列,其中 “score” 列描述 SV 检出的置信度。第 2–4 列表示第一个 SV 断点的可能坐标范围,第 6–8 列同样表示第二个 SV 断点的可能坐标范围。strand 指示预测的断点更接近末端(“+” strand)还是起始(“−” strand)坐标。第 10 列是检测到该 SV 时的分辨率。
SV 通常被分为不同类型,例如 deletion、inversion 和 translocation。SV 的分类可以从其两个断点的坐标和 strand 推导出来。注意,只有当两个 SV(四个断点)来自同一事件时才称为 inversion。Translocations 可以是 interchromosomal 或 intrachromosomal。
可视化SVs在互作热图上
现在我们有了 SV 预测结果,我们可以在 normal Hi-C map 或 reconstructed Hi-C map 上可视化这些 SV。有许多可视化工具可用于查看 Hi-C map,包括 Juicerbox、HiGlass或 web-based tools(例如 3D Genome Browser、WashU Epigenome Browser)。
每种工具可能要求以特定的格式的 Hi-C 矩阵文件作为输入。
为了简单起见,我们用 HiGlass 和自写的 Python 脚本来在 Hi-C 热图上展示结构变异。
第一步,先把 Hi-C 数据转成 cooler
格式的矩阵;接着用 ICE-normalization
把矩阵做归一化处理。
cooler cload pairs -c1 2 -p1 3 -c2 4 -p2 5 --assembly hg38 $CHROM_SIZE:10000 Caki2.nodups.valid.pairs.gz Caki2.10kb.cool
cooler balance Caki2.10kb.cool
cooler zoomify -p 8 --balance -o Caki2.10kb.mcool -r 20000,40000,100000,250000,500000,1000000 Caki2.10kb.cool
为了在 HiGlass 中可视化 Hi-C 矩阵,我们需要在本机部署一个 local HiGlass instance。
请注意,运行 HiGlass instance 之前,计算机必须先安装 Docker。要把 Hi-C 矩阵加入到 HiGlass instance,我们执行命令 “higlass-manage ingest”。
higlass-manage ingest Caki2.10kb.mcool
higlass-manage start
当 HiGlass 实例运行时,我们只需在浏览器中访问 localhost:8989 即可进入该工具。点击右上角的 “+” 号,选择我们刚刚添加的 Caki2.10kb.mcool。很容易就能在染色体间区域发现与正常 Hi-C 图谱不同的块状信号。下方给出了 chr11 与 chr12 之间这种信号的示例。
3D Genome Browser(3dgenome.org)提供了一种更便捷的方式来在 Hi-C 图谱上可视化 SV。我们可以在网站的 “Inter-chrom” 模块中输入感兴趣的区域,例如整个 chr11 和 chr12,就能查看与上述相似的 Hi-C 图谱。
Dixon 等人 2018 年的研究已经证明,Hi-C breakfinder 的 SV 检测结果非常准,BioNano 光学图谱和全基因组测序(WGS)给出了佐证。
可视化SVs在重建热图上
在染色体间区域出现的块状信号,源于两个远端区域之间因 SV 事件而被拉近的强接触。当我们将 reads 映射到 reference genome 时,这些接触看起来像是“染色体间”接触。我们将需要重建 Hi-C map,以更好地理解 SV loci 处局部染色体组织的变化。然而,由于 SV orientation combinations 的复杂性,Hi-C map 的重建具有挑战性。一个 SV 通常由两个 breakpoint 组成,每个 breakpoint 有两种可能的 orientation 之一(50 到 30,或 30 到 50)。基于 breakpoint orientation 的不同组合,Hi-C map 需要 flip 或 rotate,以反映被改变的线性 genome。
在此,我们提供了一个用于在 SV loci 重建并绘制 Hi-C map 的 Python script。我们重建了上述 Caki2 中 chr11-chr12 translocation 的局部 Hi-C map。
在 translocation breakpoint 上,Hi-C signal 的精细连续性以及类似 TAD 的结构,指示了染色质的重组以及该区域新相互作用的形成。
clr_path = ’Caki2.10kb.mcool’
plotHiC_SV(clr_path, (’chr11’, 125170000, ’+’), (’chr12’, 116800000, ’-’), w=1500000, res=40000)
在上述代码中,plotHiC_SV() 函数的第一个参数是 cooler file 的路径,第二和第三个参数只是来自 Hi-C breakfinder 的 SV breakpoints 和 orientation。我们还要求 Hi-C map 在距离断点 1.5 Mb 的上游或下游区域内绘制,分辨率为 40 kb。
最后,重建的 Hi-C map 为研究癌症基因组学中基因调控的新机制——如 enhancer hijacking,即一个远端 enhancer 通过 SVs 被带到其目标基因附近——提供了一个范例。
因此,我们相信这里描述的方法将为肿瘤发生过程提供新的见解。