利用 Hi-C 挖掘癌症结构变异

简介: 利用 Hi-C 挖掘癌症结构变异

简介

在本文中,我们将使用 Caki2 细胞系的 Hi-C 数据来说明利用 Hi-C 数据发现 SVs 的过程。

  1. 利用 Hi-C 挖掘癌症结构变异 (1)

  2. 利用 Hi-C 挖掘癌症结构变异 (2)

使用Hi-C Breakfinder检测SVs

除了比对文件之外,Hi-C breakfinder 还需要两个expectation文件作为输入。该 expectation file 通过将来自多条正常细胞系的预期染色质contacts取平均而生成。这些预期contacts将被用于一个 negative binomial model 中,以检测由 SV 诱导的染色质contacts。

hic_breakfinder --bam-file Caki2.nodups.bam --exp-file-inter inter_expect_1Mb.hg38.txt --exp-file-intra intra_expect_100kb.hg38.txt --name Caki2

Hi-C breakfinder 可以通过设置选项 --min-1 kb 在 1 kb 的最终分辨率下检测 SV。这需要限制性内切酶,例如 MboI 和 DnpII。

最终的 SV 预测结果保存在名为 “Caki2.breaks.txt” 的文件中。该文件包含 10 列,其中 “score” 列描述 SV 检出的置信度。第 2–4 列表示第一个 SV 断点的可能坐标范围,第 6–8 列同样表示第二个 SV 断点的可能坐标范围。strand 指示预测的断点更接近末端(“+” strand)还是起始(“−” strand)坐标。第 10 列是检测到该 SV 时的分辨率。

SV 通常被分为不同类型,例如 deletion、inversion 和 translocation。SV 的分类可以从其两个断点的坐标和 strand 推导出来。注意,只有当两个 SV(四个断点)来自同一事件时才称为 inversion。Translocations 可以是 interchromosomal 或 intrachromosomal。

可视化SVs在互作热图上

现在我们有了 SV 预测结果,我们可以在 normal Hi-C map 或 reconstructed Hi-C map 上可视化这些 SV。有许多可视化工具可用于查看 Hi-C map,包括 Juicerbox、HiGlass或 web-based tools(例如 3D Genome Browser、WashU Epigenome Browser)。

每种工具可能要求以特定的格式的 Hi-C 矩阵文件作为输入。

为了简单起见,我们用 HiGlass 和自写的 Python 脚本来在 Hi-C 热图上展示结构变异。

第一步,先把 Hi-C 数据转成 cooler 格式的矩阵;接着用 ICE-normalization 把矩阵做归一化处理。

cooler cload pairs -c1 2 -p1 3 -c2 4 -p2 5 --assembly hg38 $CHROM_SIZE:10000 Caki2.nodups.valid.pairs.gz Caki2.10kb.cool

cooler balance Caki2.10kb.cool

cooler zoomify -p 8 --balance -o Caki2.10kb.mcool -r 20000,40000,100000,250000,500000,1000000 Caki2.10kb.cool

为了在 HiGlass 中可视化 Hi-C 矩阵,我们需要在本机部署一个 local HiGlass instance。

请注意,运行 HiGlass instance 之前,计算机必须先安装 Docker。要把 Hi-C 矩阵加入到 HiGlass instance,我们执行命令 “higlass-manage ingest”。

higlass-manage ingest Caki2.10kb.mcool

higlass-manage start

当 HiGlass 实例运行时,我们只需在浏览器中访问 localhost:8989 即可进入该工具。点击右上角的 “+” 号,选择我们刚刚添加的 Caki2.10kb.mcool。很容易就能在染色体间区域发现与正常 Hi-C 图谱不同的块状信号。下方给出了 chr11 与 chr12 之间这种信号的示例。

3D Genome Browser(3dgenome.org)提供了一种更便捷的方式来在 Hi-C 图谱上可视化 SV。我们可以在网站的 “Inter-chrom” 模块中输入感兴趣的区域,例如整个 chr11 和 chr12,就能查看与上述相似的 Hi-C 图谱。

Dixon 等人 2018 年的研究已经证明,Hi-C breakfinder 的 SV 检测结果非常准,BioNano 光学图谱和全基因组测序(WGS)给出了佐证。

可视化SVs在重建热图上

在染色体间区域出现的块状信号,源于两个远端区域之间因 SV 事件而被拉近的强接触。当我们将 reads 映射到 reference genome 时,这些接触看起来像是“染色体间”接触。我们将需要重建 Hi-C map,以更好地理解 SV loci 处局部染色体组织的变化。然而,由于 SV orientation combinations 的复杂性,Hi-C map 的重建具有挑战性。一个 SV 通常由两个 breakpoint 组成,每个 breakpoint 有两种可能的 orientation 之一(50 到 30,或 30 到 50)。基于 breakpoint orientation 的不同组合,Hi-C map 需要 flip 或 rotate,以反映被改变的线性 genome。

在此,我们提供了一个用于在 SV loci 重建并绘制 Hi-C map 的 Python script。我们重建了上述 Caki2 中 chr11-chr12 translocation 的局部 Hi-C map。

在 translocation breakpoint 上,Hi-C signal 的精细连续性以及类似 TAD 的结构,指示了染色质的重组以及该区域新相互作用的形成。

clr_path = ’Caki2.10kb.mcool’

plotHiC_SV(clr_path, (’chr11’, 125170000, ’+’), (’chr12’, 116800000, ’-’), w=1500000, res=40000)

在上述代码中,plotHiC_SV() 函数的第一个参数是 cooler file 的路径,第二和第三个参数只是来自 Hi-C breakfinder 的 SV breakpoints 和 orientation。我们还要求 Hi-C map 在距离断点 1.5 Mb 的上游或下游区域内绘制,分辨率为 40 kb。

最后,重建的 Hi-C map 为研究癌症基因组学中基因调控的新机制——如 enhancer hijacking,即一个远端 enhancer 通过 SVs 被带到其目标基因附近——提供了一个范例。

因此,我们相信这里描述的方法将为肿瘤发生过程提供新的见解。

相关文章
|
边缘计算 负载均衡 网络虚拟化
在GitHub首页3分钟被下架!爱奇艺《高并发网关设计》笔记被盗?
阿嘴又又又又又来给大家分享好书了:爱奇艺网络虚拟化团队的 《负载均衡:高并发网关设计原理与实践》,出版才半年,开源版本也只能想想!小编会在文末附电子版免费下载方式。
|
2月前
|
监控 数据可视化 定位技术
如何开发一套绩效管理(OKR)系统?(附架构图+流程图+代码参考)
本文详细介绍如何构建一套高效的OKR绩效管理系统,涵盖系统功能模块、业务流程、开发技巧与实现效果,助力企业提升目标管理与员工绩效。
|
2月前
|
监控 算法 API
拼多多API团购活动自动化:拼单成功率暴涨的幕后技术解析
本方案通过API自动化引擎破解传统团购效率低、响应慢、数据分散等问题,实现库存、价格、成团的实时联动。实战数据显示,成团时效提升74%,拼单成功率高达92%,人力成本下降80%。某生鲜商家接入后,月GMV突破500万元,成团率高达98.3%。API赋能团购,开启电商效率新纪元。
145 0
|
5月前
|
SQL DataWorks 大数据
DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”
婚礼纪是杭州火烧云科技推出的结婚服务平台,覆盖婚宴酒店、婚纱摄影等全产业链,年服务超2000万对新人。为应对海量数据处理挑战,婚礼纪选择阿里云DataWorks作为一站式大数据开发治理平台,解决数据血缘不清、指标口径混乱等问题。通过湖仓一体架构与全链路数据治理,实现多源异构数据高效整合,支撑精准营销、交易风控等核心场景。DataWorks新版数据开发Data Studio大幅提升开发效率,Copilot智能助手优化SQL代码生成与测试,助力婚礼纪构建数据驱动的结婚产业服务中枢。
|
2月前
|
数据采集 SQL 人工智能
阿里云可观测 2025 年 7 月产品动态
阿里云可观测 2025 年 7 月产品动态
|
2月前
|
监控 Kubernetes Java
最新技术栈驱动的 Java 绿色计算与性能优化实操指南涵盖内存优化与能效提升实战技巧
本文介绍了基于Java 24+技术栈的绿色计算与性能优化实操指南。主要内容包括:1)JVM调优,如分代ZGC配置和结构化并发优化;2)代码级优化,包括向量API加速数据处理和零拷贝I/O;3)容器化环境优化,如K8s资源匹配和节能模式配置;4)监控分析工具使用。通过实践表明,这些优化能显著提升性能(响应时间降低40-60%)同时降低资源消耗(内存减少30-50%,CPU降低20-40%)和能耗(服务器功耗减少15-35%)。建议采用渐进式优化策略。
141 2
|
3月前
|
物联网 Linux 开发者
快速部署自己私有MQTT-Broker-下载安装到运行不到一分钟,快速简单且易于集成到自己项目中
本文给物联网开发的朋友推荐的是GMQT,让物联网开发者快速拥有合适自己的MQTT-Broker,本文从下载程序到安装部署手把手教大家安装用上私有化MQTT服务器。
966 5
|
12月前
|
存储 数据可视化 数据挖掘
R语言在生物信息学中的应用
【10月更文挑战第21天】生物信息学是生物学、计算机科学和信息技术相结合的交叉学科,主要研究生物大分子信息的存储、处理、分析和解释。R语言作为一种强大的统计分析工具,被广泛应用于生物信息学领域。本文将介绍R语言在生物信息学中的应用,包括基因组学、转录组学、蛋白质组学、代谢组学等方面,帮助读者了解R语言在生物信息学中的重要性和应用前景。
493 4
|
7月前
|
人工智能 搜索推荐 物联网
线上共学 | Mac本地玩转大模型
本文介绍如何在Mac本地部署和使用大模型,包括基础运行、多模态扩展、交互优化、知识增强、定制进化等技术链路,并提供Ollama、Stable Diffusion、LM-Studio等工具的详细操作指南。
1363 8
|
11月前
|
传感器 机器学习/深度学习 人工智能
自动驾驶汽车中的AI:从概念到现实
【10月更文挑战第31天】自动驾驶汽车曾是科幻概念,如今正逐步成为现实。本文探讨了自动驾驶汽车的发展历程,从早期的机械控制到现代的AI技术应用,包括传感器融合、计算机视觉、路径规划和决策控制等方面。尽管面临安全性和法规挑战,自动驾驶汽车在商用运输、公共交通和乘用车领域展现出巨大潜力,未来将为人类带来更安全、便捷、环保的出行方式。