利用 Hi-C 挖掘癌症结构变异 (1)

简介: 利用 Hi-C 挖掘癌症结构变异 (1)

摘要

结构变异(SVs)是大型基因组重排,由于基因组重复序列和复杂 SV 结构等各种混淆因素的存在,当前使用短读长测序技术进行识别颇具挑战。Hi-C breakfinder 是首个利用高通量染色质构象捕获测定(Hi-C)技术来系统识别 SVs 的计算工具,不受常规混淆因素干扰。SVs 会改变基因组区域的空间距离,并在 Hi-C 中产生不连续信号,这些信号通过常规信息学实践难以分析。在此,我们提供逐步指导,说明如何使用 Hi-C 数据识别 SVs,以及如何在存在 SVs 的情况下重建 Hi-C 图谱。

本文介绍基础概念,下一节进行实战分析!

结构变异

结构变异(SVs)是包括倒位、缺失、重复、非整倍体、易位和染色质碎裂在内的大规模基因组重排。每个正常个体基因组都可能携带数千个种系 SVs。尽管其中大多数对人类健康影响中性,但一小部分种系 SVs 若破坏已知肿瘤抑制基因(如 BRCA2 与 ATM)则可能使个体对特定癌症易感。与此同时,大多数癌症基因组中都可见大量体细胞 SVs。癌基因激活事件已被确认为复发性 SVs 的产物,例如涉及 ABL1 与 MLL1 的易位诱导基因融合事件,可驱动白血病的发展。SVs 已在临床提供了明确的诊断与预后信息,并成为药物疗法的成功靶点。

检测方法

SVs 可以通过多种技术进行检测。历史上,核型分析、荧光原位杂交和微阵列曾被广泛使用。由于它们的通量和分辨率有限,近年来,基于全基因组高通量测序的技术(如 whole genome sequencing, WGS)已成为 SV 检测的诱人替代方案。尽管 WGS 已取得成功,但它受限于对短序列读长的依赖,导致基因组的结构连续性大量丢失,因此需要一种新方法,能够以可承受的成本有效识别基因组重复序列中的 SVs 并解析复杂的 SV。2018 年,最初为描绘染色质空间结构而发明的高通量染色体构象捕获技术Hi-C首次被用于 SV 检测。

Hi-C

Hi-C 之所以能够检测 SV,归功于其独特的实验设计。首先用交联剂固定细胞,以保存染色质的空间结构;随后用限制酶切断 DNA。DNA 断端经生物素标记并用 DNA 连接酶处理,使得空间上彼此邻近的 DNA 片段更易重新连接,并可通过生物素亲和富集。接着进行解交联,使重新连接的 DNA 与蛋白质分离。最后,以这些 DNA 构建测序文库并进行测序,产生数亿条测序读长。来自基因组两个位点的重连读长被成对回贴,大量这样的配对最终构成一个方阵,用来描述任意两个给定区域之间染色质接触的频率。

Hi-C breakfinder

Hi-C 显示出很适合用于 SV 检测的潜力,因为 SV 能够改变两个原本相距很远的基因组区域之间的空间距离,从而大幅提高这些区域 DNA 被重新连接的概率;与具有类似基因组距离的背景相比,这类重连读长会异常富集。事实上,自 2009 年以来,随着生成的 Hi-C 数据越来越多,人们已直观地注意到某些癌细胞系在 Hi-C 矩阵中呈现出特定模式,并推测它们正是由 SV 引起的。Hi-C breakfinder 是首个能在全基因组范围内系统识别 SV 的方法,可给出 SV 的类型、位点、方向及置信度评分。该方法在考虑基因组距离、A/B 区室、TAD 以及小染色体之间及亚端粒区域之间相互作用的背景下,当 Hi-C 接触数显著高于期望值时,即可判定 SV。与 WGS 相比,其一大优势是 Hi-C breakfinder 可利用映射到已连接 SV 臂上任意位置的读长,稳健地识别大规模 SV,而不受 SV 断点附近重复等复杂基因组序列的干扰。长插入读长还保留了遗传连续性,有助于解析和重建复杂 SV 簇。

展望

最近的研究表明,SVs 通过将远端增强子置于重要癌症基因旁边——一种被称为“增强子劫持”的现象——并重组局部染色质构象,从而诱导异常基因表达。因此,阐明 SV 引起的染色质构象变化可为基因调控的新机制带来启示。然而,系统识别新的染色质构象变化(如新型 TAD 和环结构域的形成)仍然困难重重。SV 位点的 SV 杂合性以及拷贝数变异(CNV)和肿瘤样本的异质性进一步增加了复杂性。未来工作需要更精密的计算方法来应对这些问题。

目录
打赏
0
1
2
0
340
分享
相关文章
TCPDF库详解:功能、作用及多语言安装指南-tcpdf可不是只有php能用-优雅草卓伊凡
TCPDF库详解:功能、作用及多语言安装指南-tcpdf可不是只有php能用-优雅草卓伊凡
144 5
通义灵码保姆级教程:从数据读取、清洗、结合大模型分析、可视化、生成报告全链路
本课程通过通义灵码实现零代码数据分析全流程,涵盖数据读取、清洗、可视化、报告生成及内容仿写,无需编程基础,轻松掌握从CSV导入到PDF报告输出的实战技能。
PHP 高效之道:字符串与数组处理的实用技巧
PHP 高效之道:字符串与数组处理的实用技巧
148 83
从输入指令到代码落地:Cline AI 源码浅析
文章揭示了Cline如何将简单的自然语言指令转化为具体的编程任务,并执行相应的代码修改或生成操作。
230 18
从输入指令到代码落地:Cline AI 源码浅析
性能最高提升7倍?探究大语言模型推理之缓存优化
本文探讨了大语言模型(LLM)推理缓存优化技术,重点分析了KV Cache、PagedAttention、Prefix Caching及LMCache等关键技术的演进与优化方向。文章介绍了主流推理框架如vLLM和SGLang在提升首Token延迟(TTFT)、平均Token生成时间(TPOT)和吞吐量方面的实现机制,并展望了未来缓存技术的发展趋势。
性能最高提升7倍?探究大语言模型推理之缓存优化
Dify MCP 保姆级教程来了!
大语言模型,例如 DeepSeek,如果不能联网、不能操作外部工具,只能是聊天机器人。除了聊天没什么可做的。
2704 34
ERP 系统中的 BOM 到底是什么意思?
BOM(物料清单)是制造企业的核心数据,不仅记录产品所需物料及数量,还定义装配关系与层级结构。它贯穿研发、生产、采购、库存及财务流程,影响企业效率与成本控制。本文详解BOM的定义、种类及其在ERP系统中的关键作用,帮助理解其在制造管理中的重要地位。
AI助理
登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问

你好,我是AI助理

可以解答问题、推荐解决方案等