3D-Genome:认识接触矩阵(contact matrix)

简介: 3D-Genome:认识接触矩阵(contact matrix)

pairs 文件

"contact list"(又称"pairs"文件)记录了测序读段比对后筛选出的有效互作位点对,是构建基因组互作矩阵的初始数据。在后续矩阵生成或标准化步骤中,可能进一步过滤(例如去除自互作的对角线数据)。

pairs文件通常由SAM/BAM文件转换而来。虽然SAM/BAM文件包含原始比对信息,但存在三大缺陷使其不宜直接作为pairs文件:

  1. 需额外处理以识别并修复嵌合读段(chimeric reads);
  2. SAM/BAM默认记录比对的最左端坐标,而实际分析中更常用统一的5‘-end坐标;
  3. 按基因组坐标排序时,同一读段对的多个比对片段可能被分散,导致追踪困难。

因此,需生成一个优化后的pairs文件:

  • 仅保留验证有效的嵌合读段
  • 统一使用5‘-end坐标标注
  • 将同一读段对的所有比对结果整合至单行

该文件经过去重(去除PCR扩增伪影)和排序后,可直接用于构建基因组互作矩阵。例如Juicer流程生成的merged_nodups.txt文件,以及4DN联盟定义的PAIRS格式,均为典型的pairs文件。

Pairix

merged_nodups.txt 文件不仅存储互作位点对,还保留了原始比对的所有关键信息:读段名称、比对质量值、CIGAR 字符串、读段序列,以及读段所在的限制性片段编号。

Juicer 工具通过读取该文件,在 pre 步骤中生成 .hic 格式的互作矩阵。

4DN DCIC 提出的 PAIRS 格式是一种更开放的互作数据标准,强制包含 4 个核心字段,预留 7 个扩展字段,并允许自定义其他信息。Juicer 现已兼容 PAIRS 格式,用户可将其作为 merged_nodups.txt 的替代输入。

由于 pairs 文件规模庞大(可达数十亿条记录),直接读取文件末尾数据可能耗时 20–30 分钟。为此,4DN DCIC 开发了 Pairix 工具(https://github.com/4dn-dcic/pairix),支持对 PAIRS 文件的随机访问:

  • 先按两条互作染色体排序,再按坐标排序
  • 使用 bgzip 压缩为块索引文件
  • 通过染色体区域对快速检索数据

Pairix 同样适用于按相同方式处理的 merged_nodups.txt 文件,显著提升了大规模互作数据的检索效率。

4DN DCIC 还推出了一种扩展格式——PAIRSAM(https://github.com/mirnylab/pairtools ),它在常规 PAIRS 文件基础上额外嵌入了 SAM/BAM 文件的全部比对信息。配套的 Pairtools 软件专门负责解析这类文件。在 4DN Hi-C 分析流程中,PAIRSAM 文件主要用于:

  1. 对测序读段进行注释和排序;
  2. 标记需要过滤的读段;
  3. 重建带有过滤标记的 BAM 文件。

其中最关键的注释步骤(通过 pairtools parse 命令)会为每个读段分配一个两字母的“pair type”代码,以区分读段是“唯一比对”“有效嵌合体”还是“重复序列”。

接触矩阵

接触矩阵通过统计基因组分箱内的读段对数量构建,直观呈现全基因组范围内特定分辨率下的染色质互作图谱。矩阵的行和列分别对应两个互作位点,每个单元格(像素)数值代表对应基因组区域的互作频率。

早期稀释 Hi-C 数据常用密集矩阵存储所有互作值(如按行顺序排列),但面对包含数千亿元素的高分辨率(千碱基级)数据时,这种格式会面临两大挑战:

  1. 内存占用巨大:难以一次性加载全矩阵进行归一化等全局操作;
  2. 计算效率低下:全基因组范围分析时扩展性不足。

因此,针对高分辨率原位 Hi-C 数据,研究者开发了稀疏矩阵格式——它仅存储非零互作值,每个条目记录为 <分箱i索引> <分箱j索引> <互作值>。尽管需要额外存储索引信息,但当矩阵中零值占比极高时(如全基因组互作),稀疏矩阵能显著降低存储成本并提升计算效率,成为大规模基因组互作分析的主流选择。

.hic

.hic是一种专为基因组三维互作数据设计的高效二进制压缩格式,核心优势在于:

  1. 多分辨率存储:同时保存碱基对级(固定窗口)和酶切片段级(可变窗口)的互作矩阵,兼顾精细与宏观分析;
  2. 完整元数据:文件头记录基因组版本、染色体信息,文件尾包含标准化向量与随机访问索引,便于快速检索;
  3. 生态兼容性
    • 原生支持 Juicebox/Juicebox.js 交互式可视化;
    • 通过 Straw 库https://github.com/aidenlab/straw )提供 Python/C++/R 等语言接口,方便第三方工具开发;
    • Juicer tools 可直接解析 .hic 文件,用于环、拓扑结构域(TADs)和区室(A/B compartments)的注释分析。

数据导出:使用 Juicer tools 的 dump 命令,可将 .hic 文件转换为稀疏矩阵(仅非零值)或密集矩阵(完整矩阵)文本格式,适配不同计算需求。这种设计既保证了大数据量的高效存储,又维持了科研分析的灵活性,已成为 Hi-C 数据存储与共享的事实标准。

.cool

.cool 与 .mcool 格式是 4DN DCIC 专为三维基因组互作数据设计的现代化存储方案,核心优势在于:

  1. 多分辨率支持
    • .mcool 文件类似 .hic,可存储碱基对级、酶切片段级等多分辨率矩阵,兼顾细节与全局;
    • .cool 文件是单分辨率版本,适合特定分析需求。
  2. 基于 HDF5 的高效存储
    • 采用层级化结构(类似文件系统),包含组(目录)、数据集(文件)和属性(元数据);
    • 关键数据分四组存储:
      • chromosomes:染色体长度;
      • bins:基因组分箱坐标;
      • pixels:稀疏矩阵形式的互作数据;
      • indexes:随机访问索引。
  3. 生态工具链
    • Cooler 工具包
      • cload:从 PAIRS 文件生成 .cool;
      • zoomify:聚合高分辨率数据生成 .mcool;
      • dump:导出稀疏矩阵文本。
    • HiGlass:交互式可视化 .mcool 文件;
    • hic2cool:无缝转换 .hic 文件至 .mcool,打通传统与新型格式。
  4. 开放与可扩展
    • 基于开源 HDF5 标准,支持跨平台、长期存档;
    • 纯文本稀疏格式便于脚本处理,二进制 HDF5 格式优化存储效率。

.cool/.mcool 格式通过模块化设计、多分辨率支持和开放生态,成为 Hi-C 数据存储、共享与分析的新一代标准,尤其适合大规模、高分辨率的三维基因组研究。

目录
打赏
0
0
0
0
340
分享
相关文章
yum安装ansible报错如何解决
本篇内容记录了yum安装ansible报错的解决方案。
1335 0
yum安装ansible报错如何解决
市场领先者MySQL的挑战者:PostgreSQL的崛起
PostgreSQL(简称PG)是世界上最先进的开源对象关系型数据库,起源于1986年的加州大学伯克利分校POSTGRES项目。它以其丰富的功能、强大的扩展性和数据完整性著称,支持复杂数据类型、MVCC、全文检索和地理空间数据处理等特性。尽管市场份额略低于MySQL,但PG在全球范围内广泛应用,受到Google、AWS、Microsoft等知名公司支持。常用的客户端工具包括PgAdmin、Navicat和DBeaver。
317 4
聚合签名、门限签名、Multisigs 和多签名
该文章深入探讨了数字签名在区块链技术中的应用,并比较了聚合签名、门限签名和多签名三种方案的异同,同时介绍了MuSig2和FROST这两种旨在提高区块链平台多签名或门限签名效率的提案。
310 3
聚合签名、门限签名、Multisigs 和多签名
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问