pairs 文件
"contact list"(又称"pairs"文件)记录了测序读段比对后筛选出的有效互作位点对,是构建基因组互作矩阵的初始数据。在后续矩阵生成或标准化步骤中,可能进一步过滤(例如去除自互作的对角线数据)。
pairs文件通常由SAM/BAM文件转换而来。虽然SAM/BAM文件包含原始比对信息,但存在三大缺陷使其不宜直接作为pairs文件:
- 需额外处理以识别并修复嵌合读段(chimeric reads);
- SAM/BAM默认记录比对的最左端坐标,而实际分析中更常用统一的5‘-end坐标;
- 按基因组坐标排序时,同一读段对的多个比对片段可能被分散,导致追踪困难。
因此,需生成一个优化后的pairs文件:
- 仅保留验证有效的嵌合读段
- 统一使用5‘-end坐标标注
- 将同一读段对的所有比对结果整合至单行
该文件经过去重(去除PCR扩增伪影)和排序后,可直接用于构建基因组互作矩阵。例如Juicer
流程生成的merged_nodups.txt
文件,以及4DN联盟定义的PAIRS格式,均为典型的pairs文件。
Pairix
merged_nodups.txt
文件不仅存储互作位点对,还保留了原始比对的所有关键信息:读段名称、比对质量值、CIGAR 字符串、读段序列,以及读段所在的限制性片段编号。
Juicer
工具通过读取该文件,在 pre
步骤中生成 .hic
格式的互作矩阵。
4DN DCIC 提出的 PAIRS 格式是一种更开放的互作数据标准,强制包含 4 个核心字段,预留 7 个扩展字段,并允许自定义其他信息。Juicer 现已兼容 PAIRS 格式,用户可将其作为 merged_nodups.txt 的替代输入。
由于 pairs 文件规模庞大(可达数十亿条记录),直接读取文件末尾数据可能耗时 20–30 分钟。为此,4DN DCIC 开发了 Pairix 工具(https://github.com/4dn-dcic/pairix),支持对 PAIRS 文件的随机访问:
- 先按两条互作染色体排序,再按坐标排序
- 使用 bgzip 压缩为块索引文件
- 通过染色体区域对快速检索数据
Pairix
同样适用于按相同方式处理的 merged_nodups.txt
文件,显著提升了大规模互作数据的检索效率。
4DN DCIC 还推出了一种扩展格式——PAIRSAM(https://github.com/mirnylab/pairtools ),它在常规 PAIRS 文件基础上额外嵌入了 SAM/BAM 文件的全部比对信息。配套的 Pairtools 软件专门负责解析这类文件。在 4DN Hi-C 分析流程中,PAIRSAM 文件主要用于:
- 对测序读段进行注释和排序;
- 标记需要过滤的读段;
- 重建带有过滤标记的 BAM 文件。
其中最关键的注释步骤(通过 pairtools parse 命令)会为每个读段分配一个两字母的“pair type”代码,以区分读段是“唯一比对”“有效嵌合体”还是“重复序列”。
接触矩阵
接触矩阵通过统计基因组分箱内的读段对数量构建,直观呈现全基因组范围内特定分辨率下的染色质互作图谱。矩阵的行和列分别对应两个互作位点,每个单元格(像素)数值代表对应基因组区域的互作频率。
早期稀释 Hi-C 数据常用密集矩阵存储所有互作值(如按行顺序排列),但面对包含数千亿元素的高分辨率(千碱基级)数据时,这种格式会面临两大挑战:
- 内存占用巨大:难以一次性加载全矩阵进行归一化等全局操作;
- 计算效率低下:全基因组范围分析时扩展性不足。
因此,针对高分辨率原位 Hi-C 数据,研究者开发了稀疏矩阵格式——它仅存储非零互作值,每个条目记录为 <分箱i索引> <分箱j索引> <互作值>
。尽管需要额外存储索引信息,但当矩阵中零值占比极高时(如全基因组互作),稀疏矩阵能显著降低存储成本并提升计算效率,成为大规模基因组互作分析的主流选择。
.hic
.hic是一种专为基因组三维互作数据设计的高效二进制压缩格式,核心优势在于:
- 多分辨率存储:同时保存碱基对级(固定窗口)和酶切片段级(可变窗口)的互作矩阵,兼顾精细与宏观分析;
- 完整元数据:文件头记录基因组版本、染色体信息,文件尾包含标准化向量与随机访问索引,便于快速检索;
- 生态兼容性:
- 原生支持 Juicebox/Juicebox.js 交互式可视化;
- 通过 Straw 库(https://github.com/aidenlab/straw )提供 Python/C++/R 等语言接口,方便第三方工具开发;
- Juicer tools 可直接解析 .hic 文件,用于环、拓扑结构域(TADs)和区室(A/B compartments)的注释分析。
数据导出:使用 Juicer tools 的 dump
命令,可将 .hic 文件转换为稀疏矩阵(仅非零值)或密集矩阵(完整矩阵)文本格式,适配不同计算需求。这种设计既保证了大数据量的高效存储,又维持了科研分析的灵活性,已成为 Hi-C 数据存储与共享的事实标准。
.cool
.cool 与 .mcool 格式是 4DN DCIC 专为三维基因组互作数据设计的现代化存储方案,核心优势在于:
- 多分辨率支持:
.mcool
文件类似.hic
,可存储碱基对级、酶切片段级等多分辨率矩阵,兼顾细节与全局;.cool
文件是单分辨率版本,适合特定分析需求。
- 基于 HDF5 的高效存储:
- 采用层级化结构(类似文件系统),包含组(目录)、数据集(文件)和属性(元数据);
- 关键数据分四组存储:
chromosomes
:染色体长度;bins
:基因组分箱坐标;pixels
:稀疏矩阵形式的互作数据;indexes
:随机访问索引。
- 生态工具链:
- Cooler 工具包:
cload
:从 PAIRS 文件生成 .cool;zoomify
:聚合高分辨率数据生成 .mcool;dump
:导出稀疏矩阵文本。
- HiGlass:交互式可视化 .mcool 文件;
- hic2cool:无缝转换 .hic 文件至 .mcool,打通传统与新型格式。
- Cooler 工具包:
- 开放与可扩展:
- 基于开源 HDF5 标准,支持跨平台、长期存档;
- 纯文本稀疏格式便于脚本处理,二进制 HDF5 格式优化存储效率。
.cool/.mcool 格式通过模块化设计、多分辨率支持和开放生态,成为 Hi-C 数据存储、共享与分析的新一代标准,尤其适合大规模、高分辨率的三维基因组研究。