数据集
在本文中,我们将分析 Lyu 等人 的数据集,该数据集包含来自人类胚胎干细胞(hESC)在不同“architectural proteins”于热休克处理前后的 HiChIP 数据。研究的目的在于评估染色质重排在转录响应温度胁迫中的作用。
尤其地,我们关注通过免疫沉淀获得的 Rad21 数据,Rad21 是 cohesin complex 的一部分,而 cohesin complex 在控制基因组的“functional architecture”方面具有基础性作用 。
HiChIP 实验流程样品用 DpnII(MboI 的 isoschizomer,识别 GATC 限制位点)进行消化。测序采用 paired-end 布局,读长为 50 bp。由于我们希望鉴定出在热休克处理下显著改变的 topologies,因此需要为每种条件至少获取 2 个 replicates。所有选定的样本(共 4 个文件)列于下表 。
为了简化说明,我们以单个 HiChIP 文件(Rad21_Rep1)为例演示预处理与 loop 鉴定的步骤。
HiChIP 数据下载
Lyu 等人 的完整数据集可在 Sequence Read Archive下载。原始 reads 可以通过 SRA Toolkit下载并转换成 FASTQ 格式,命令如下:
WORKDIR=/home/HiChIP-analyses
cd $WORKDIR
mkdir fastq
fastq-dump --split-files -O fastq/ --gzip SRR6206783
其中 --split-files 用于将 paired reads 分离成两个独立文件,-O 指定 FASTQ 将被保存的文件夹,而 SRR6206783 是 Rad21 replicate 1 样本的 run accession number。
出于实际操作方便,我们将每个 replicate 的 FASTQ 文件重命名为上表所示的名称:
mv fastq/SRR6206783_1.fastq.gz fastq/Rad21_Rep1_1.fastq.gz
mv fastq/SRR6206783_2.fastq.gz fastq/Rad21_Rep1_2.fastq.gz
附加数据下载
原始 reads 的比对需要参考基因组的 FASTA 序列以及 Bowtie2 索引;这里我们使用 UCSC hg19 ,它们可从 Illumina’s iGenomes collection 下载,位于 Bowtie2 网站(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)。
为了用 hichipper 进行 interactions call,我们还需下载 Rad21 及对照 IgG ChIP-Seq 实验的 FASTQ 文件,这些实验与 HiChIP 数据集在同一细胞系和实验条件下完成(下表)。
这些原始文件可按上一段所示方法下载并重命名。为了去除落在重复区域或其他异常位点的 ChIP-Seq peaks,我们在工作目录下载一个包含 ENCODE DAC Blacklisted Regions 的 BED 文件(https://www.encodeproject.org/annotations/ENCSR636HFF/)。
在该网页的 “Files” 区域,选择 “File Details” 标签页并下载 hg19 的 BED/BED6 文件;解压 .gz 文件后,将文件名从 ENCFF001TDO.bed 改为 hg19_DAC_blacklist.bed。
最后,为了将差异 loops 与 Rad21 结合的变化以及相互作用位点的激活水平进行比较,我们从 Gene Expression Omnibus(GEO)下载 Rad21 和 H3K27ac 的 ChIP-Seq 信号文件(BigWig)。