HiChIP 数据分析: 数据集介绍

简介: HiChIP 数据分析: 数据集介绍

数据集

在本文中,我们将分析 Lyu 等人 的数据集,该数据集包含来自人类胚胎干细胞(hESC)在不同“architectural proteins”于热休克处理前后的 HiChIP 数据。研究的目的在于评估染色质重排在转录响应温度胁迫中的作用

尤其地,我们关注通过免疫沉淀获得的 Rad21 数据,Rad21 是 cohesin complex 的一部分,而 cohesin complex 在控制基因组的“functional architecture”方面具有基础性作用 。

HiChIP 实验流程样品用 DpnII(MboI 的 isoschizomer,识别 GATC 限制位点)进行消化。测序采用 paired-end 布局,读长为 50 bp。由于我们希望鉴定出在热休克处理下显著改变的 topologies,因此需要为每种条件至少获取 2 个 replicates。所有选定的样本(共 4 个文件)列于下表 。

为了简化说明,我们以单个 HiChIP 文件(Rad21_Rep1)为例演示预处理与 loop 鉴定的步骤。

HiChIP 数据下载

Lyu 等人 的完整数据集可在 Sequence Read Archive下载。原始 reads 可以通过 SRA Toolkit下载并转换成 FASTQ 格式,命令如下:

WORKDIR=/home/HiChIP-analyses
cd $WORKDIR
mkdir fastq
fastq-dump --split-files -O fastq/ --gzip SRR6206783

其中 --split-files 用于将 paired reads 分离成两个独立文件,-O 指定 FASTQ 将被保存的文件夹,而 SRR6206783 是 Rad21 replicate 1 样本的 run accession number。

出于实际操作方便,我们将每个 replicate 的 FASTQ 文件重命名为上表所示的名称:

mv fastq/SRR6206783_1.fastq.gz fastq/Rad21_Rep1_1.fastq.gz
mv fastq/SRR6206783_2.fastq.gz fastq/Rad21_Rep1_2.fastq.gz

附加数据下载

原始 reads 的比对需要参考基因组的 FASTA 序列以及 Bowtie2 索引;这里我们使用 UCSC hg19 ,它们可从 Illumina’s iGenomes collection 下载,位于 Bowtie2 网站(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)。

为了用 hichipper 进行 interactions call,我们还需下载 Rad21 及对照 IgG ChIP-Seq 实验的 FASTQ 文件,这些实验与 HiChIP 数据集在同一细胞系和实验条件下完成(下表)。

这些原始文件可按上一段所示方法下载并重命名。为了去除落在重复区域或其他异常位点的 ChIP-Seq peaks,我们在工作目录下载一个包含 ENCODE DAC Blacklisted Regions 的 BED 文件(https://www.encodeproject.org/annotations/ENCSR636HFF/)。

在该网页的 “Files” 区域,选择 “File Details” 标签页并下载 hg19 的 BED/BED6 文件;解压 .gz 文件后,将文件名从 ENCFF001TDO.bed 改为 hg19_DAC_blacklist.bed。

最后,为了将差异 loops 与 Rad21 结合的变化以及相互作用位点的激活水平进行比较,我们从 Gene Expression Omnibus(GEO)下载 Rad21 和 H3K27ac 的 ChIP-Seq 信号文件(BigWig)。

相关文章
|
人工智能 数据挖掘 机器人
【python】python智能停车场数据分析(代码+数据集)【独一无二】
【python】python智能停车场数据分析(代码+数据集)【独一无二】
|
机器学习/深度学习 存储 SQL
15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!
15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!
464 0
|
13天前
|
数据可视化 算法 数据挖掘
HiChIP 数据分析: 分析简介
HiChIP 数据分析: 分析简介
HiChIP 数据分析: 分析简介
|
11月前
|
数据可视化 数据挖掘 大数据
Python 数据分析入门:从零开始处理数据集
Python 数据分析入门:从零开始处理数据集
|
数据挖掘
【数据分析】大型ADCP数据集的处理和分析(Matlab代码实现)
【数据分析】大型ADCP数据集的处理和分析(Matlab代码实现)
581 0
|
数据可视化 数据挖掘 Python
利用Python和Pandas对小费数据集进行数据分析与可视化实战(超详细 附源码)
利用Python和Pandas对小费数据集进行数据分析与可视化实战(超详细 附源码)
889 0
|
存储 数据挖掘
|
数据采集 数据挖掘 Python
Python 零基础入门数据分析实战之数据集应用
本节选用的是 Python 的第三方库 seaborn 自带的数据集,该小费数据集为餐饮行业收集的数据,其中 total_bill 为消费总金额、tip 为小费金额、sex 为顾客性别、smoker 为顾客是否吸烟、day 为消费的星期、time 为聚餐的时间段、size 为聚餐人数。
318 0
Python 零基础入门数据分析实战之数据集应用
|
机器学习/深度学习 数据可视化 算法
ML之FE:利用【数据分析+数据处理】算法对国内某平台上海2020年6月份房价数据集【12+1】进行特征工程处理(史上最完整,建议收藏)
ML之FE:利用【数据分析+数据处理】算法对国内某平台上海2020年6月份房价数据集【12+1】进行特征工程处理(史上最完整,建议收藏)
ML之FE:利用【数据分析+数据处理】算法对国内某平台上海2020年6月份房价数据集【12+1】进行特征工程处理(史上最完整,建议收藏)

热门文章

最新文章