每日文献:2018-01-06

简介: ChIP-seq文章8年前的ChIP-seq如何找peak老板前几天丢了2010年的文章给我,让我去看下这篇文章的ChIP-seq分析结果中,他要的基因是不是也被调控了。
img_dea63c4505396286e53f20bd4f7f35e9.png
ChIP-seq文章

8年前的ChIP-seq如何找peak

老板前几天丢了2010年的文章给我,让我去看下这篇文章的ChIP-seq分析结果中,他要的基因是不是也被调控了。于是我就看到了8年的ChIP-seq分析中是如何寻找Peak region。

数据来自于Illumina的单端测序,长度为42bp。分别2个ChIP-seq独立的生物学重复和2个对照生物学重复,但是一共有7份数据。因为第一组ChIP-seq还有3个技术重复,第一组对照还有2个技术重复,所以是3+1+2+1=7 。他们的ChIP-seq样本在测序之前用qPCR先进行了验证。

由于当时测序技术还一般,后面几个bp质量就急剧变差,于是先用了GenomeMapper直接裁剪到36bp,数据比对用的是SHORE,允许4个碱基错配,不允许gap。目前质量控制可用trimmomatic,比对可用bowtie1,接着用samtools转换格式和排序。这些都比较常规,不需要过多介绍,下面找到差异需要仔细讲讲。

作者的策略分为两步:第一步用slide window在ChIP-seq样本中找到潜在可能的富集区域。第二步对该区域进行定量,通过和对照组进行比较,从而找到统计学上显著富集的区域。

step1: 找到ChIP样本中潜在区域

为了实现第一步,首先需要用唯一匹配的read(uniquely mapping reads)去计算基因组的片段覆盖图(fragment coverage graph),也就是说在基因组上每个碱基要注释read覆盖深度(coverage depath)。

注意:作者说“如果你懂一点ChIP实验的话,那你就知道有一半的ChIP实验表明蛋白和DNA免疫沉淀的片段平均长度是200~300bp“,所以作者先把原来只有34bp的read覆盖在3‘方向拓展了130bp,假装自己测序是SE130. 不过现在基本都是PE100,PE150,你都不需要假装了。

由于我对ChIP这方面实验还不太懂,于是我去问了公众号《嘉因》的小编—小丫,她说如果是实验的打断效果是在300-700,如果是建库的size selection则是200bp。

得到全基因组每个碱基的read的覆盖深度后,作者使用2kb的window,以1bp为步长开始扫描基因组检测peak region。每一步都需要评估潜在的富集中心碱基(potential enrichment of the central base)。评估方法单边泊松检验,其中lambda设为局部的平均深度(即所有碱基的覆盖深度除以碱基总数)。没有覆盖的地方就是ChIP-seq没有结合的区域,所以不计算哦。这一步得到的P<0.05的区域即为P1.

然后继续从P1里挑选出那些连续130个碱基的P值都低于0.05的部分作为P2.

P2区域继续和对照组进行比较,如果对照组的那些区域也是很高表达,那么这些区域继续被剔除,留下的就是P3. 标准是P2潜在的peak region对应的对照区域的平均覆盖度(mean coverage) 大于正处理的中位数+3个标准差(median coverage plus three deviations)

step2: 找到显著性富集的区域

这部分首先使用单边二项检验, 参数之一的N为ChIP和对照实验中比对到潜在区域到read总数。参数之二的成功概率‘r',作者认为r = s/(s+1). 其中s为对照的比例因子(scaling factor).s的计算方式为: 将整条基因组切割为400bp大小的分箱(bin),每个分箱分别记录处理样本和对照样本的比对reads数,s就是那个在这些分箱中让处理样本的read count和对照样本的read count的系数。

上面得到的一些列p值还需要用 Benjamini-Hochberg矫正方法转换为FDR。为了进一步提高peak区域的准确,作者还计算了per base excess,也就是正处理和对照相比每个碱基额外的覆盖度的均值chip reads – (s * control reads)]/ peak width

最后作者选择了两个独立重复中,FDR < 10^-10 和 per base excess > 0.25的peak region。至于为啥选择那样子的FDR,作者给出的原因是二项分布的模型不太好,所以要非常严格才行。

if the variance of the true distribution is larger. Alternatively, it may be that AP2 binds an unusually large number of regions in the genome at a lower affinity. In any case, we chose to err on the side of higher peak calling stringency.

目录
相关文章
每日文献:2018-02-27
如何使用高通量测序检测T-DNA插入 之前拿到了一批混池测序的数据,师兄除了让我帮他找一个突变位点,还让我顺便检查下基因组上的T-DNA插入。我去查了一下相关资料,已经有人那么干了,这里简要说明一下步骤。
973 0
每日文献:2018-02-24
自然选择的分子印迹(精读第三天) 由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇review尽力去了解这个我陌生的领域。文章原标题为Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
1021 0
|
自然语言处理
每日文献:2018-02-23
自然选择的分子印迹(精读第二天) 由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇review尽力去了解这个我陌生的领域。文章原标题为Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
873 0
每日文献:2018-02-20
自然选择的分子印迹(精读第一天) 由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇review尽力去了解这个我陌生的领域。文章原标题为Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
720 0
|
Perl
每日文献:2018-01-29
原文标题:hppRNA—a Snakemake-based handy parameter-free pipeline for RNA-Seq analysis of numerous samples 原文地址: https://academic.
1008 0
每日文献:2018-01-25
原文标题:APAtrap: identification and quantification of alternative polyadenylation sites from RNA-seq data 工具网址:https://sourceforge.net/projects/apatrap/ 可变多聚腺苷酸 (APA)逐渐地被认为在转录组多样性和基因表达调控中起到重要的作用。
928 0
|
数据库
每日文献:2018-01-24
Nature Genetics:水稻泛基因组文章继续解读 原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice 原文地址: https://www.nature.com/articles/s41588-018-0041-z 今天要读部分是我看到这篇文章才接触到的一个概念基因的PAV(presence-absence variation)突变, 也是这篇文章对66个物种深度测序组装contig的主要用途。
1131 0
每日文献:2018-01-23
Nature Genetics:水稻泛基因组文章继续解读 原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice 原文地址: https://www.nature.com/articles/s41588-018-0041-z 今天看的部分是【Identification of functionally diverse alleles】,也就是找到功能变化等位基因。
889 0
每日文献:2018-01-22
植物基因组的同线性和共线性 原文题目:Synteny and Collinearity in Plant Genomes 先明确两个概念,虽然synteny和collineraity翻译之后都有线性,但是要注意两者的联系和区别: 同线性(syn...
912 0
每日文献:2018-01-19
Nature Genetics:水稻泛基因组文章继续解读 原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice 原文地址: https://www.nature.com/articles/s41588-018-0041-z 在组装完66个品系水稻的contig后,也找到了变异信息如SNP/InDel, SV等,下面的工作就是从各种角度对这些变异信息继续解读。
931 0