进化上比较年轻的防御代谢物通过古老的TOR信号通路影响植物根部发育
原文题目:An evolutionarily young defense metabolite influences the root growth of plants via the ancient TOR signaling pathway
原文地址:https://elifesciences.org/articles/29353
为了能够适应环境,植物需要监控自身的代谢途径,能够符合当前的生长和防御。初期代谢产物可以通过遍在保守TOR(Target of Rapamycin)通路进行衡量,在有限的能量和影响下平衡生长和发育之间的关系。最新的工作表明,植物能够先估计防御性代谢产物,制定好某些策略从而快速将资源重定位到植物生长和发育的位置。当然,这种机制肯定还没有完全研究清楚,所以作者才写了这篇文章。作者使用了glucosinolates,硫代葡萄糖苷,一类重要的植物防御性代谢产物做了这项研究。他们发现了一个和硫代葡萄糖苷完全不同的一个新的信号属性(signaling properties),并且在植物和真菌中都有,叫做3-羟丙基芥子油苷(3-
hydroxypropylglucosinolate)。该防御性代谢产物,或者说获得性成分(derived compounds),能够可逆地抑制植物的根部生长和发育。3-羟丙基芥子油苷信号通过古老的TOR通路里的基因发育发挥功能。如果该事件不是特异的,那么就说明会有其他在进化上比较新的植物代谢物和古老的信号通路相连。
基于模型的ChIP-Seq分析
原文标题:Model-based Analysis of ChIP-Seq (MACS)
原文链接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2592715/
软件地址:https://github.com/taoliu/MACS
在每日文献:2018-01-06中,我提到老板让我读的文章里的ChIP-Seq找peak是作者他们自己写脚本完成的,但其实在2年前的2008年刘小乐实验室就发了ChIP-Seq找peak的工具,也就是大家耳熟能详的MACS(目前是MACS2)。
ChIP-Seq尽管有很多好处,但是也有几个问题不得不说
- 当时由于测序的read(文章称之为tags)大多是25~50bp,所以仅仅标识的是ChIP片段的末尾,而不是真实的蛋白-DNA结合位点。(这解答我之前的困惑,为啥要在3‘要延长到130bp。尽管read链信息和蛋白实际结合位点的近似信息能够提高peak的清晰度,但是问题在于如何估计read和实际结合位点。
- 由于测序和比对偏差,ChIP-Seq存在基因组区域性偏好,比如说染色质结构和基因组拷贝数变异。该问题可以通过对对照组的深度测序后建模来处理。
MACS包声称能够搞定解决以上问题,这里看下他们的模型的设计思路。
ChIP-Seq reads的偏移距离建模(Modeling the shift size of ChIP-Seq tags)
阅读下文前,请记住当年基本都用单端测序, 测序长度大概为50bp。
ChIP-Seq得到的read是ChIP DNA文库片段里的末尾,为了更好的表示蛋白-DNA结合位点,通常要往3'端偏移一定距离。这个距离是多少,大多是不知道的,所以我在每日文献:2018-01-06看到他们根据经验全部偏移到130bp。
但是由于ChIP-Seq的文库片段两端被测序的概率相同的(当时是单端),也就是真实的结合区域上的reads会形成双峰(bimodal enrichment pattern),也就是Waston链会在上富集,Crick链会在下游富集。
于是作者根据超声打断的平均条带长度(bandwidth)和高可信度倍数富集区域(mfold)在全基因组上以2_bandwidth_进行扫描,找到尽可能可信的mfold,选取这些片段计算双峰距离(d), 最后read的偏移距离就是d/2.
我的问题是,现在PE150bp还需要考虑这个read偏移吗?
检测peak
如果有对照,MACS会把对照组的reads count缩放(scale)为ChIP-Seq tag count一样多. 并且MACS会根据测序深度(二项分布p值<10e-5)自动去重.
作者用泊松分布对read进行建模, 在染色体上以2 d(双峰之间距离)为Windows,以偏移以后的reads作为输入,寻找可能的peak,并且peak里要有足够富集的reads. 当然和我之前读的文献里简单粗暴的把lambda设为局部的平均深度(即所有碱基的覆盖深度除以碱基总数)不同, 作者观察到read的分布式存在局部波动和偏差的,比如说所用的FoxA1的候选peak里, read count在ChIP和对照组之间是相关的. 这可能是局部染色质结构,DNA扩增和测序偏差和拷贝数变异所引起.
作者就想到了使用动态的 local lambda进行优化.
最后的多重实验矫正(FDR),作者使用的是之前ChIP-chip peak finder工具MAT和MA2C.