Nature Genetics:水稻泛基因组文章继续解读
原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice
原文地址: https://www.nature.com/articles/s41588-018-0041-z
在组装完66个品系水稻的contig后,也找到了变异信息如SNP/InDel, SV等,下面的工作就是从各种角度对这些变异信息继续解读。
驯化和基因渗入(Domestication and introgression)
如果你手头上拿着多个物种的全基因组变异信息,那么你可以一言不合就建一个系统发育树。
我们都尝试过用几天序列建树,那么全基因组变异信息建树是如何操作的呢?其实也比较粗暴,就是构建了66x66的SNP配对系数,然后用PHYLIP的neighbor软件构建进化发育树。你可能会觉得这样子会不会丢失很多信息,从而不太准确。其实只要你的大方向正确,反而不需要斤斤计较局部的得失。
那么建树有什么意义和好处呢?和之前的结果相互验证,表明自己选择的物种都是比较具有代表性,最起码能够分开。
随后又可以整一个驯化选择扫描(domestication selection scan)。 这个名词咋听起来一脸懵逼,其实和另一个词序列多态性或核酸多态性有关,主要是衡量一个群体的多态性。最常用也是第一个提出的计算公式如下,由 Nei 和 Li在1979年提出
公式你可能看不懂,但是知道概念后就可以用软件了,比如说MEGA,比如说R包PopGenome.
最后和之前的1529份低覆盖数据相比,找到了6个新的位点。当然作者也很谨慎,不太好说泛基因组的数据得到的结果更加有效,毕竟样本量也就是60.
作者还对3种亚洲栽培稻(aus, aromatic , tropical japonica)在7个和水稻驯化相关位点进行进化上的分析,发现aus有点奇怪,不能完全被栽培稻分支上,这就说明aus 可能还没有完全驯化。
此外,作者还发现几个籼稻往粳稻渗入的证据。 他们首先找到了807,139个在籼稻和温带粳稻高度差异的SNP。然后在热带粳稻里面查看这些位点的信息,将近16%的热带粳稻里面有籼稻的基因组渗入证据。尤其里面还有和温度耐受相关的位点OsTT1 (Os03g0387100)和大粒位点Os07g0505200
收获
- 一个新的概念: 序列多样式 π
- 一个新的全基因组建树方法: 序列相似矩阵计算后接着PHYLIP
- 一个研究基因渗入的思想: 先找到明显有区别的两个品种的差异信息,然后在过渡型里看看差异性。
- 一个吐槽: 要想富,先修路,少生XX多建树