每日文献:2018-01-24

简介: Nature Genetics:水稻泛基因组文章继续解读原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice原文地址: https://www.nature.com/articles/s41588-018-0041-z今天要读部分是我看到这篇文章才接触到的一个概念基因的PAV(presence-absence variation)突变, 也是这篇文章对66个物种深度测序组装contig的主要用途。

Nature Genetics:水稻泛基因组文章继续解读

原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice
原文地址: https://www.nature.com/articles/s41588-018-0041-z

今天要读部分是我看到这篇文章才接触到的一个概念基因的PAV(presence-absence variation)突变, 也是这篇文章对66个物种深度测序组装contig的主要用途。前面的SNP/InDel/SV突变其实都可以通过常规的高通量测序比对,回贴到粳稻参考基因组上识别,唯独PAV突变指的是在日本晴参考基因组所没有的部分,也就是根本贴不回去。

先看下作者他们是如何识别PAV?首先是用RepeatMasker('-species rice -nolw')对得到的组装里重复序列进行遮盖,避免转座子,重复序列和微生物基因组序列对注释造成干扰。之后用FGeneSH预测基因结构,参数设置为monocotyledons。 预测的基因结构用BLASTN(''-e 1e-10 –F F'') 比对到粳稻参考基因组(RAP-DB on IRGSP-1.0 和 RGAP 7),那些比对的基因如果在粳稻参考序列上缺失,或者覆盖率不到50%, 就被定义为“新识别基因”。

当然这只是从头预测得到的证据,基因结构预测的常规套路还有一个转录组验证的过程,然而66个品种每个都搞一个RNA-Seq,费用肯定时太高了,于是作者就只用了具有代表性的野生稻W1943和籼稻GLA4。选取其苗期、根部、叶和圆锥花序上的组织提取RNA,然后进行高通量测序,用SMALT(map -i 700 -j 50 -m 30)进行回贴到W1943和GLA4的基因组上,最后用对唯一比对的read用RPKM进行标准化。 最后对预测得到的基因注释则是用BLASTN和InterProScan(‘-f TSV -iprlookup -goterms')。

一共在67个水稻品种预测到了10,872个基因,这些基因的来源有如下几个原因

  • 大规模插入缺失
  • 一些基因定位在粳稻基因组序列中物理间隔(physical gaps)中
img_4079258c2e47353d7386664338407f16.png
PAV

如果这些基因都是伪基因,不表达,可能对后续研究帮助叶不会太大,因此RNA-Seq的表达量研究就非常必要。这些基因一半以上(57.1%, 60.6%)都是表达,就是表达量水平比那些在粳稻基因组上有注释的基因低。

img_f537bbc41563ea8e8541b00f220a5534.png
新发现基因和粳稻注释基因的表达量比较

并且作者还用已知的几个粳稻缺失基因(Sub1A, SNORKEL1 and SNORKEL2控制耐淹性, Pstol 控制耐低磷性)进行了验证,发现这些基因都在泛基因组里。也就是说现在找到的新基因也可能有比较重要功能的基因。还有,在粳稻良好注释基因可能在其他水稻品种中也有PAV变异,比如说Ghd7,控制花期,OsFBX310控制谷壳颜色。

img_150de7e51f468e68cf2613cd85dd8392.png
已知基因验证

为了了解水稻种PAV的总体情况,作者整合了67个基因组种的编码基因(去冗余)得到了42,580个non-TE基因。作者用到了玉米泛基因组和泛转录组套路,尝试预测每个水稻品种的基因总数。于是他们发现在67个水稻品种的时候,基因基本上就不变了,也就是说你们再去测其他品种也没有多大意义了,收益递减。

img_a6026fe86447ceea031e27355e14de8d.png
逐步增加物种的基因

作者还创建了66x66的共有基因矩阵,颜色深浅表示相同的基因数目,发现26,372个出现在60以上水稻品种中,16,208个出现在小于60个水稻品种中。于是这些基因就可以分为核心可有可无两类。可有可无的基因集可以继续分为285个组。作者又对核心可有可无的功能分类。作者发现可有可无的基因大多时富集在生物和非生物胁迫,尤其是NBS-LRR (nucleotidebinding site–leucine-rich repeat) and NB-ARC (nucleotide-binding adaptor shared by APAF-1, R proteins and CED-4) genes。 而在核心组77.6%的编码基因在InterPro数据库中能检索到,比可有可无的35.8%高,也就是说可有可无的基因有很大可能是假基因或者或是人为因素导致。

img_a38652792e7f9f32fd8173e3737a2529.png
共有基因矩阵

明天读讨论,结束这篇文章的精读。

目录
相关文章
每日文献:2018-02-27
如何使用高通量测序检测T-DNA插入 之前拿到了一批混池测序的数据,师兄除了让我帮他找一个突变位点,还让我顺便检查下基因组上的T-DNA插入。我去查了一下相关资料,已经有人那么干了,这里简要说明一下步骤。
943 0
每日文献:2018-02-24
自然选择的分子印迹(精读第三天) 由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇review尽力去了解这个我陌生的领域。文章原标题为Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
994 0
|
自然语言处理
每日文献:2018-02-23
自然选择的分子印迹(精读第二天) 由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇review尽力去了解这个我陌生的领域。文章原标题为Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
841 0
每日文献:2018-02-20
自然选择的分子印迹(精读第一天) 由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇review尽力去了解这个我陌生的领域。文章原标题为Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
693 0
|
Perl
每日文献:2018-01-29
原文标题:hppRNA—a Snakemake-based handy parameter-free pipeline for RNA-Seq analysis of numerous samples 原文地址: https://academic.
986 0
每日文献:2018-01-25
原文标题:APAtrap: identification and quantification of alternative polyadenylation sites from RNA-seq data 工具网址:https://sourceforge.net/projects/apatrap/ 可变多聚腺苷酸 (APA)逐渐地被认为在转录组多样性和基因表达调控中起到重要的作用。
904 0
每日文献:2018-01-23
Nature Genetics:水稻泛基因组文章继续解读 原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice 原文地址: https://www.nature.com/articles/s41588-018-0041-z 今天看的部分是【Identification of functionally diverse alleles】,也就是找到功能变化等位基因。
846 0
每日文献:2018-01-22
植物基因组的同线性和共线性 原文题目:Synteny and Collinearity in Plant Genomes 先明确两个概念,虽然synteny和collineraity翻译之后都有线性,但是要注意两者的联系和区别: 同线性(syn...
883 0
每日文献:2018-01-19
Nature Genetics:水稻泛基因组文章继续解读 原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice 原文地址: https://www.nature.com/articles/s41588-018-0041-z 在组装完66个品系水稻的contig后,也找到了变异信息如SNP/InDel, SV等,下面的工作就是从各种角度对这些变异信息继续解读。
905 0
每日文献: 2018-01-16
Nature Genetics:水稻泛基因组研究方法解读 原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice 原文地址: https://www.nature.com/articles/s41588-018-0041-z 由于目前课题和自然变异关系比较大,所以解读一下这篇文章在深度测序(约等于100X)组装66个水稻品种后是如何寻找变异,以及如何验证这些变异的质量。
861 0