一文尝试解决水稻参考基因组下载

简介: 昨天发了如何一步下载水稻泛基因组的contig序列,就有小伙伴在后台问我如何下载水稻最新版日本晴参考基因组序列。由于我主要是研究拟南芥(Arabidopsis thaliana), 默认都是去TAIR上下载TAIR10的参考序列和注释信息,对水稻其实没有多大了解。

昨天发了如何一步下载水稻泛基因组的contig序列,就有小伙伴在后台问我如何下载水稻最新版日本晴参考基因组序列。由于我主要是研究拟南芥(Arabidopsis thaliana), 默认都是去TAIR上下载TAIR10的参考序列和注释信息,对水稻其实没有多大了解。但是,其实只要看看别人研究用的啥参考也就懂的差不多了。

Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice文章有一个部分叫做URL。

img_c1254ffc4575ecaa51ca62da3db50402.jpe
URL

从URL里面我发现了两个水稻的注释组织,RGAP和RAP,根据提供的链接我跳转到了如下两个网页。

img_f9810dc781065d361f9cb75d929c352c.jpe
RAP
img_35800716e266902e4fe68ab558d981fb.gif
RGAP

怎么说呢,这两个网站的风格总感觉相差了半个世纪。当然这不是重点,重点是找到数据下载的地方。下载的URL分别为:

http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/

img_c38fd44f95be16075ffab069e692d35f.jpe
FTP

http://rapdb.dna.affrc.go.jp/download/irgsp1.html

img_bd44bcff2e536bd83040b318b5a5d532.jpe
HTTP

参考基因组选择

现在又有一个严峻的问题摆在我们眼前,不难发现RGAP和RAP都提供了多个版本的参考基因组下载,我们要下载谁呢?

首先根据Improvement of the Oryza sativa Nipponbare reference genome using next generation sequence and optical map data 可知,无论是RGAP还是RAP,两者最新版本是一致的,不存在冲突,所以可以大胆下载最新版。

当然我也分别下载IRGSP1.0和RGAP7的参考基因组序列。

wget http://rapdb.dna.affrc.go.jp/download/archive/irgsp1/IRGSP-1.0_genome.fasta.gz
unzip IRGSP-1.0_genome.fasta.gz
bioawk -c fastx '{print $1 "\t" length($seq)}' IRGSP-1.0_genome.fasta 
wget http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0/all.dir/all.chrs.con
bioawk -c fastx '{print $1 "\t" length($seq)}' all.chrs.con
img_3f58fb246be94328b80dcf6b8d4c9aa3.png
大小相同

两者大小一摸一样,所以序列基本上是一致的,那么序列比对就不存在问题了。但是,请注意两个染色体序列的命名哦!chr01和chr1的区别说不定某一天就会坑你哦。

水稻泛基因组文章选择的是IRGAP4, 我同样也下载了序列,发现长度其实是不同。因此,需要下载对应的注释信息。

img_2cb73a89c7261e407e8a829ff475ab04.png
IRGAP4

基因命名问题

这个问题我在水稻如何做KEGG富集分析曾经说到过,也是让人难受的问题。尽管RAP和IRGSP目前用于注释的参考序列已经是一致的。但是两者的注释是不同的。否则也就没有必要来两个组织了。

尽管它们在对基因的定义上存在差异,但是两者在转录本上其实是非常一致的。毕竟CDS的序列转录出来后就摆在哪里,你还能拿他怎么样。

img_0900e13638dd4c49d4b5d3239ea6a349.png
对gene注释不同
img_055812118dcc77b4ffa6cfcd5879300e.jpe
对转录本注视相同

对于几个基因的名字转换,用这个在线工具就行了

img_1d1fd72ecbeee2c4a862efafe96dcea3.jpe
RAP-db

那如果你需要批量转换RAP和IRGSP的ID呢?那你可能需要下载这个http://rapdb.dna.affrc.go.jp/download/archive/RAP-MSU_2017-08-04.txt.gz,然后写一个脚本。

ID转换在线工具

当然,我们可能还会遇到其他奇奇怪怪的ID,感谢生信媛编辑群的小伙伴-李广伟师兄提供的一个把可以在线转换id,用基因名字编号查找发表的文献的网站

http://funricegenes.ncpgr.cn/

img_ab057b5b84c2fcd5d25431a12f60672c.jpe
funricegenes

除了页面丑了点以外,没啥毛病。

如何下载批量下载泛基因组的67个contig

最近我一直在读重磅!!黄学辉等课题组水稻基因组复杂变异再登NG,因为是一篇信息量和数据量都很大的文章。尤其文章中还提供了66个品种水稻的contig的下载,我觉得应该还有很多东西可以继续挖下去。那么问题来了,如何一步就下载完所有的contig数据呢?

假设你有一个做生信的师弟,那就很简单了。只要说一句,“最近有一篇水稻泛基因组的文章,里面有很多数据,你帮我去下载一下吧”。是不是方便

img_a9e5934044471346fc36ee25924e5058.png
嘿嘿嘿

但是,假设你就是那个刚开始搞生信的师弟,那你难不成还准备打开那个网站,一个一个点吧。还别说,一共也就67个链接,点起来也不需要10分钟的时间。

img_6faaf7a122045a05c37590b70a2a3941.jpe
网页

当然,作为一个搞生信,有一点unix基础的人,肯定不会这样子搞。我们一般用一行命令就搞定了

wget -r 1 -np -nd -A *.fa.gz http://202.127.18.228/RicePanGenome/# -r 递归# -np 不要回到上一级# -nd 不要创建文件夹# -A *.fa.gz : 只下载fa.gz结果的文件
img_fabfad3376265404845a1da66f4a2c5b.png
飞一般的感觉

顺便放一下自己的知识星球,如果你觉得我对你有帮助的话。


img_3cd12576dc9acc62924d3ff81523a96a.png
知识星球
目录
相关文章
|
算法 关系型数据库 数据挖掘
Sentieon | 每周文献-Tumor Sequencing(肿瘤测序)-第三期
本期重点关注Sentieon在甲状腺癌和CRISPR/Cas9技术中的应用
114 0
Sentieon | 每周文献-Tumor Sequencing(肿瘤测序)-第三期
|
数据采集 芯片
GWAS全基因组关联分析入门教程
GWAS全基因组关联分析入门教程
|
7月前
|
机器学习/深度学习 编解码 算法
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
278 0
|
7月前
|
算法 数据挖掘
Sentieon | 每周文献-Agrigenomics-第二十六期
Sentieon | 每周文献-Agrigenomics-第二十六期
46 0
|
存储 索引 Python
生信教程:使用全基因组SNP数据进行ABBA-BABA分析
生信教程:使用全基因组SNP数据进行ABBA-BABA分析
293 0
|
数据可视化 数据库
scRNA分析|使用CellChat完成细胞通讯分析-简单且可视化出众,代码自取
scRNA分析|使用CellChat完成细胞通讯分析-简单且可视化出众,代码自取
1537 0
|
7月前
|
编解码 数据挖掘 数据库
植被农业数据下载网站整理
植被农业数据下载网站整理
103 2
|
7月前
|
定位技术
高分GF与环境HJ系列国产卫星遥感影像数据图像免费批量下载方法
高分GF与环境HJ系列国产卫星遥感影像数据图像免费批量下载方法
171 1
|
数据库
生信分析|基因组倍型鉴定
生信分析|基因组倍型鉴定
183 0
|
安全 算法 数据挖掘
Sentieon | 每周文献-Epidemiology(流行病学)-第五期
Sentieon | 每周文献-Epidemiology(流行病学)-第五期
53 0
Sentieon | 每周文献-Epidemiology(流行病学)-第五期