一文尝试解决水稻参考基因组下载

简介: 昨天发了如何一步下载水稻泛基因组的contig序列,就有小伙伴在后台问我如何下载水稻最新版日本晴参考基因组序列。由于我主要是研究拟南芥(Arabidopsis thaliana), 默认都是去TAIR上下载TAIR10的参考序列和注释信息,对水稻其实没有多大了解。

昨天发了如何一步下载水稻泛基因组的contig序列,就有小伙伴在后台问我如何下载水稻最新版日本晴参考基因组序列。由于我主要是研究拟南芥(Arabidopsis thaliana), 默认都是去TAIR上下载TAIR10的参考序列和注释信息,对水稻其实没有多大了解。但是,其实只要看看别人研究用的啥参考也就懂的差不多了。

Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice文章有一个部分叫做URL。

img_c1254ffc4575ecaa51ca62da3db50402.jpe
URL

从URL里面我发现了两个水稻的注释组织,RGAP和RAP,根据提供的链接我跳转到了如下两个网页。

img_f9810dc781065d361f9cb75d929c352c.jpe
RAP
img_35800716e266902e4fe68ab558d981fb.gif
RGAP

怎么说呢,这两个网站的风格总感觉相差了半个世纪。当然这不是重点,重点是找到数据下载的地方。下载的URL分别为:

http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/

img_c38fd44f95be16075ffab069e692d35f.jpe
FTP

http://rapdb.dna.affrc.go.jp/download/irgsp1.html

img_bd44bcff2e536bd83040b318b5a5d532.jpe
HTTP

参考基因组选择

现在又有一个严峻的问题摆在我们眼前,不难发现RGAP和RAP都提供了多个版本的参考基因组下载,我们要下载谁呢?

首先根据Improvement of the Oryza sativa Nipponbare reference genome using next generation sequence and optical map data 可知,无论是RGAP还是RAP,两者最新版本是一致的,不存在冲突,所以可以大胆下载最新版。

当然我也分别下载IRGSP1.0和RGAP7的参考基因组序列。

wget http://rapdb.dna.affrc.go.jp/download/archive/irgsp1/IRGSP-1.0_genome.fasta.gz
unzip IRGSP-1.0_genome.fasta.gz
bioawk -c fastx '{print $1 "\t" length($seq)}' IRGSP-1.0_genome.fasta 
wget http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0/all.dir/all.chrs.con
bioawk -c fastx '{print $1 "\t" length($seq)}' all.chrs.con
img_3f58fb246be94328b80dcf6b8d4c9aa3.png
大小相同

两者大小一摸一样,所以序列基本上是一致的,那么序列比对就不存在问题了。但是,请注意两个染色体序列的命名哦!chr01和chr1的区别说不定某一天就会坑你哦。

水稻泛基因组文章选择的是IRGAP4, 我同样也下载了序列,发现长度其实是不同。因此,需要下载对应的注释信息。

img_2cb73a89c7261e407e8a829ff475ab04.png
IRGAP4

基因命名问题

这个问题我在水稻如何做KEGG富集分析曾经说到过,也是让人难受的问题。尽管RAP和IRGSP目前用于注释的参考序列已经是一致的。但是两者的注释是不同的。否则也就没有必要来两个组织了。

尽管它们在对基因的定义上存在差异,但是两者在转录本上其实是非常一致的。毕竟CDS的序列转录出来后就摆在哪里,你还能拿他怎么样。

img_0900e13638dd4c49d4b5d3239ea6a349.png
对gene注释不同
img_055812118dcc77b4ffa6cfcd5879300e.jpe
对转录本注视相同

对于几个基因的名字转换,用这个在线工具就行了

img_1d1fd72ecbeee2c4a862efafe96dcea3.jpe
RAP-db

那如果你需要批量转换RAP和IRGSP的ID呢?那你可能需要下载这个http://rapdb.dna.affrc.go.jp/download/archive/RAP-MSU_2017-08-04.txt.gz,然后写一个脚本。

ID转换在线工具

当然,我们可能还会遇到其他奇奇怪怪的ID,感谢生信媛编辑群的小伙伴-李广伟师兄提供的一个把可以在线转换id,用基因名字编号查找发表的文献的网站

http://funricegenes.ncpgr.cn/

img_ab057b5b84c2fcd5d25431a12f60672c.jpe
funricegenes

除了页面丑了点以外,没啥毛病。

如何下载批量下载泛基因组的67个contig

最近我一直在读重磅!!黄学辉等课题组水稻基因组复杂变异再登NG,因为是一篇信息量和数据量都很大的文章。尤其文章中还提供了66个品种水稻的contig的下载,我觉得应该还有很多东西可以继续挖下去。那么问题来了,如何一步就下载完所有的contig数据呢?

假设你有一个做生信的师弟,那就很简单了。只要说一句,“最近有一篇水稻泛基因组的文章,里面有很多数据,你帮我去下载一下吧”。是不是方便

img_a9e5934044471346fc36ee25924e5058.png
嘿嘿嘿

但是,假设你就是那个刚开始搞生信的师弟,那你难不成还准备打开那个网站,一个一个点吧。还别说,一共也就67个链接,点起来也不需要10分钟的时间。

img_6faaf7a122045a05c37590b70a2a3941.jpe
网页

当然,作为一个搞生信,有一点unix基础的人,肯定不会这样子搞。我们一般用一行命令就搞定了

wget -r 1 -np -nd -A *.fa.gz http://202.127.18.228/RicePanGenome/# -r 递归# -np 不要回到上一级# -nd 不要创建文件夹# -A *.fa.gz : 只下载fa.gz结果的文件
img_fabfad3376265404845a1da66f4a2c5b.png
飞一般的感觉

顺便放一下自己的知识星球,如果你觉得我对你有帮助的话。


img_3cd12576dc9acc62924d3ff81523a96a.png
知识星球
目录
相关文章
|
6月前
|
数据挖掘 数据库
略微学习一下二区4.5分纯生信,单基因肺结核叶酸基因集+泛癌分析
研究摘要: 一项发表于2023年《MEDIATORS OF INFLAMMATION》杂志的文章发现,RTP4基因可能成为诊断肺结核的新生物标志物。研究者通过分析GEO数据库中的多个微阵列数据集,使用WGCNA方法识别与肺结核和叶酸生物合成相关的基因模块。RTP4在健康与肺结核患者间的表达有显著差异,并且在抗结核治疗前后表达量变化。泛癌分析显示,RTP4在不同肿瘤类型中的表达与预后关联不一,提示其可能在多种癌症中具有重要功能。这些发现支持RTP4作为诊断工具的潜力,并为进一步研究其在结核病和癌症中的作用奠定了基础。
83 1
|
算法 关系型数据库 数据挖掘
Sentieon | 每周文献-Tumor Sequencing(肿瘤测序)-第三期
本期重点关注Sentieon在甲状腺癌和CRISPR/Cas9技术中的应用
111 0
Sentieon | 每周文献-Tumor Sequencing(肿瘤测序)-第三期
|
数据采集 芯片
GWAS全基因组关联分析入门教程
GWAS全基因组关联分析入门教程
|
2月前
|
机器学习/深度学习 编解码 数据挖掘
Sentieon 应用教程 | 使用CNVscope进行CNV检测分析
CNVscope是Sentieon推出的一款基于机器学习的全基因组CNV分析检测模块。该模块主要用于检测大于5kb的拷贝数增加或缺失,方法是通过分析reads的深度信息,并结合断点检测等其他特征进行拷贝数判断。
29 1
|
4月前
|
存储 算法 Shell
Sentieon | 应用教程:Sentieon分布模式
本文档描述了如何利用Sentieon®基因组学工具的分片能力将DNAseq®流程分布到多台服务器上;将其他流程(如TNseq®)进行分布遵循相同原则,因为所有Sentieon®基因组学工具都具有相同的内置分布式处理能力。这种分布的目标是为了减少流程的总运行时间,以更快地生成结果;然而,这种分布也会带来一些额外的开销,使计算成本增加。
60 2
|
存储 索引 Python
生信教程:使用全基因组SNP数据进行ABBA-BABA分析
生信教程:使用全基因组SNP数据进行ABBA-BABA分析
269 0
|
6月前
|
编解码 数据挖掘 数据库
植被农业数据下载网站整理
植被农业数据下载网站整理
|
6月前
|
数据可视化 定位技术 Sentinel
遥感影像数据下载网站整理
遥感影像数据下载网站整理
186 2
|
12月前
|
数据库
生信分析|基因组倍型鉴定
生信分析|基因组倍型鉴定
163 0
|
搜索推荐 算法 数据挖掘
Sentieon | 每周文献-Liquid Biopsy(液体活检)-第十期
Sentieon | 每周文献-Liquid Biopsy(液体活检)-第十期
64 0
Sentieon | 每周文献-Liquid Biopsy(液体活检)-第十期