一文尝试解决水稻参考基因组下载

简介: 昨天发了如何一步下载水稻泛基因组的contig序列,就有小伙伴在后台问我如何下载水稻最新版日本晴参考基因组序列。由于我主要是研究拟南芥(Arabidopsis thaliana), 默认都是去TAIR上下载TAIR10的参考序列和注释信息,对水稻其实没有多大了解。

昨天发了如何一步下载水稻泛基因组的contig序列,就有小伙伴在后台问我如何下载水稻最新版日本晴参考基因组序列。由于我主要是研究拟南芥(Arabidopsis thaliana), 默认都是去TAIR上下载TAIR10的参考序列和注释信息,对水稻其实没有多大了解。但是,其实只要看看别人研究用的啥参考也就懂的差不多了。

Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice文章有一个部分叫做URL。

img_c1254ffc4575ecaa51ca62da3db50402.jpe
URL

从URL里面我发现了两个水稻的注释组织,RGAP和RAP,根据提供的链接我跳转到了如下两个网页。

img_f9810dc781065d361f9cb75d929c352c.jpe
RAP
img_35800716e266902e4fe68ab558d981fb.gif
RGAP

怎么说呢,这两个网站的风格总感觉相差了半个世纪。当然这不是重点,重点是找到数据下载的地方。下载的URL分别为:

http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/

img_c38fd44f95be16075ffab069e692d35f.jpe
FTP

http://rapdb.dna.affrc.go.jp/download/irgsp1.html

img_bd44bcff2e536bd83040b318b5a5d532.jpe
HTTP

参考基因组选择

现在又有一个严峻的问题摆在我们眼前,不难发现RGAP和RAP都提供了多个版本的参考基因组下载,我们要下载谁呢?

首先根据Improvement of the Oryza sativa Nipponbare reference genome using next generation sequence and optical map data 可知,无论是RGAP还是RAP,两者最新版本是一致的,不存在冲突,所以可以大胆下载最新版。

当然我也分别下载IRGSP1.0和RGAP7的参考基因组序列。

wget http://rapdb.dna.affrc.go.jp/download/archive/irgsp1/IRGSP-1.0_genome.fasta.gz
unzip IRGSP-1.0_genome.fasta.gz
bioawk -c fastx '{print $1 "\t" length($seq)}' IRGSP-1.0_genome.fasta 
wget http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0/all.dir/all.chrs.con
bioawk -c fastx '{print $1 "\t" length($seq)}' all.chrs.con
img_3f58fb246be94328b80dcf6b8d4c9aa3.png
大小相同

两者大小一摸一样,所以序列基本上是一致的,那么序列比对就不存在问题了。但是,请注意两个染色体序列的命名哦!chr01和chr1的区别说不定某一天就会坑你哦。

水稻泛基因组文章选择的是IRGAP4, 我同样也下载了序列,发现长度其实是不同。因此,需要下载对应的注释信息。

img_2cb73a89c7261e407e8a829ff475ab04.png
IRGAP4

基因命名问题

这个问题我在水稻如何做KEGG富集分析曾经说到过,也是让人难受的问题。尽管RAP和IRGSP目前用于注释的参考序列已经是一致的。但是两者的注释是不同的。否则也就没有必要来两个组织了。

尽管它们在对基因的定义上存在差异,但是两者在转录本上其实是非常一致的。毕竟CDS的序列转录出来后就摆在哪里,你还能拿他怎么样。

img_0900e13638dd4c49d4b5d3239ea6a349.png
对gene注释不同
img_055812118dcc77b4ffa6cfcd5879300e.jpe
对转录本注视相同

对于几个基因的名字转换,用这个在线工具就行了

img_1d1fd72ecbeee2c4a862efafe96dcea3.jpe
RAP-db

那如果你需要批量转换RAP和IRGSP的ID呢?那你可能需要下载这个http://rapdb.dna.affrc.go.jp/download/archive/RAP-MSU_2017-08-04.txt.gz,然后写一个脚本。

ID转换在线工具

当然,我们可能还会遇到其他奇奇怪怪的ID,感谢生信媛编辑群的小伙伴-李广伟师兄提供的一个把可以在线转换id,用基因名字编号查找发表的文献的网站

http://funricegenes.ncpgr.cn/

img_ab057b5b84c2fcd5d25431a12f60672c.jpe
funricegenes

除了页面丑了点以外,没啥毛病。

如何下载批量下载泛基因组的67个contig

最近我一直在读重磅!!黄学辉等课题组水稻基因组复杂变异再登NG,因为是一篇信息量和数据量都很大的文章。尤其文章中还提供了66个品种水稻的contig的下载,我觉得应该还有很多东西可以继续挖下去。那么问题来了,如何一步就下载完所有的contig数据呢?

假设你有一个做生信的师弟,那就很简单了。只要说一句,“最近有一篇水稻泛基因组的文章,里面有很多数据,你帮我去下载一下吧”。是不是方便

img_a9e5934044471346fc36ee25924e5058.png
嘿嘿嘿

但是,假设你就是那个刚开始搞生信的师弟,那你难不成还准备打开那个网站,一个一个点吧。还别说,一共也就67个链接,点起来也不需要10分钟的时间。

img_6faaf7a122045a05c37590b70a2a3941.jpe
网页

当然,作为一个搞生信,有一点unix基础的人,肯定不会这样子搞。我们一般用一行命令就搞定了

wget -r 1 -np -nd -A *.fa.gz http://202.127.18.228/RicePanGenome/# -r 递归# -np 不要回到上一级# -nd 不要创建文件夹# -A *.fa.gz : 只下载fa.gz结果的文件
img_fabfad3376265404845a1da66f4a2c5b.png
飞一般的感觉

顺便放一下自己的知识星球,如果你觉得我对你有帮助的话。


img_3cd12576dc9acc62924d3ff81523a96a.png
知识星球
目录
相关文章
|
数据可视化
绘制热图时看不出颜色差异?四种方式转换处理使结果显而“易”见
绘制热图时看不出颜色差异?四种方式转换处理使结果显而“易”见
20711 2
|
JavaScript 前端开发 Java
JavaScript的数学计算库:decimal.js
JavaScript的数学计算库:decimal.js
493 0
|
6月前
|
人工智能 Kubernetes 安全
网络安全公司前沿洞察:F5凭何成为网络安全领域的中流砥柱
网络安全公司前沿洞察:F5凭何成为网络安全领域的中流砥柱
160 4
|
Linux
【Linux命令200例】diff比较两个文件的差异
diff命令是Linux系统中的一个非常实用且常用的命令。它用于比较两个文件的差异,并输出不同之处的详细说明。diff命令可以帮助我们快速找出两个文件之间的差异,从而方便我们进行文件对比、合并和版本控制等操作。
1277 0
|
API 索引 Python
【Pandas】已完美解决:AttributeError: ‘DataFrame‘ object has no attribute ‘ix‘
【Pandas】已完美解决:AttributeError: ‘DataFrame‘ object has no attribute ‘ix‘
766 0
|
前端开发 Java API
使用JavaFX进行跨平台桌面应用开发的技术指南
【5月更文挑战第29天】JavaFX是Oracle的开源GUI工具包,用于跨平台桌面应用开发。它提供丰富的API、UI控件、图形动画支持及媒体集成。通过设置JDK和JavaFX SDK环境,使用IDE创建项目,编写并运行JavaFX代码,开发者可构建富客户端应用。遵循MVC模式、使用FXML和CSS,以及测试兼容性,能提升应用质量和用户体验。
|
存储 前端开发 数据可视化
构建基于React的动态数据可视化应用
【5月更文挑战第27天】构建基于React的动态数据可视化应用,通过Create React App快速搭建环境,使用Recharts等库封装组件。在`useState`和`useEffect` Hooks管理状态,处理动态数据。优化性能,添加交互功能,实现响应式设计,确保可访问性,打造高性能、用户体验佳的可视化应用。
|
存储 监控 BI
HIS系统是什么?一套前后端分离云HIS系统源码 接口技术RESTful API + WebSocket + WebService
医院管理信息系统(全称为Hospital Information System)即HIS系统。 常规模版包括门诊管理、住院管理、药房管理、药库管理、院长查询、电子处方、物资管理、媒体管理等,为医院管理提供更有力的保障。 HIS系统以财务信息、病人信息和物资信息为主线,通过对信息的收集、存储、传递、统计、分析、综合查询、报表输出和信息共享,及时为医院领导及各部门管理人员提供全面、准确的各种数据。 门诊医生工作站采用下拉式汉化菜单,界面友好,实用性强,设有与门诊挂号收费系统、医技科室信息系统、住院结算信息系统的软件接口。
549 1
|
开发工具 开发者 git
使用git和github进行协同开发流程
目录 前言 仓库(Repository) 源仓库 开发者仓库 分支(Branch) 永久性分支 暂时性分支 工作流(workflow) 总结 参考资料 前言 (本文假设各位已经对基本git的基本概念、操作有一定的理解,如无相关git知识,可以参考Pro Git这本书进行相关的学习和练习) 很多项目开发都会采用git这一优秀的分布式版本管理工具进行项目版本管理,使用github开源平台作为代码仓库托管平台。
2474 0