一个用interproscan做基因注释的简易教程-阿里云开发者社区

开发者社区> 卖萌哥、> 正文

一个用interproscan做基因注释的简易教程

简介: 官网地址: http://www.ebi.ac.uk/interpro/download.html github使用手册地址: https://github.
+关注继续查看

官网地址:

http://www.ebi.ac.uk/interpro/download.html

github使用手册地址:

https://github.com/ebi-pf-team/interproscan/wiki

1.下载、解压、安装

下载链接:

nohup wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.28-67.0/interproscan-5.28-67.0-64-bit.tar.gz &

因为压缩包有11G左右,所以最好还是用nohup后台下载,以防网络因素导致下了一半得重新下的情况。

解压:

tar -pxvzf interproscan-5.28-67.0-*-bit.tar.gz

这里参数p是 :

p = preserve the file permissions
#即保存文件权限

安装Panther模块

panter库需要单独安装。

下载&解压

cd [InterProScan5 home]/data/
nohup wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-12.0.tar.gz &
tar -pxvzf panther-data-12.0.tar.gz
The pre-calculated match lookup网页服务器能够提供超过3千万蛋白序列的比对,包括所有的UniProtKB蛋白序列.
InterProScan 5使用这个服务器能够加速本地服务器的速度。
这是这个版本的特点,要想使用这个服务器的话,需要电脑能上网:http://www.ebi.ac.uk to use it.
 如果你的电脑防火墙阻止访问这个网站,你课以下载本地化的InterProScan 5 lookup service(https://code.google.com/p/interproscan/wiki/LocalLookupService)
或者关掉这个功能关掉这个功能的时候,你可以在命令行加入-dp 或者修改interproscan.properties 
在前面加一个#注释掉即可
 precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup

最基本使用模式:

./interproscan.sh -i /path/to/sequences.fasta –o /san/ –goterms –iprlookup –pa -f xml

也可使用示例来测试:

./interproscan.sh -i test_proteins.fasta -f tsv

参数信息:

-appl / --applications application_name (optional)

By default, all available analyses are run.

也可以指定特定的数据库

./interproscan.sh -appl Pfam -i /path/to/sequences.fasta

也可以指定多个数据库,并可选择数据库的版本

./interproscan.sh -appl Pfam-31.0 -appl PRINTS-42.0 -i /path/to/sequences.fasta

也可以只使用一个-appl,后面跟很多的数据库

./interproscan.sh -appl CDD,COILS,Gene3D,HAMAP,MobiDBLite,PANTHER,Pfam,PIRSF,PRINTS,ProDom,PROSITEPATTERNS,PROSITEPROFILES,SFLD,SMART,SUPERFAMILY,TIGRFAM -i /path/to/sequences.fasta

所有可用的数据库list:

Included Analyses

This distribution of InterProScan includes:

以下的数据库在interproscan 5中可用,但是需要获得许可:

所以不加比较好,可以最大程度地得到需要的信息,虽然会给后续处理带来压力。


-i / --fasta sequence_file

需要输入fasta格式的文件。核酸和蛋白都可以,但推荐蛋白,毕竟蛋白文件相对小一点。

for protein sequences, returnand files or for nucleotide sequences, return GFF3 and XML files

蛋白质文件的默认输出格式是 TSV, XML 或GFF3,核酸序列默认输出GFF3 或 XML 文件


-iprlookup,--iprlookup (optional)

-goterms,--goterms (optional)

开启GO注释,这两个参数一般一起开,GO的注释依赖于-iprlookup参数


-b / --output-file-base file_name (optional)

Optionally, you can supply a path and base name (excluding a file extension) for the results file as follows:

./interproscan.sh -i /path/to/sequences.fasta -b /path/to/output_file

The appropriate file extension will be added to each output file, depending upon the format(s) requested. (It is therefore recommended that you do not include a file extension yourself.)

Note that using this option will not overwrite existing files. If a file with the required name exists at the path specified, the provided file name will have 'underscore_number' appended in front of the file extension.

没明白,贴原文需要的自己看。感觉上是不需要自己设置输出格式的意思?而且不会重写覆盖掉已存在的文件。


-o 跟前面的-b.-d不能同时出现,如果设置了这个,就必须设置-f

-f 输出文件的格式,支持的格式为TSV, XML, GFF3, HTML and SVG。蛋白默认的格式为TSV, XML 和 GFF3, 核酸的格式之前为GFF3 和XML,现在都可以了哦。

 ./interproscan.sh -f XML -f HTML -i /path/to/sequences.fasta -b /path/to/output_file 

集中输出格式的区别:https://code.google.com/p/interproscan/wiki/OutputFormats


-dp 关闭precalculated match lookup service,默认的是开启。根据md5值来快速检验这上传的数据是否已经被注释了,如果是已经注释了就直接出结果。节省时间。


-pa / --pathways (optional)
Option that provides mappings from matches to pathway information, which is based on the matched manually curated InterPro entries. (IMPLIES -iprlookup option). The different pathways databases that I5 provides cross links to are:

KEGG
MetaCyc
Reactome

开启可能的注释信息。


-t / --seqtype (optional)
InterProScan 5 supports analysis of both protein and nucleic acid sequences (DNA/RNA). Your input sequences are interpreted as protein sequences by default. If you like to scan nucleotide sequences you must set the -t option:

./interproscan.sh -t n -i /path/to/sequences.fasta

如果输入的是核酸序列(DNA或者RNA都可以)需要设置-t参数,默认是蛋白。


-dra/ --disable-residue-annot (optional)

Optionally, you can prevent InterProScan from calculating the residue level annotations and displaying in the output where available. If you don't require this information then disabling the feature will improve performance and result in smaller output files.

可以将一些计算忽略,得到较小较快的结果


更多的信息请查看下面参考的第一条。

一些注意事项

  1. 跑interproscan的数据可以是核酸也可以是蛋白质,但是命令会有一些区别。
  1. 数据一定要格式化,而且序列中不能出现*号等其他字符。gene的名字不能为空。

根据以上信息整理后得到:

./interproscan.sh -i /path/to/sequences.pep -iprlookup -goterms -f html -f tsv -dp -pa -dra -b /path/to/output_file


interproscan.sh  -appl PfamA (-appl PRINTS) -appl SMART -appl PANTHER -i Porphyra_umbilicalis_pep.fasta -f tsv -o Porphyra_umbilicalis_pep.fasta.ipr -goterms -T temp -iprlookup


nohup ./interproscan.sh  -appl PfamA -appl SMART -appl PANTHER -i 160614_klebsormidium_v1.1_AA.fasta.fasta -f tsv -o kfl.tsv -goterms -T temp -iprlookup -dp &





#tsv格式可以直接用excel打开。

参考

https://github.com/ebi-pf-team/interproscan/wiki/HowToRun

https://github.com/ebi-pf-team/interproscan/wiki/FAQ#3.What_should_I_do_if_one_of_the_binaries_included_with_InterProScan_5_does_not_work_on_my_system?

http://qinqianshan.com/interproscan-installation-and-usage/

https://www.cnblogs.com/xiaojikuaipao/p/7190779.html

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
7706 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,大概有三种登录方式:
2596 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
10049 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
9429 0
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
11530 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
8157 0
腾讯云服务器 设置ngxin + fastdfs +tomcat 开机自启动
在tomcat中新建一个可以启动的 .sh 脚本文件 /usr/local/tomcat7/bin/ export JAVA_HOME=/usr/local/java/jdk7 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.
4488 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,云吞铺子总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系统盘、创建快照、配置安全组等操作如何登录ECS云服务器控制台? 1、先登录到阿里云ECS服务器控制台 2、点击顶部的“控制台” 3、通过左侧栏,切换到“云服务器ECS”即可,如下图所示 通过ECS控制台的远程连接来登录到云服务器 阿里云ECS云服务器自带远程连接功能,使用该功能可以登录到云服务器,简单且方便,如下图:点击“远程连接”,第一次连接会自动生成6位数字密码,输入密码即可登录到云服务器上。
21003 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
6289 0
+关注
卖萌哥、
生物信息学研究生
20
文章
1
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载