链接
fastp: 极速全能的FASTQ文件自动质控+过滤+校正+预处理软件
看到介绍的时候是真的心动不已↓↓↓
fastp可以仅仅扫描 FASTQ 文件一次,就完成比FASTQC + cutadapt + Trimmomatic 这三个软件加起来还多很多的功能,而且速度上比仅仅使用 Trimmomatic 一个软件还要快 3 倍左右,因为它使用 C++开发,处处使用了高效算法,而且完美支持多线程!
这不就是我这个初入门的小白所梦寐以求的神器嘛~
fastp软件的十大功能
对数据自动进行全方位质控,生成人性化的报告;
过滤功能(低质量,太短,太多N......);
对每一个序列的头部或尾部,计算滑动窗内的质量均值,并将均值较低的子序列进行切除(类似 Trimmomatic 的做法,但是快非常多);
全局剪裁 (在头/尾部,不影响去重),对于 Illumina 下机数据往往最后一到两个 cycle 需要这样处理;
去除接头污染。厉害的是,你不用输入接头序列,因为算法会自动识别接头序列并进行剪裁;
对于双端测序(PE)的数据,软件会自动查找每一对read的重叠区域,并对该重叠区域中不匹配的碱基对进行校正;
去除尾部的 polyG。对于NextSeq/NovaSeq 的测序数据,因为是两色法发光,polyG 是常有的事,所以该特性对该两类测序平台默认打开;
对于PE数据中的overlap区间中不一致的碱基对,依据质量值进行校正;
可以对带分子标签(UMI)的数据进行预处理,不管UMI在插入片段还是在index 上,都可以轻松处理;
可以将输出进行分拆,而且支持两种模式,分别是指定分拆的个数,或者分拆后每个文件的行数。
虽然有些功能不知道是干啥的。。但是不明觉厉。。并且以上功能大多都不需要输入太多的参数,一些功能默认已经开启,但是可以用参数关闭。
所以如果没有特殊需求,直接默认跑就好了至于如何关,请移步最上面的链接。
安装
- conda安装
conda install fastp
- 源码安装
git clone https://github.com/OpenGene/fastp.git
cd fastp
make
sudo make install
但是经过测试,源码安装会有一个error,作为小白并不能搞定。。所以推荐用conda安装~
quick start
单端:
fastp -i in.fq -o out.fq
双端:
fastp -i in_1.fq -o out_1.fq -I in_2.fq -O out_2.fq
报告解读
比较好的方面是会有before和after的对比报告,但是吧。。看着还挺不习惯的。。还是习惯用fastqc & multiqc再跑一遍看结果。。具体的内容就看最上面贴的微信链接吧~
How to cite it?
A paper for this tool is being written, and may be soon available in bioRxiv. If you want to cite this tool before it is completed, cite like this:Shifu Chen, fastp: A fast FASTQ preprocessor with full features, (2017), GitHub repository, https://github.com/OpenGene/fastp