用fastp对转录组数据做QC

简介: 链接fastp: 极速全能的FASTQ文件自动质控+过滤+校正+预处理软件github地址看到介绍的时候是真的心动不已↓↓↓fastp可以仅仅扫描 FASTQ 文件一次,就完成比FASTQC + cutadapt + Trimmomatic 这...

链接

fastp: 极速全能的FASTQ文件自动质控+过滤+校正+预处理软件

github地址

看到介绍的时候是真的心动不已↓↓↓

fastp可以仅仅扫描 FASTQ 文件一次,就完成比FASTQC + cutadapt + Trimmomatic 这三个软件加起来还多很多的功能,而且速度上比仅仅使用 Trimmomatic 一个软件还要快 3 倍左右,因为它使用 C++开发,处处使用了高效算法,而且完美支持多线程!

这不就是我这个初入门的小白所梦寐以求的神器嘛~

fastp软件的十大功能

  1. 对数据自动进行全方位质控,生成人性化的报告;

  2. 过滤功能(低质量,太短,太多N......);

  3. 对每一个序列的头部或尾部,计算滑动窗内的质量均值,并将均值较低的子序列进行切除(类似 Trimmomatic 的做法,但是快非常多);

  4. 全局剪裁 (在头/尾部,不影响去重),对于 Illumina 下机数据往往最后一到两个 cycle 需要这样处理;

  5. 去除接头污染。厉害的是,你不用输入接头序列,因为算法会自动识别接头序列并进行剪裁;

  6. 对于双端测序(PE)的数据,软件会自动查找每一对read的重叠区域,并对该重叠区域中不匹配的碱基对进行校正;

  7. 去除尾部的 polyG。对于NextSeq/NovaSeq 的测序数据,因为是两色法发光,polyG 是常有的事,所以该特性对该两类测序平台默认打开;

  8. 对于PE数据中的overlap区间中不一致的碱基对,依据质量值进行校正;

  9. 可以对带分子标签(UMI)的数据进行预处理,不管UMI在插入片段还是在index 上,都可以轻松处理;

  10. 可以将输出进行分拆,而且支持两种模式,分别是指定分拆的个数,或者分拆后每个文件的行数。

虽然有些功能不知道是干啥的。。但是不明觉厉。。并且以上功能大多都不需要输入太多的参数,一些功能默认已经开启,但是可以用参数关闭。

所以如果没有特殊需求,直接默认跑就好了至于如何关,请移步最上面的链接。

安装

  1. conda安装
      conda install fastp
  1. 源码安装
      git clone https://github.com/OpenGene/fastp.git
      cd fastp
      make
      sudo make install

但是经过测试,源码安装会有一个error,作为小白并不能搞定。。所以推荐用conda安装~

quick start

单端:

fastp -i in.fq -o out.fq

双端:

  fastp -i in_1.fq -o out_1.fq -I in_2.fq -O out_2.fq

报告解读

比较好的方面是会有before和after的对比报告,但是吧。。看着还挺不习惯的。。还是习惯用fastqc & multiqc再跑一遍看结果。。具体的内容就看最上面贴的微信链接吧~

How to cite it?

A paper for this tool is being written, and may be soon available in bioRxiv. If you want to cite this tool before it is completed, cite like this:
Shifu Chen, fastp: A fast FASTQ preprocessor with full features, (2017), GitHub repository, https://github.com/OpenGene/fastp

相关文章
|
搜索推荐 Linux Python
VET:一个基于R语言的VCF数据提取工具,支持按基因ID、物理位置、样品名称提取指定变异信息
VET:一个基于R语言的VCF数据提取工具,支持按基因ID、物理位置、样品名称提取指定变异信息
|
2月前
|
数据可视化
单细胞转录组|scATAC-seq 数据整合
单细胞转录组|scATAC-seq 数据整合
59 0
|
5月前
|
机器学习/深度学习 自然语言处理 算法
【CV大模型SAM(Segment-Anything)】真是太强大了,分割一切的SAM大模型使用方法:可通过不同的提示得到想要的分割目标
【CV大模型SAM(Segment-Anything)】真是太强大了,分割一切的SAM大模型使用方法:可通过不同的提示得到想要的分割目标
|
数据挖掘 Go
文献丨转录组分析流程和常用软件
文献丨转录组分析流程和常用软件
|
数据可视化 数据挖掘 Go
RNA-seq丨转录组分析标准流程与常用工具
RNA-seq丨转录组分析标准流程与常用工具
|
Linux Shell 数据格式
Linux脚本丨批量提取VCF文件指定样本数据
Linux脚本丨批量提取VCF文件指定样本数据
|
数据挖掘 Go
文献丨群体转录组分析锁定关键转录因子
文献丨群体转录组分析锁定关键转录因子
|
Shell Linux 测试技术
CORNAS:一种快速简单鉴定无重复转录组差异基因的方法
还记得上次文章的最后提到CORNAS这种方法吗?最近刚好在Github上看到了这个项目,就花了点时间看了下文档感觉操作也比较简单,这里记录一下使用过程,大家共同学习一下。
183 0
|
Linux Windows Perl
没有生物学重复的转录组数据怎么进行差异分析?
设置生物学重复这个环节也是你实验设计很重要的一part,设置的好对你下游分析也有利,通常我们做转录组测序,需要的样本量每组至少为3个生物学重复,这个处理起来就很合理,并且现在流行的差异分析软件DEseq2,limma,edgeR等等都是针对有重复的数据去做的,但有时候会不幸碰到样品测序失败不能用,导致每组就给你剩一个重复时候该怎么办,之前我有批数据就是这样,但是办法总比困难多不能放过任何实验数据,搜了搜其实还是有一些方法可以去解决的,在这里介绍下我搜到的几种方法。
961 0
|
数据可视化 搜索推荐 数据挖掘
转录组分析RNA-Seq(续)
转录组分析RNA-Seq(续)
283 0
转录组分析RNA-Seq(续)