Rosalind工具库:使用Fastx-toolkit或trimmomatic进行质量控制

简介: 短读质量控制 Read Filtration by Quality由于各种因素,测序过程中一定会存在着错误,要么读错,要么漏读、要读多了。解决这种错误可以从源头,也就是测序仪改进,也可以通过生物信息学的手段,将可能错误的序列过滤掉。

短读质量控制 Read Filtration by Quality

由于各种因素,测序过程中一定会存在着错误,要么读错,要么漏读、要读多了。解决这种错误可以从源头,也就是测序仪改进,也可以通过生物信息学的手段,将可能错误的序列过滤掉。

测序仪的下机数据一般都是FASTQ,第二列存放序列,第四列存放对应碱基的质量。由于空间有限,所以无法直接以0.01%这类形式存放概率,必须要做一些转换,从P值先还算成q值

img_f31331697efaf7a149ed41ffa8561112.png
Q值
import math
p =  0.001
q = - 10math.log10(p)
# 30

Solexa在1.3版本之前的换算方式是-10log10(p/(1-p)),操作非常的溜

从p值换算成q值,依旧需要两个位置进行存放质量,于是需要进一步编码。这一步采用了ASCII码中字符的位置信息来对应q值。但是ASCII码前面32位是不可见的控制字符,肯定是不能用的,于是就需要往后挪挪,那么挪多少呢?不同测序公司又开始搞自己的一套了。

img_319fa655af44071d71a8d38e219f884d.png
不同标准的编码对应

虽然最后的故事是illumina代表了测序届的半壁江山,格式最后都是Illumina 1.8+,采用Phred+33的形式,但是如果用公共数据的时候一定要小心

# Phred+33
chr(30+33)
#'?'

这一步是根据测序质量对低质量的read进行过滤,Rosalind推荐FASTX-Toolkit,这也是我最早使用的质控工具,但是在使用过程前,我们需要简单的判断下这个测序格式是Phred+33还是Phred+64。

grep 2 rosalind_filt_1_dataset.txt  #有结果
grep X rosalind_filt_1_dataset.txt  # 无结果
# 基本上断定这个是Phred33

但是编译好的v0.0.13的FASTX-Toolkit的fastq_quality_filter默认是处理Phred+64,毕竟0.013版本是2012年开发出来的,那个时候主流就是Phred+64。所以只能去自己编译v0.014

题目给我的是p=78,q=24,所以程序按照如下方式运行

tail -n +2 rosalind_filt.txt > rosalind_filt.fq
~/opt/biosoft/fastx_toolkit-0.0.14/bin/fastq_quality_filter -q 24 -p 78 -i rosalind_filt.fq | grep -c '^@Ro'

过滤低质量碱基

如果使用Fastqc发现序列前后几个碱基质量不太好时,我们可以使用trimmomatic过滤掉按照一定的阈值对read前后进行过滤

问题: 给定一个phred33编码的FASTQ文件,和碱基质量阈值q,给出read前后过滤的文件

解决方法: 用trimmomaitc就行了,例如java -classpath trimmomatic-0.22.jar org.usadellab.trimmomatic.TrimmomaticSE -phred33 data/s1.fq data/tmp.fq TRAILING:30 MINLEN:50 就是过滤前后低于30的碱基,然后删掉不足50的read。

tail -n +2 rosalind_bphr.txt > rosalind_bphr.fq
trimmomatic SE -phred33 rosalind_bfil.fq tt.fq LEADING:22 TRAILING:22
目录
相关文章
|
8月前
|
IDE 小程序 API
【社区每周】IDE 3.8.10 Beta 版新增按需编译功能(1月第四期)
【社区每周】IDE 3.8.10 Beta 版新增按需编译功能(1月第四期)
70 6
|
1月前
|
存储 测试技术 持续交付
Docker与CI/CD的集成策略及其对软件开发效率和质量的提升作用
本文探讨了Docker与CI/CD的集成策略及其对软件开发效率和质量的提升作用。首先介绍了CI/CD的基本概念,接着阐述了Docker在环境一致性、快速部署、资源隔离和轻量化方面的优势。文章还详细讨论了构建、测试和部署阶段的具体集成方法,以及集成后带来的效率提升、可靠性增强、加速交付和易于管理等好处。最后,通过案例分析展示了集成的实际效果,强调了Docker与CI/CD结合的重要性和未来前景。
49 2
|
8月前
|
vr&ar 虚拟化
Dear Reality 发布 dearVR PRO 2 空间效果插件
空间音频专家 Dear Reality 为其广受欢迎的 dearVR PRO 空间效果插件推出了新一代产品 dearVR PRO 2,添加了包括立体声宽度控制在内的立体声输入,并支持用户访问新的沉浸式Pro Tools格式(9.0.4、9.1.4和9.0.6)。dearVR PRO 2 还配备了新的高通和低通滤波器,用于早期反射和后期混响,旨在为各类制作提供逼真的音效。此外,新的 Mk II 软件支持第三方 OSC 头部跟踪器。
Dear Reality 发布 dearVR PRO 2 空间效果插件
|
8月前
|
小程序 IDE 开发工具
社区每周丨IDE 3.7.4 Beta 版本上线及基础库更新至 2.8.10(6.5-6.9)
社区每周丨IDE 3.7.4 Beta 版本上线及基础库更新至 2.8.10(6.5-6.9)
92 11
|
8月前
|
小程序 IDE 开发工具
社区每周丨基础库更新至 2.8.8及IDE3.6.3 Beta 版本上线(4.3-4.7)
社区每周丨基础库更新至 2.8.8及IDE3.6.3 Beta 版本上线(4.3-4.7)
86 11
|
8月前
|
数据采集
toolkit-frame之toolkit-sprider(数据采集)---笔趣阁小说
toolkit-frame之toolkit-sprider(数据采集)---笔趣阁小说
86 1
|
8月前
|
数据采集
toolkit-frame之toolkit-sprider(数据采集)---中国船舶网
toolkit-frame之toolkit-sprider(数据采集)---中国船舶网
42 1
|
8月前
|
数据采集 JavaScript 前端开发
toolkit-frame之toolkit-sprider(数据采集)---百度图片
toolkit-frame之toolkit-sprider(数据采集)---百度图片
39 2
|
8月前
|
数据库 Python
toolkit-frame之toolkit-sprider 防止重复采集的数据库(Python)
toolkit-frame之toolkit-sprider 防止重复采集的数据库(Python)
59 0
|
Go iOS开发 MacOS
Win11系统下搭建Go lang开发环境更换国内源并且体验宇宙最快框架Iris
最近有同学开始尝试接触Go lang,拥抱新技术永远都会是一个好习惯,之前的一篇文章介绍了[如何在Mac os系统下配置Go lang开发环境](https://v3u.cn/a_id_88),这次我们在Win10系统下进行配置,并且更换国内的安装源,最后再和“全宇宙最快的web框架”--Iris亲密接触一下,对于Iris可能很多朋友并不熟悉,一般Go lang在web开发领域相对著名的框架比如Beego或者Gin都名声在外,这里推荐Iris的原因也并不是因为它源于古希腊女神(彩虹女神)的炫酷名字,而是因为它在goroutine的加持下强大的Go http server的性能。
Win11系统下搭建Go lang开发环境更换国内源并且体验宇宙最快框架Iris

热门文章

最新文章

下一篇
开通oss服务