Sentieon数据质控QC模块介绍

简介: Sentieon数据质控QC模块介绍

Sentieon持续为业界提供高性能的NGS数据分析软件。在数据处理模块之外,Sentieon软件套装中还包含了多个用于BAM和VCF文件的质控模块相比于常规的GATK/Picard工具,Sentieon的质控工具利用Sentieon引擎对于BAM文件进行高速读取,可以大幅度提升分析速度,缩短全流程的耗时。


CoverageMetrics模块


下面我们以常用的BAM深度统计工具“CoverageMetrics”为例,做个具体介绍。CoverageMetrics工具匹配了GATK的“DepthOfCoverage”工具,以BAM文件为输入,可以统计出某个位置、某个区间、某个基因或者全局的测序深度数据,同时也可以将全局数据通过平均值、中位数、四分位或者超过某个深度阈值的比例等形式进行输出展示。


比如在统计全基因组数据质量时常用的“xx%区域的覆盖深度超过15x”这样的指标,就可以由这个质控模块给出。如下图所示,与开源软件对比,”CoverageMetrics”模块的提速在10-80倍之间。



除了统计深度,我们还提供了统计其他常用质控数据的模块,包括统计双端测序insert size的“InsertSizeMetricAlgo”模块;统计GC content的”GCBias”模块;统计比对质量的”AignmentStat”模块;统计panel捕获效率的”HsMetricAlgo”模块;统计测序质量的”QualDistribution”模块;以及统计VCF质控数据的”CollectVCMetrics”模块等。 


质控模块


我们目前Sentieon软件包中的QC质控模块,以及对应的开源工具列举如下:



建议Sentieon用户对照这张表格,将目前流程中的质控模块都尽可能替换成Sentieon工具,获得最大的分析速度与计算成本的收益。

软件试用:Sentieon基因数据分析加速软件 -官方试用下载 (insvast.com)

目录
相关文章
|
8月前
|
搜索推荐 Linux Python
VET:一个基于R语言的VCF数据提取工具,支持按基因ID、物理位置、样品名称提取指定变异信息
VET:一个基于R语言的VCF数据提取工具,支持按基因ID、物理位置、样品名称提取指定变异信息
|
7月前
|
存储 JSON Java
GATK4重测序数据怎么分析?
GATK4重测序数据怎么分析?
|
8月前
|
数据可视化 数据挖掘 Go
RNA-seq丨转录组分析标准流程与常用工具
RNA-seq丨转录组分析标准流程与常用工具
|
8月前
|
数据挖掘 数据中心
Hap-eval:Sentieon开源的多测序平台SV精度评估工具
Hap-eval:Sentieon开源的多测序平台SV精度评估工具
58 0
|
8月前
|
机器学习/深度学习 监控 搜索推荐
提升UMI分析精度和计算效率:Sentieon UMI分子标记处理模块
提升UMI分析精度和计算效率:Sentieon UMI分子标记处理模块
81 0
|
10月前
|
数据处理
R|fastqcr QC数据处理
R|fastqcr QC数据处理
136 0
ChIP-seq 分析:文库的复杂性和丰富性(7)
ChIPseq 中的一个潜在噪声源是 ChIPseq 库在 PCR 步骤中的过度放大。这可能会导致大量重复读取,从而混淆峰值调用。
80 0
|
Python
Hap-Eval:Sentieon团队开发的开源结构变异SV准确率评估工具
Hap-eval基于单倍型 (haplotype) 对两组SV结果进行比较,首先会将比较区块内的SV拼接成单倍型序列,如果SV的结果中有定相信息,在这一步也可以被利用;然后这些单倍型序列被用来建立一个矩阵,进行结果判断。
131 0
Hap-Eval:Sentieon团队开发的开源结构变异SV准确率评估工具
ML之FE:基于load_mock_customer数据集(模拟客户)利用featuretools工具实现自动特征生成/特征衍生
ML之FE:基于load_mock_customer数据集(模拟客户)利用featuretools工具实现自动特征生成/特征衍生
ML之FE:基于load_mock_customer数据集(模拟客户)利用featuretools工具实现自动特征生成/特征衍生
ML之FE:基于load_mock_customer数据集(模拟客户,单个DataFrame)利用featuretools工具实现自动特征生成/特征衍生
ML之FE:基于load_mock_customer数据集(模拟客户,单个DataFrame)利用featuretools工具实现自动特征生成/特征衍生
ML之FE:基于load_mock_customer数据集(模拟客户,单个DataFrame)利用featuretools工具实现自动特征生成/特征衍生