Sentieon数据质控QC模块介绍

简介: Sentieon数据质控QC模块介绍

Sentieon持续为业界提供高性能的NGS数据分析软件。在数据处理模块之外,Sentieon软件套装中还包含了多个用于BAM和VCF文件的质控模块相比于常规的GATK/Picard工具,Sentieon的质控工具利用Sentieon引擎对于BAM文件进行高速读取,可以大幅度提升分析速度,缩短全流程的耗时。


CoverageMetrics模块


下面我们以常用的BAM深度统计工具“CoverageMetrics”为例,做个具体介绍。CoverageMetrics工具匹配了GATK的“DepthOfCoverage”工具,以BAM文件为输入,可以统计出某个位置、某个区间、某个基因或者全局的测序深度数据,同时也可以将全局数据通过平均值、中位数、四分位或者超过某个深度阈值的比例等形式进行输出展示。


比如在统计全基因组数据质量时常用的“xx%区域的覆盖深度超过15x”这样的指标,就可以由这个质控模块给出。如下图所示,与开源软件对比,”CoverageMetrics”模块的提速在10-80倍之间。



除了统计深度,我们还提供了统计其他常用质控数据的模块,包括统计双端测序insert size的“InsertSizeMetricAlgo”模块;统计GC content的”GCBias”模块;统计比对质量的”AignmentStat”模块;统计panel捕获效率的”HsMetricAlgo”模块;统计测序质量的”QualDistribution”模块;以及统计VCF质控数据的”CollectVCMetrics”模块等。 


质控模块


我们目前Sentieon软件包中的QC质控模块,以及对应的开源工具列举如下:



建议Sentieon用户对照这张表格,将目前流程中的质控模块都尽可能替换成Sentieon工具,获得最大的分析速度与计算成本的收益。

软件试用:Sentieon基因数据分析加速软件 -官方试用下载 (insvast.com)

目录
相关文章
|
存储 数据挖掘 Shell
GATK 软件分析流程
GATK 软件分析流程由阿里云和 Broad Institute 合作提供。Broad Institute 提供的 GATK 流程最佳实践用 工作流定义语言(WDL) 编写,通过批量计算集成的 Cromwell 工作流引擎解析执行。用户将为作业运行时实际消耗的计算和存储资源付费,不需要支付资源之外的附加费用。 Broad Institute GATK 网站和论坛为 GATK 工具和 WDL 提供了更完整的背景信息,文档和支持。 如果需要执行用 WDL 编写的通用工作流程,请参考 cromwell 工作流引擎和 WDL 支持的 APP 。
1885 0
GATK 软件分析流程
|
算法 安全 数据库
J. Med. Chem. | 通过负向设计优化筛选化合物库
J. Med. Chem. | 通过负向设计优化筛选化合物库
212 0
J. Med. Chem. | 通过负向设计优化筛选化合物库
|
安全 开发工具 git
LAI: 评估基因组质量一个标准
基因组组装完成之后,就需要对最后的质量进行评估。我们希望得到的contig文件中,每个contig都能足够的长,能够有一个完整的基因结构,归纳一下就是3C原则: 连续性(Contiguity): 得到的contig要足够的长 正确性(Correctness): 组装的contig错误率要低 完整性(Completeness):尽可能包含整个原始序列 但是这三条原则其实是相互矛盾的,连续性越高,就意味着要处理更多的模糊节点,会导致整体错误率上升,为了保证完全的正确,那么就会导致contig非常的零碎。
2238 0
SAP QM 检验批上各个MIC质检结果的查询报表?
SAP QM 检验批上各个MIC质检结果的查询报表?
SAP QM 检验批上各个MIC质检结果的查询报表?
|
9月前
|
存储 Shell 索引
单细胞分析(Signac): PBMC scATAC-seq 质控
单细胞分析(Signac): PBMC scATAC-seq 质控
84 0
|
数据采集 数据可视化 Java
ChIP-seq 分析:原始数据质控(2)
染色质免疫沉淀,然后进行深度测序 (ChIPseq) 是一种成熟的技术,可以在**全基因组范围内识别转录因子结合位点和表观遗传标记**。
240 0
|
数据可视化 数据挖掘 Go
RNA-seq丨转录组分析标准流程与常用工具
RNA-seq丨转录组分析标准流程与常用工具
|
数据可视化 JavaScript 前端开发
植物泛基因组分析之可视化vg构建的Pan-SV初次尝试
植物泛基因组分析之可视化vg构建的Pan-SV初次尝试
|
9月前
|
存储 算法 数据挖掘
R语言和Python用泊松过程扩展:霍克斯过程Hawkes Processes分析比特币交易数据订单到达自激过程时间序列
R语言和Python用泊松过程扩展:霍克斯过程Hawkes Processes分析比特币交易数据订单到达自激过程时间序列
|
UED
Google Earth Engine——FORMA火灾警报数据集是使用两个MODIS产品的组合来检测的。NDVI(归一化植被指数)和FIRMS(资源管理系统的火灾信息)。
Google Earth Engine——FORMA火灾警报数据集是使用两个MODIS产品的组合来检测的。NDVI(归一化植被指数)和FIRMS(资源管理系统的火灾信息)。
134 0
Google Earth Engine——FORMA火灾警报数据集是使用两个MODIS产品的组合来检测的。NDVI(归一化植被指数)和FIRMS(资源管理系统的火灾信息)。