Sentieon DNAscope:适配多测序平台数据的快速精准分析流程

简介: Sentieon DNAscope:适配多测序平台数据的快速精准分析流程

DNAscope模块,是Sentieon软件一个准确高效的胚系变异检测模块。其在GATK基础上优化了核心算法,在继承GATK成熟且完整的BAM预处理流程的同时,引入机器学习基因分型模型。相比于GATK金标准而言,在降低计算成本的情况下,DNAscope流程能够大幅度提升SNP和Indel的检测准确度和稳定性。

DNAscope将基于单倍型拼接的变异检测与机器学习模型结合,从而实现更高的准确性。DNAscope在GATK HaplotypeCaller类似的逻辑体系结构基础上,对活性区域检测和局部组装等模块进行了优化,尤其是在高复杂度区域,可有效提高灵敏度和鲁棒性。当应用机器学习模型时,DNAscope会输出带有额外注释信息的候选变异列表,然后将这些被注释的候选变异传递到机器学习模型中进行基因分型,从而提高了变异检测和基因分型的准确性。

DNAscope方法概述

 

DNAscope遵循与GATK HaplotypeCaller类似的算法流。首先将可能存在遗传变异的位点确定为活跃区域,然后使用de Bruijn图对跨活动区域比对的序列reads进行局部组装,并通过PairHMM计算 read-haplotype的可能性,从而输出带有额外注释信息的候选变异列表,并传递到基于机器学习的基因分型模型中进行处理,以确定最终正确的变异基因型。

DNAscope With Illumina

  • 测试平台:Illumina Novaseq
  • 测试数据:precisionFDA truth-v2 challenge 30x HG002 WGS
  • 测试结果
    - 分析效率与Sentieon DNAseq一样快;
    - 比BWA-GATK分析效率快5~10倍;
    - 与 GATK 相比,错误减少 60% 以上
  • 文章地址
    https://www.biorxiv.org/content/10.1101/2022.05.20.4926v1

DNAscope With MGI

 

DNAscope With Element Bioscience

  • 测试平台:HG002 在 Element Bioscience Aviti 系统上测序(参考系统为Illmina Novaseq).
  • 测试数据:NIST Genome in a Bottle v4.2.1真集.
  • 测试结果
    -与 Illumina 相比,DNAscope 在 ElementBio 上取得了相似或更好的结果.

DNAscope with Ultima Genomics

  • 测试平台:Ultima Genomics最近出的新型高通量、低成本基因测序平台UG100,可提供100美元的全基因组测序。其将晶圆上的开放式流通池设计与大表面积和大部分天然核苷酸相结合,无需可逆终止子即可进行光学终点检测。关键挑战是处理非标准数据格式,并提高对同聚物的检测精度。
  • 测试数据集
    - HG002~HG007(下图展示均值结果)
    - 对两组高置信区域进行评估:NIST truth v4.2.1 排除同聚物长度 >=11 bp 的高置信区域,Ultima 高置信区域(不包括额外的串联重复区域)。
  • 测试结果:Sentieon DNAscope 为 Ultima Genomics 提供了新的pipeline和model,可为平台提供最佳的检测精度。

DNAscope LongRead with Pacbio HiFi

  • 测试平台:PacBio HiFi reads与常见的短读长有很大不同
    - 更长的读长可以有效鉴定比对的模糊性;
    - 更高的SNP检测精度,但是会带来更高的INDEL错误率,尤其是在同聚物附近。
  • 测试数据:以 CHOP 的 Kids First 项目为测试基准
  • 测试工具:针对PacBio HiFi改进的DNAscope模块和DNAscope模型
    - DNAscope 为 PacBio HiFi redas进行微调,以提高速度和准确性;
    - 为同聚物INDEL错误引入新的统计模型;
    - 用单倍体和二倍体检测使用单独的DNAscope模型。
  • 测试结果:
    - DNAscope LongRead在处理PacBio数据时具有优异的效率表现;
    - 在低深度测序条件下DNAscope LongRead具有较高的精度;
    - 16x HG003:F1 ~0.997 for SNP,  ~0.968 for INDEL;
    - 即使在10X, PacBio HiFi 在hard to map的 CMRG 区域中的表现也远远优于 Illumina;
  • 文章地址:    
    https://www.biorxiv.org/content/10.1101/2022.06.01.494452v1

DNAscope with GeneMind

  • 测试平台:高通量基因测序平台 GenoLab M
  • 测试数据:NA12878人源细胞系标准品DNA构建的WGS和WES
  • 测试工具:针对PacBio HiFi改进的DNAscope模块和DNAscope模型
    - DNAscope 为 PacBio HiFi redas进行微调,以提高速度和准确性;
    - 为同聚物INDEL错误引入新的统计模型;
    - 用单倍体和二倍体检测使用单独的DNAscope模型。
  • 测试结果
    - 针对WGS,Genolab M+DNAscope的灵敏度与特异性都显著超越同深度的NovaSeq+GATK结果,并且前者22x深度的整体准确率能够达到后者33x的水平,展现了卓越的成本控制潜力。在基因组的细分区域,也可以看到相似的结论。
    - 基于WES数据,Genolab M+DNAscope变异检测的灵敏度(Recall)与NovaSeq/NextSeq+GATK检测结果类似,但是变异检测的特异性(Precision)大幅度领先,最终的综合F-score也较高,可以在100x的深度下达到NovaSeq/NextSeq平台更高深度才能达到的准确率。
  • 文章地址:  
    https://www.researchsquare.com/article/rs-1402182/v1

结论

Sentieon DNAsocpe 分析流程基于机器学习原理,相比于开源GATK能够更快更准确的处理DNA测序数据,完成变异检测。相比于主要针对Illumina平台开发的GATK流程,Sentieon DNAscope可以通过训练不同的算法模型,特异性的适配各种测序平台的数据特性,纠正系统性偏差,提升变异检测效率和准确率。

Sentieon致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升NGS数据处理的效率、精准度和可靠性。随着软件的升级迭代和与更多伙伴的合作,将为业界提供更快速更精准的生信数据处理方案!

 

软件试用:https://www.insvast.com/sentieon

目录
相关文章
|
9月前
|
编解码 算法 固态存储
Visual C++ 6.0环境开发PACS影像系统的技术指标和精准算法
Visual C++ 6.0环境开发PACS影像系统的技术指标和精准算法
71 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
MarS:微软开源金融市场模拟预测引擎,支持策略测试、风险管理和市场分析
MarS 是微软亚洲研究院推出的金融市场模拟预测引擎,基于生成型基础模型 LMM,支持无风险环境下的交易策略测试、风险管理和市场分析。
80 8
MarS:微软开源金融市场模拟预测引擎,支持策略测试、风险管理和市场分析
|
27天前
|
机器学习/深度学习 数据采集 人工智能
设计文档:智能化医疗设备数据分析与预测维护系统
本系统的目标是构建一个基于人工智能的智能化医疗设备的数据分析及预测维护平台,实现对医疗设备运行数据的实时监控、高效处理和分析,提前发现潜在问题并进行预防性维修,从而降低故障率,提升医疗服务质量。
|
3月前
|
监控 安全 测试技术
构建高效精准测试平台:设计与实现全攻略
在软件开发过程中,精准测试是确保产品质量的关键环节。一个高效、精准的测试平台能够自动化测试流程,提高测试覆盖率,缩短测试周期。本文将分享如何设计和实现一个精准测试平台,从需求分析到技术选型,再到具体的实现步骤。
108 0
|
6月前
|
数据可视化 数据挖掘 数据处理
开源埋点分析系统:洞察用户行为的新视角
在数字化浪潮中,了解用户行为和优化用户体验成为企业竞争力的关键。对于希望深入了解客户和推动业务增长的公司来说,埋点分析系统是不可或缺的工具。今天,我们要介绍的不仅是一个 ClkLog 埋点分析系统,而是一种全新的、开源的洞察方案,它能够帮助您捕捉每一个关键数据点,确保您的决策基于最准确的用户行为分析。
开源埋点分析系统:洞察用户行为的新视角
|
7月前
|
存储 数据可视化 数据挖掘
实时数据分析系统的构建与优化
【7月更文挑战第29天】实时数据分析系统的构建与优化是一个复杂而细致的过程,需要从需求分析、数据源确定、数据采集与传输、数据处理与分析、数据存储、数据可视化、系统部署与配置、监控与优化等多个方面进行综合考虑。通过选择合适的技术栈和优化策略,可以构建出高效、稳定的实时数据分析系统,为企业决策提供强有力的支持。
|
存储 数据处理 数据库
TDengine 用户案例合集 | 智能环保项目的时序数据处理难点与优化实践
本篇文章汇总了三个典型的智能环保项目的数据架构升级实践,给有需要的企业参考。
247 1
|
9月前
|
机器学习/深度学习 监控 自动驾驶
新视频分析技术TDViT发布:提升稠密视频分析效率
【2月更文挑战第16天】新视频分析技术TDViT发布:提升稠密视频分析效率
130 1
新视频分析技术TDViT发布:提升稠密视频分析效率
|
数据挖掘 测试技术
Sentieon发布RNAseq加速分析方案
Sentieon发布RNAseq加速分析方案
137 0
Sentieon发布RNAseq加速分析方案
|
人工智能 机器人
AI智能自动交易量化机器人系统开发稳定版丨案例设计丨方案项目丨功能分析丨源码说明
When developing an AI automated quantitative trading robot system, it is first necessary to clarify the system's goals and requirements. Determine key factors such as the market, trading strategy, and risk control methods to be traded. Next, establish the basic framework for data acquisition and pro