Sentieon DNAscope:适配多测序平台数据的快速精准分析流程

简介: Sentieon DNAscope:适配多测序平台数据的快速精准分析流程

DNAscope模块,是Sentieon软件一个准确高效的胚系变异检测模块。其在GATK基础上优化了核心算法,在继承GATK成熟且完整的BAM预处理流程的同时,引入机器学习基因分型模型。相比于GATK金标准而言,在降低计算成本的情况下,DNAscope流程能够大幅度提升SNP和Indel的检测准确度和稳定性。

DNAscope将基于单倍型拼接的变异检测与机器学习模型结合,从而实现更高的准确性。DNAscope在GATK HaplotypeCaller类似的逻辑体系结构基础上,对活性区域检测和局部组装等模块进行了优化,尤其是在高复杂度区域,可有效提高灵敏度和鲁棒性。当应用机器学习模型时,DNAscope会输出带有额外注释信息的候选变异列表,然后将这些被注释的候选变异传递到机器学习模型中进行基因分型,从而提高了变异检测和基因分型的准确性。

DNAscope方法概述

 

DNAscope遵循与GATK HaplotypeCaller类似的算法流。首先将可能存在遗传变异的位点确定为活跃区域,然后使用de Bruijn图对跨活动区域比对的序列reads进行局部组装,并通过PairHMM计算 read-haplotype的可能性,从而输出带有额外注释信息的候选变异列表,并传递到基于机器学习的基因分型模型中进行处理,以确定最终正确的变异基因型。

DNAscope With Illumina

  • 测试平台:Illumina Novaseq
  • 测试数据:precisionFDA truth-v2 challenge 30x HG002 WGS
  • 测试结果
    - 分析效率与Sentieon DNAseq一样快;
    - 比BWA-GATK分析效率快5~10倍;
    - 与 GATK 相比,错误减少 60% 以上
  • 文章地址
    https://www.biorxiv.org/content/10.1101/2022.05.20.4926v1

DNAscope With MGI

 

DNAscope With Element Bioscience

  • 测试平台:HG002 在 Element Bioscience Aviti 系统上测序(参考系统为Illmina Novaseq).
  • 测试数据:NIST Genome in a Bottle v4.2.1真集.
  • 测试结果
    -与 Illumina 相比,DNAscope 在 ElementBio 上取得了相似或更好的结果.

DNAscope with Ultima Genomics

  • 测试平台:Ultima Genomics最近出的新型高通量、低成本基因测序平台UG100,可提供100美元的全基因组测序。其将晶圆上的开放式流通池设计与大表面积和大部分天然核苷酸相结合,无需可逆终止子即可进行光学终点检测。关键挑战是处理非标准数据格式,并提高对同聚物的检测精度。
  • 测试数据集
    - HG002~HG007(下图展示均值结果)
    - 对两组高置信区域进行评估:NIST truth v4.2.1 排除同聚物长度 >=11 bp 的高置信区域,Ultima 高置信区域(不包括额外的串联重复区域)。
  • 测试结果:Sentieon DNAscope 为 Ultima Genomics 提供了新的pipeline和model,可为平台提供最佳的检测精度。

DNAscope LongRead with Pacbio HiFi

  • 测试平台:PacBio HiFi reads与常见的短读长有很大不同
    - 更长的读长可以有效鉴定比对的模糊性;
    - 更高的SNP检测精度,但是会带来更高的INDEL错误率,尤其是在同聚物附近。
  • 测试数据:以 CHOP 的 Kids First 项目为测试基准
  • 测试工具:针对PacBio HiFi改进的DNAscope模块和DNAscope模型
    - DNAscope 为 PacBio HiFi redas进行微调,以提高速度和准确性;
    - 为同聚物INDEL错误引入新的统计模型;
    - 用单倍体和二倍体检测使用单独的DNAscope模型。
  • 测试结果:
    - DNAscope LongRead在处理PacBio数据时具有优异的效率表现;
    - 在低深度测序条件下DNAscope LongRead具有较高的精度;
    - 16x HG003:F1 ~0.997 for SNP,  ~0.968 for INDEL;
    - 即使在10X, PacBio HiFi 在hard to map的 CMRG 区域中的表现也远远优于 Illumina;
  • 文章地址:    
    https://www.biorxiv.org/content/10.1101/2022.06.01.494452v1

DNAscope with GeneMind

  • 测试平台:高通量基因测序平台 GenoLab M
  • 测试数据:NA12878人源细胞系标准品DNA构建的WGS和WES
  • 测试工具:针对PacBio HiFi改进的DNAscope模块和DNAscope模型
    - DNAscope 为 PacBio HiFi redas进行微调,以提高速度和准确性;
    - 为同聚物INDEL错误引入新的统计模型;
    - 用单倍体和二倍体检测使用单独的DNAscope模型。
  • 测试结果
    - 针对WGS,Genolab M+DNAscope的灵敏度与特异性都显著超越同深度的NovaSeq+GATK结果,并且前者22x深度的整体准确率能够达到后者33x的水平,展现了卓越的成本控制潜力。在基因组的细分区域,也可以看到相似的结论。
    - 基于WES数据,Genolab M+DNAscope变异检测的灵敏度(Recall)与NovaSeq/NextSeq+GATK检测结果类似,但是变异检测的特异性(Precision)大幅度领先,最终的综合F-score也较高,可以在100x的深度下达到NovaSeq/NextSeq平台更高深度才能达到的准确率。
  • 文章地址:  
    https://www.researchsquare.com/article/rs-1402182/v1

结论

Sentieon DNAsocpe 分析流程基于机器学习原理,相比于开源GATK能够更快更准确的处理DNA测序数据,完成变异检测。相比于主要针对Illumina平台开发的GATK流程,Sentieon DNAscope可以通过训练不同的算法模型,特异性的适配各种测序平台的数据特性,纠正系统性偏差,提升变异检测效率和准确率。

Sentieon致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升NGS数据处理的效率、精准度和可靠性。随着软件的升级迭代和与更多伙伴的合作,将为业界提供更快速更精准的生信数据处理方案!

 

软件试用:https://www.insvast.com/sentieon

目录
相关文章
|
1天前
|
存储 人工智能 搜索推荐
Shandu:开源AI研究黑科技!自动挖掘多层级信息,智能生成结构化报告
Shandu 是一款开源的 AI 研究自动化工具,结合 LangChain 和 LangGraph 技术,能够自动化地进行多层次信息挖掘和分析,生成结构化的研究报告,适用于学术研究、市场分析和技术探索等多种场景。
38 8
Shandu:开源AI研究黑科技!自动挖掘多层级信息,智能生成结构化报告
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
MarS:微软开源金融市场模拟预测引擎,支持策略测试、风险管理和市场分析
MarS 是微软亚洲研究院推出的金融市场模拟预测引擎,基于生成型基础模型 LMM,支持无风险环境下的交易策略测试、风险管理和市场分析。
101 8
MarS:微软开源金融市场模拟预测引擎,支持策略测试、风险管理和市场分析
|
4月前
|
数据采集 自然语言处理 搜索推荐
基于qwen2.5的长文本解析、数据预测与趋势分析、代码生成能力赋能esg报告分析
Qwen2.5是一款强大的生成式预训练语言模型,擅长自然语言理解和生成,支持长文本解析、数据预测、代码生成等复杂任务。Qwen-Long作为其变体,专为长上下文场景优化,适用于大型文档处理、知识图谱构建等。Qwen2.5在ESG报告解析、多Agent协作、数学模型生成等方面表现出色,提供灵活且高效的解决方案。
418 49
|
算法 机器学习/深度学习 数据挖掘
带你读《增强型分析:AI驱动的数据分析、 业务决策与案例实践》之三:预测模型的新技术
本书“深入浅出的原理介绍 + 实际使用的案例”的内容安排能够使得数据分析建模人员从算法原理、数据挖掘知识结构、业务应用方法等方面得到提升,帮助数据分析建模人员开阔眼界、优化知识结构、提升实践技能。
|
7月前
|
存储 SQL 消息中间件
B端算法实践问题之设计一套实时平台能力如何解决
B端算法实践问题之设计一套实时平台能力如何解决
59 1
|
存储 数据处理 数据库
TDengine 用户案例合集 | 智能环保项目的时序数据处理难点与优化实践
本篇文章汇总了三个典型的智能环保项目的数据架构升级实践,给有需要的企业参考。
254 1
|
数据挖掘 测试技术
Sentieon发布RNAseq加速分析方案
Sentieon发布RNAseq加速分析方案
149 0
Sentieon发布RNAseq加速分析方案
|
自然语言处理 达摩院 数据格式
带你读《达摩院智能客服知识运营白皮书》——3.2 如何进行知识收集?--基于知识来源收集候选知识
带你读《达摩院智能客服知识运营白皮书》——3.2 如何进行知识收集?--基于知识来源收集候选知识
159 0
|
机器学习/深度学习 人工智能 算法
AI攻防算法能力几何?全新测试基准平台发布,一定要来PK下
清华大学联合阿里安全、瑞莱智慧 RealAI 等顶尖团队发布首个公平、全面的 AI 对抗攻防基准平台。AI 模型究竟是否安全,攻击和防御能力几何?只需提交至该平台,就可见能力排行。
418 0
AI攻防算法能力几何?全新测试基准平台发布,一定要来PK下
|
机器学习/深度学习 智能设计 人工智能
阿里巴巴「鹿班」算法技术负责人星瞳:用可控视觉生成引擎完成智能设计
在阿里巴巴,有一位接触设计不过两年时间,就从零开始做了 10 亿张海报,达到阿里巴巴 P5(中级) 设计师水平的传奇「人物」。它叫「鲁班」,是阿里巴巴神秘的智能设计系统。在第七届 UCAN 用户体验设计论坛上,「鲁班」正式以「鹿班」为名加入「阿里动物园」,对外开放核心能力,首批计划邀请一百名设计师。同时面向优秀设计师推出「驯鹿计划」,邀请 ta 们训练机器,完成有自己风格的设计。论坛期间,机器之心受邀访问了鹿班智能设计系统技术负责人星瞳,在首批受邀设计师之前,一窥鹿班如何看待设计,又如何进行设计的秘密。以下为采访实录。
1558 0
阿里巴巴「鹿班」算法技术负责人星瞳:用可控视觉生成引擎完成智能设计