Sentieon | 每周文献-Benchmark and Method Study-第十九期

简介: Sentieon | 每周文献-Benchmark and Method Study-第十九期

基准与方法研究系列文章-1


  • 标题(英文):DNAscope: High accuracy small variant calling using machine learning
  • 标题(中文):DNAscope:使用机器学习的高精度小变异调用
  • 发表期刊:bioRxiv
  • 作者单位:Sentieon公司
  • 发表年份:2022
  • 文章地址
    https://doi.org/10.1101/2022.05.20.492556

 

 

图1 文献介绍

研究者介绍的 DNAscope 是一种精确高效的种系小变异调用器。DNAscope 结合了 GATK 的 HaplotypeCaller 强大而成熟的数学以及机器学习的基因分型模型。DNAscope和DNAseq(Sentieon的GATK匹配种系变异调用管道)的基准测试表明,DNAscope能以更低的计算成本实现更高的SNP和InDel准确性。GATK HaplotypeCaller 因其高精度而成为行业标准的小型变异体调用器。通过将贝叶斯统计模型与reads单倍型的直接建模和变异过滤器相结合,HaplotypeCaller 在各种公共和第三方基准测试中取得了最高性能。然而,包括 HaplotypeCaller 在内的基于短reads技术的现有变异调用器与高置信度变异调用的匹配并不完美,尤其是在同源多聚物和其他重复位点等复杂基因组区域。这些复杂区域中有许多与临床相关,随着下一代测序数据越来越多地用于临床检测,提高这些位点的变异调用准确性变得越来越重要。

 

 

图2 DNAscope 方法概述

 

为了评估 DNAscope 在不同个体中的变异调用准确性,研究者使用 Sentieon 的 DNAscope 和 DNAseq(符合 GATK 种系最佳实践)管道,使用来自三个 GIAB 样本的公开数据来调用变异:HG002、HG003 和 HG004。样本 HG001 和 HG005 没有进行基准测试,因为它们是在 DNAscope 模型训练过程中使用的。


 

图3 DNAscope 和 DNAseq 的精确召回曲线

 

图4 对整个 GA4GH 分层区域进行评估,HG002 深度为 30×

图5 对瓶中基因组样本 HG002、HG003、HG004 进行多深度测序评估

 

图6 DNAscope 在多个 AWS C6i 实例上的运行时


综上所述,在这项工作中,研究者证明了 DNAscope 在不同样本和不同覆盖水平上都比 DNAseq 获得了更高的准确性。通过使用 GA4GH 分层区域进行分层分析,证实了 DNAscope 在大多数分层区域中的高准确性,并强调了 DNAscope 在含有基因组区域的 indels 和分层中更高的准确性,而在这些区域中,变异调用更为困难。DNAscope将GATK的HaplotypeCaller中使用的成熟的数学和统计模型与变异基因分型的机器学习相结合,在保持计算效率的同时实现了更高的准确性。

 

基准与方法研究系列文章-2


  • 标题(英文):Unifying comprehensive genomics and transcriptomics in individual cells to illuminate oncogenic and drug resistance mechanisms
  • 标题(中文):统一单个细胞的综合基因组学和转录组学,揭示致癌和耐药机制
  • 发表期刊:bioRxiv
  • 作者单位:BioSkryb Genomics公司
  • 发表年份:2022
  • 文章地址
    https://doi.org/10.1101/2022.04.29.489440

 

图1 文献介绍


在缺乏潜在基因组贡献的情况下发现转录变异会阻碍对疾病分子机制的理解。为了评估单个细胞中的这种协调性,研究者利用新的工作流程 ResolveOME,利用主模板定向扩增(PTA)的特性,结合全转录 RNA-seq 对单核苷酸变异进行准确、完整的基因组评估。在样本数据分析部分,研究者将Sentieon不同工具模块进行整合,构建了BJ-WGS分析管道。

 

图2 Sentieon的作用

 

图3 工作流性能特征

在该研究中,首先,研究者在分析转录组的同时,还证明了细胞身份背后强大的等位基因代表性。其次,举例说明了当肿瘤细胞受到选择性压力时,基因组和转录组状态的可塑性。第三,展示了利用同步的多种分子模式无偏见地识别恶性细胞克隆,这可以提高分子病变检测的灵敏度。

 

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。


 

 

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。

软件试用:https://www.insvast.com/sentieon

目录
相关文章
|
6月前
|
算法 数据挖掘 测试技术
Sentieon | 每周文献-Benchmark and Method Study-第三十期
Sentieon | 每周文献-Benchmark and Method Study-第三十期
42 1
|
6月前
|
数据可视化 算法 数据挖掘
R语言SIR模型(Susceptible Infected Recovered Model)代码sir模型实例
R语言SIR模型(Susceptible Infected Recovered Model)代码sir模型实例
|
6月前
|
机器学习/深度学习 SQL 存储
人工智能平台PAI 操作报错合集之机器学习PAI训练的时候logging.info('Train and evaluate finish')后, 总会报出来一个错如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
算法 数据挖掘
Sentieon | 每周文献-Clinical Trial-第二十二期
Sentieon | 每周文献-Clinical Trial-第二十二期
42 2
|
6月前
|
算法 数据挖掘
Sentieon | 每周文献-Long Read Sequencing-第十八期
Sentieon | 每周文献-Long Read Sequencing-第十八期
46 1
|
6月前
|
算法 数据挖掘
Sentieon | 每周文献-Clinical Trial-第三十三期
Sentieon | 每周文献-Clinical Trial-第三十三期
41 0
|
6月前
|
机器学习/深度学习 自然语言处理 算法
Sentieon | 每周文献-Multi-omics-第三十一期
Sentieon | 每周文献-Multi-omics-第三十一期
114 0
|
6月前
|
NoSQL 数据挖掘 数据库
Sentieon | 每周文献-Long Read Sequencing-第二十九期
Sentieon | 每周文献-Long Read Sequencing-第二十九期
47 0
|
安全 算法 数据挖掘
Sentieon | 每周文献-Clinical Trial-第十一期
Sentieon | 每周文献-Clinical Trial-第十一期
68 1
|
机器学习/深度学习 算法 Serverless
【李宏毅机器学习CP4】(task2)回归+Python Basics with Numpy
第一部分:回归栗子 ps:CP3的部分在上一篇笔记中【李宏毅机器学习】CP1-3笔记了。 1.问题描述 现在假设有10个x_data和y
178 0
【李宏毅机器学习CP4】(task2)回归+Python Basics with Numpy