基准与方法研究系列文章-1
- 标题(英文):DNAscope: High accuracy small variant calling using machine learning
- 标题(中文):DNAscope:使用机器学习的高精度小变异调用
- 发表期刊:bioRxiv
- 作者单位:Sentieon公司
- 发表年份:2022
- 文章地址:
https://doi.org/10.1101/2022.05.20.492556
图1 文献介绍
研究者介绍的 DNAscope 是一种精确高效的种系小变异调用器。DNAscope 结合了 GATK 的 HaplotypeCaller 强大而成熟的数学以及机器学习的基因分型模型。DNAscope和DNAseq(Sentieon的GATK匹配种系变异调用管道)的基准测试表明,DNAscope能以更低的计算成本实现更高的SNP和InDel准确性。GATK HaplotypeCaller 因其高精度而成为行业标准的小型变异体调用器。通过将贝叶斯统计模型与reads单倍型的直接建模和变异过滤器相结合,HaplotypeCaller 在各种公共和第三方基准测试中取得了最高性能。然而,包括 HaplotypeCaller 在内的基于短reads技术的现有变异调用器与高置信度变异调用的匹配并不完美,尤其是在同源多聚物和其他重复位点等复杂基因组区域。这些复杂区域中有许多与临床相关,随着下一代测序数据越来越多地用于临床检测,提高这些位点的变异调用准确性变得越来越重要。
图2 DNAscope 方法概述
为了评估 DNAscope 在不同个体中的变异调用准确性,研究者使用 Sentieon 的 DNAscope 和 DNAseq(符合 GATK 种系最佳实践)管道,使用来自三个 GIAB 样本的公开数据来调用变异:HG002、HG003 和 HG004。样本 HG001 和 HG005 没有进行基准测试,因为它们是在 DNAscope 模型训练过程中使用的。
图3 DNAscope 和 DNAseq 的精确召回曲线
图4 对整个 GA4GH 分层区域进行评估,HG002 深度为 30×
图5 对瓶中基因组样本 HG002、HG003、HG004 进行多深度测序评估
图6 DNAscope 在多个 AWS C6i 实例上的运行时
综上所述,在这项工作中,研究者证明了 DNAscope 在不同样本和不同覆盖水平上都比 DNAseq 获得了更高的准确性。通过使用 GA4GH 分层区域进行分层分析,证实了 DNAscope 在大多数分层区域中的高准确性,并强调了 DNAscope 在含有基因组区域的 indels 和分层中更高的准确性,而在这些区域中,变异调用更为困难。DNAscope将GATK的HaplotypeCaller中使用的成熟的数学和统计模型与变异基因分型的机器学习相结合,在保持计算效率的同时实现了更高的准确性。
基准与方法研究系列文章-2
- 标题(英文):Unifying comprehensive genomics and transcriptomics in individual cells to illuminate oncogenic and drug resistance mechanisms
- 标题(中文):统一单个细胞的综合基因组学和转录组学,揭示致癌和耐药机制
- 发表期刊:bioRxiv
- 作者单位:BioSkryb Genomics公司
- 发表年份:2022
- 文章地址:
https://doi.org/10.1101/2022.04.29.489440
图1 文献介绍
在缺乏潜在基因组贡献的情况下发现转录变异会阻碍对疾病分子机制的理解。为了评估单个细胞中的这种协调性,研究者利用新的工作流程 ResolveOME,利用主模板定向扩增(PTA)的特性,结合全转录 RNA-seq 对单核苷酸变异进行准确、完整的基因组评估。在样本数据分析部分,研究者将Sentieon不同工具模块进行整合,构建了BJ-WGS分析管道。
图2 Sentieon的作用
图3 工作流性能特征
在该研究中,首先,研究者在分析转录组的同时,还证明了细胞身份背后强大的等位基因代表性。其次,举例说明了当肿瘤细胞受到选择性压力时,基因组和转录组状态的可塑性。第三,展示了利用同步的多种分子模式无偏见地识别恶性细胞克隆,这可以提高分子病变检测的灵敏度。
Sentieon软件介绍
Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。
Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。