文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads

简介: PacBio® HiFi 测序是第一种提供经济、高精度长读数测序的技术,其平均读数长度超过 10kb,平均碱基准确率达到 99.8% 。在该研究中,研究者介绍了一种准确、高效的 DNAscope LongRead 管道,用于从 PacBio® HiFi 读数中调用胚系变异。DNAscope LongRead 是对 Sentieon 的 DNAscope 工具的修改和扩展,该工具曾获美国食品药品管理局(FDA)精密变异调用奖。

文献解读-Long Read.png

关键词:长读长测序;基因测序;变异检测;


文献简介

  • 标题(英文):Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
  • 标题(中文):Sentieon DNAscope LongRead - 从 PacBio HiFi 读数中进行胚系变异调用的高精度、快速而高效的管道
  • 发表期刊:bioRxiv
  • 作者单位:Sentieon公司和Pacific Biosciences公司
  • 发表年份:2022
  • 文章地址:https://doi.org/10.1101/2022.06.01.494452

1.png

图1 文献简介

PacBio® HiFi 测序是第一种提供经济、高精度长读数测序的技术,其平均读数长度超过 10kb,平均碱基准确率达到 99.8% 。在该研究中,研究者介绍了一种准确、高效的 DNAscope LongRead 管道,用于从 PacBio® HiFi 读数中调用胚系变异。DNAscope LongRead 是对 Sentieon 的 DNAscope 工具的修改和扩展,该工具曾获美国食品药品管理局(FDA)精密变异调用奖。DNAscope LongRead 的计算效率很高,在 16 核机器上调用 30 × HiFi 样本的变异只需不到 4 个小时(120 个虚拟核时),而且准确率很高,在最新的 GIAB 基准数据集上,以 30 ×覆盖率测序的 HiFi 样本的准确率和召回率超过 99.83%,而且对基准数据集和上游文库制备及测序的变化也很稳健。


测序流程

研究者以Sentieon DNAscope工具为基础,针对PacBio® HiFi reads开发了Sentieon LongRead分析工具。

2.png

图2 Sentieon的作用

3.png

图3 DNAscope LongRead流程图

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。 截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。


文献讨论

屏幕截图 2024-10-21 145851.png


图4 文献讨论

DNAscope LongRead是一个高度准确、高效、稳健且可扩展的管道,用于从PacBio HiFi读取中进行胚系变异检测。与Precision FDA Truth Challenge V2获胜的变异检测管道相比,DNAscope LongRead管道错误减少了15%。
通过对35x样本进行连续下采样,发现SNV和indel变异检测的准确性在较低覆盖度下仍然表现良好,从35x降至20x时,F1分数分别仅下降0.00074和0.013。变异检测对上游数据处理的变化具有鲁棒性,并在使用新的基准数据集评估具有挑战性的基因组区域时保持高准确性。
整个管道的实现非常高效,对于30x样本,从输入到最终变异数据集的分析仅需120.3核心小时,峰值内存使用为13.44 GB。


结论

综上所述,研究表明,DNAscope LongRead 管道可从 PacBio® HiFi reads中提供可扩展的高效种系变异调用。

目录
相关文章
|
9天前
|
机器学习/深度学习 测试技术
文献解读-DNAscope: High accuracy small variant calling using machine learning
在这项研究中,研究组证明了DNAscope在不同样本和不同覆盖度水平下都能达到比DNAseq更高的准确性。使用GA4GH分层区域进行的分层分析,能够确认DNAscope在大多数分层区域中都具有高准确性,并突显了DNAscope在插入缺失(indels)和包含变异检测较困难的基因组区域的分层中具有更高的准确性。DNAscope结合了GATK's HaplotypeCaller中使用的成熟数学和统计模型,以及用于变异基因型分析的机器学习方法,在保持计算效率的同时实现了卓越的准确性。
18 3
|
2月前
|
算法 数据挖掘
文献解读-Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency
Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency,大panel二代测序的一致性和重复性:对具有错配修复和校对缺陷的参考物质进行体细胞突变检测的多实验室评估
26 6
文献解读-Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency
|
3月前
|
机器学习/深度学习 算法 测试技术
|
3月前
|
机器学习/深度学习 算法
【文献学习】Channel Estimation Method Based on Transformer in High Dynamic Environment
一种基于CNN和Transformer的信道估计方法,用于在高度动态环境中跟踪信道变化特征,并通过实验结果展示了其相比传统方法的性能提升。
57 0
|
机器学习/深度学习 自然语言处理 算法
RCEE: Event Extraction as Machine Reading Comprehension 论文解读
事件提取(Event extraction, EE)是一项重要的信息提取任务,旨在提取文本中的事件信息。以前的EE方法通常将其建模为分类任务,这些任务需要大量数据,并且存在数据稀缺问题。在本文中,我们提出了一种新的EE学习范式,将其明确地转换为机器阅读理解问题(MRC)。
222 0
|
机器学习/深度学习 存储 自然语言处理
PESE Event Structure Extraction using Pointer Network based Encoder-Decoder Architecture论文解读
事件抽取(EE)的任务旨在从文本中找到事件和事件相关的论元信息,并以结构化格式表示它们。大多数以前的工作都试图通过分别识别多个子结构并将它们聚合以获得完整的事件结构来解决这个问题。
81 0
|
人工智能 自然语言处理 算法
UIE: Unified Structure Generation for Universal Information Extraction 论文解读
信息提取受到其不同目标、异构结构和特定需求模式的影响。本文提出了一个统一的文本到结构生成框架,即UIE,该框架可以对不同的IE任务进行统一建模,自适应生成目标结构
508 0
|
机器学习/深度学习 存储 数据挖掘
Global Constraints with Prompting for Zero-Shot Event Argument Classification 论文解读
确定事件论元的角色是事件抽取的关键子任务。大多数以前的监督模型都利用了昂贵的标注,这对于开放域应用程序是不实际的。
72 0
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
154 0
|
机器学习/深度学习 自然语言处理 算法
TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking 论文解读
近年来,从非结构化文本中提取实体和关系引起了越来越多的关注,但由于识别共享实体的重叠关系存在内在困难,因此仍然具有挑战性。先前的研究表明,联合学习可以显著提高性能。然而,它们通常涉及连续的相互关联的步骤,并存在暴露偏差的问题。
216 0