关键词:长读长测序;基因测序;变异检测;
文献简介
- 标题(英文):Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
- 标题(中文):Sentieon DNAscope LongRead - 从 PacBio HiFi 读数中进行胚系变异调用的高精度、快速而高效的管道
- 发表期刊:bioRxiv
- 作者单位:Sentieon公司和Pacific Biosciences公司
- 发表年份:2022
- 文章地址:https://doi.org/10.1101/2022.06.01.494452
图1 文献简介
PacBio® HiFi 测序是第一种提供经济、高精度长读数测序的技术,其平均读数长度超过 10kb,平均碱基准确率达到 99.8% 。在该研究中,研究者介绍了一种准确、高效的 DNAscope LongRead 管道,用于从 PacBio® HiFi 读数中调用胚系变异。DNAscope LongRead 是对 Sentieon 的 DNAscope 工具的修改和扩展,该工具曾获美国食品药品管理局(FDA)精密变异调用奖。DNAscope LongRead 的计算效率很高,在 16 核机器上调用 30 × HiFi 样本的变异只需不到 4 个小时(120 个虚拟核时),而且准确率很高,在最新的 GIAB 基准数据集上,以 30 ×覆盖率测序的 HiFi 样本的准确率和召回率超过 99.83%,而且对基准数据集和上游文库制备及测序的变化也很稳健。
测序流程
研究者以Sentieon DNAscope工具为基础,针对PacBio® HiFi reads开发了Sentieon LongRead分析工具。
图2 Sentieon的作用
图3 DNAscope LongRead流程图
Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。 截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。
文献讨论
图4 文献讨论
DNAscope LongRead是一个高度准确、高效、稳健且可扩展的管道,用于从PacBio HiFi读取中进行胚系变异检测。与Precision FDA Truth Challenge V2获胜的变异检测管道相比,DNAscope LongRead管道错误减少了15%。
通过对35x样本进行连续下采样,发现SNV和indel变异检测的准确性在较低覆盖度下仍然表现良好,从35x降至20x时,F1分数分别仅下降0.00074和0.013。变异检测对上游数据处理的变化具有鲁棒性,并在使用新的基准数据集评估具有挑战性的基因组区域时保持高准确性。
整个管道的实现非常高效,对于30x样本,从输入到最终变异数据集的分析仅需120.3核心小时,峰值内存使用为13.44 GB。
结论
综上所述,研究表明,DNAscope LongRead 管道可从 PacBio® HiFi reads中提供可扩展的高效种系变异调用。