文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads

简介: PacBio® HiFi 测序是第一种提供经济、高精度长读数测序的技术,其平均读数长度超过 10kb,平均碱基准确率达到 99.8% 。在该研究中,研究者介绍了一种准确、高效的 DNAscope LongRead 管道,用于从 PacBio® HiFi 读数中调用胚系变异。DNAscope LongRead 是对 Sentieon 的 DNAscope 工具的修改和扩展,该工具曾获美国食品药品管理局(FDA)精密变异调用奖。

文献解读-Long Read.png

关键词:长读长测序;基因测序;变异检测;


文献简介

  • 标题(英文):Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
  • 标题(中文):Sentieon DNAscope LongRead - 从 PacBio HiFi 读数中进行胚系变异调用的高精度、快速而高效的管道
  • 发表期刊:bioRxiv
  • 作者单位:Sentieon公司和Pacific Biosciences公司
  • 发表年份:2022
  • 文章地址:https://doi.org/10.1101/2022.06.01.494452

1.png

图1 文献简介

PacBio® HiFi 测序是第一种提供经济、高精度长读数测序的技术,其平均读数长度超过 10kb,平均碱基准确率达到 99.8% 。在该研究中,研究者介绍了一种准确、高效的 DNAscope LongRead 管道,用于从 PacBio® HiFi 读数中调用胚系变异。DNAscope LongRead 是对 Sentieon 的 DNAscope 工具的修改和扩展,该工具曾获美国食品药品管理局(FDA)精密变异调用奖。DNAscope LongRead 的计算效率很高,在 16 核机器上调用 30 × HiFi 样本的变异只需不到 4 个小时(120 个虚拟核时),而且准确率很高,在最新的 GIAB 基准数据集上,以 30 ×覆盖率测序的 HiFi 样本的准确率和召回率超过 99.83%,而且对基准数据集和上游文库制备及测序的变化也很稳健。


测序流程

研究者以Sentieon DNAscope工具为基础,针对PacBio® HiFi reads开发了Sentieon LongRead分析工具。

2.png

图2 Sentieon的作用

3.png

图3 DNAscope LongRead流程图

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。 截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。


文献讨论

屏幕截图 2024-10-21 145851.png


图4 文献讨论

DNAscope LongRead是一个高度准确、高效、稳健且可扩展的管道,用于从PacBio HiFi读取中进行胚系变异检测。与Precision FDA Truth Challenge V2获胜的变异检测管道相比,DNAscope LongRead管道错误减少了15%。
通过对35x样本进行连续下采样,发现SNV和indel变异检测的准确性在较低覆盖度下仍然表现良好,从35x降至20x时,F1分数分别仅下降0.00074和0.013。变异检测对上游数据处理的变化具有鲁棒性,并在使用新的基准数据集评估具有挑战性的基因组区域时保持高准确性。
整个管道的实现非常高效,对于30x样本,从输入到最终变异数据集的分析仅需120.3核心小时,峰值内存使用为13.44 GB。


结论

综上所述,研究表明,DNAscope LongRead 管道可从 PacBio® HiFi reads中提供可扩展的高效种系变异调用。

目录
相关文章
|
分布式数据库 Hbase
|
7月前
|
存储 机器学习/深度学习 安全
阿里云服务器计算型c8i与通用型g8i实例性能、适用场景及价格参考
阿里云不断推陈出新,致力于为用户提供高性能、高可靠性和高安全性的云服务器实例,以满足不同用户在各种复杂场景下的需求。其中,计算型c8i与通用型g8i实例凭借其卓越的性能和灵活的配置,成为了企业级用户的热门选择。本文将深入探讨这两款实例的性能特点、最新收费标准以及适用场景和活动价格情况,以供大家了解和选择。
|
Ubuntu Linux Shell
Sentieon软件快速入门指南
Sentieon为纯CPU计算加速软件,完全适配主流CPU计算架构:Intel、AMD、海光等X86架构CPU,华为鲲鹏、阿里倚天等ARM架构CPU。可灵活部署在实验室单机工作站、HPC集群、超算中心和云计算中心,保持同一套流程下不同规模数据计算结果的一致性。Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
526 4
Sentieon软件快速入门指南
|
数据采集 存储 XML
Python实现网络爬虫自动化:从基础到实践
本文将介绍如何使用Python编写网络爬虫,从最基础的请求与解析,到自动化爬取并处理复杂数据。我们将通过实例展示如何抓取网页内容、解析数据、处理图片文件等常用爬虫任务。
1804 1
|
数据可视化 数据挖掘 定位技术
Python 中的地理信息系统
【7月更文挑战第16天】 - GIS在地图制作、空间分析及各行业(如城市规划、资源管理)中至关重要。 - Python凭借其易用性和丰富库(如Geopandas、Matplotlib、Folium)简化了地理数据处理和可视化。 - 开发者需先安装Geopandas、Matplotlib和Folium库。 - Geopandas用于数据处理,Matplotlib绘制静态地图,Folium创建交互式地图。 - 示例代码展示了地图绘制、数据整合、空间查询、动态
|
Java 测试技术 Spring
|
数据可视化 定位技术 API
Python pyecharts 模块
Python pyecharts 模块
|
Ubuntu Unix Linux
如何使用 Supervisor 管理你的进程
**Supervisor** 是一款Python编写的进程管理工具,用于类Unix系统,确保应用服务持续运行。常用命令包括:`reload`(重新加载配置)、`status`(查看进程状态)、`shutdown`(关闭所有进程)、`start`和`stop`(控制单个进程)。在CentOS上安装Supervisor用`yum install -y supervisor`,配置文件通常在`/etc/supervisord.conf`。
468 0
|
Dart 编译器 API
Dart ffi 使用问题之在C++线程中无法直接调用Dart函数的问题如何解决
Dart ffi 使用问题之在C++线程中无法直接调用Dart函数的问题如何解决
|
NoSQL 算法 Java
面试官:说一下红锁RedLock的实现原理?
面试官:说一下红锁RedLock的实现原理?
456 0