Sentieon推出混合型短读长和长读长变异检测DNAscope Hybrid流程(下)

简介: Sentieon DNAscope Hybrid 通过利用样本特异性的长读段单倍型信息指导短读段的重比对与精准排布,实现了对同一样本两类数据的深度集成。

一、DNAscope Hybrid

由于短读长和长读长测序技术在误差谱上具有天然的互补性,开发能够有效整合两类数据的混合分析流程已成为精准基因组分析的趋势。与市面上现有的独立流程相比,Sentieon DNAscope Hybrid 通过利用样本特异性的长读段单倍型信息指导短读段的重比对与精准排布,实现了对同一样本两类数据的深度集成。

这种深度集成不仅使变异检测精度显著超越了单一测序技术,亦使其具备更高的应用灵活性:不仅适用于全基因组测序(WGS),也可配合定向捕获技术使用。

上篇介绍了DNAscope Hybrid的基本操作流程;本篇将呈现与其他现有流程相比, DNAscope Hybrid在GIAB v4.2.1、CMRG和Draft Q100等多种权威基准数据集上所展现出的卓越性能。

图1 各项测评维度中Sentieon与其他现有流程的汇总表


二、小变异(SNP和INDEL)检测结果

1. 不同测序深度下的检测准确性

为了评估DNAscope Hybrid流程在不同深度下的准确性,研究团队使用HG002样本,将PacBio HiFi数据集降采样至5x、7.5x、10x、15x、20x和30x深度,并与35x Illumina (ILMN)短读段数据配对。使用DNAscope LongRead (DS-LR)流程独立分析了每个深度的PB数据集。并与Dragen v4.2 35X,DV PB 30x的数据集进行比对。

图2 全基因组准确性
A) GIAB v4.2.1中的SNP总错误;
B) GIAB v4.2.1中的Indel总错误;
C) Draft Q100中的SNP;
D) Draft Q100中的Indel。
DS-Hybrid PB+ILMN和DS-LR PB only显示了5x-30x长读段深度的曲线。DV PB和Dragen显示全深度数据。

图2A-B分析表明,检测的准确度随长读长测序深度的增加而显著提升,DNAscope Hybrid在30x PB + 35x ILMN组合数据集中达到最高准确性。即便仅使用7.5x覆盖度的长读段(7.5x PB + 35x ILMN),Hybrid的Indel准确性也远高于其他方法。

与任何单一技术流程相比,DNAscope Hybrid 流程显著提高了SNP和Indel的准确性,特别是在更具挑战性的Draft Q100基准测试中,在图2C-D中观察到其性能优势尤为突出。

2. 分层区域的性能比较

为了深入理解混合流程在变异检测准确性上的改进,Sentieon团队在GA4GH分层区域进行了分析,使用Draft Q100和CMRG基准对其进行评估。

图3 分层区域准确性
A) SNP和B) INDEL在串联重复和同聚物区域(TRHP) Q100基准中的总错误。
C) SNP和D) Indel在具有挑战性的医学相关基因(CMRG)区域中的错误。
DS-Hybrid PB+ILMN和DS-LR PB only显示了5x-30x长读段深度的曲线。DV PB和Dragen显示全深度数据。

图3A-B显示了在注释的串联重复和同聚物区域(TRHP)使用Draft Q100基准测试的变异检测准确性。结果显示无论是SNP还是INDEL,DNAscope Hybrid 即使在仅有 5x 长读段深度(5x PB + 35x ILMN)时的表现也优于其他高深度的单技术流程。这得益于DNAscope Hybrid能将两者的优势进行互补:短读段能弥补长读段在同聚物解析上的局限,而长读段则解决了短读段在重复序列区域的比对歧义。

图3C-D则显示了在CMRG区域,混合模式要比单独使用长读长(DS-LR PB only)更能准确地捕获变异,尤其是在INDEL检测方面。这种准确性的提升将有望转化为更高的临床诊断率和实用价值。

3. 评估不同流程之间的差异性

1)评估三种不同流程与基准VCF文件的交集情况

为了更好地理解评估的流程之间的差异,Sentieon团队比较了Hybrid和独立的短读段流程Dragen ILMN 35X 及长读段流程DV PB 30X与基准VCF的交集。

图4 (A)SNPs和(B)Indels的UpSet图,包括3个基准流程和GIAB v4.2.1 基准VCF。所有3个流程识别且也在GIAB VCF中的变异交集(条形)被移除,其余交集类别按大小排序。每个流程的检测集大小显示在左下方面板。由于使用了不同的比较方法,UpSet图的结果与图2略有不同。

在SNP检测方面,短读长测序表现出较高的假阴性率,而长读长测序则存在较高的假阳性率;而在INDEL检测方面,结合了长、短读段优势的混合流程展示了最出色的综合性能,有效降低了固有偏差。

2)评估三种不同流程在三个数据集上的表现

为验证该方法的通用性,研究团队进一步评估其在HG003和HG004数据集上的性能,并与DV PB 30X和Dragen ILMN 35X进行比较。

图5 HG002-004参考样本的SNP/Indel准确性;SNP和Indel的假阳性和假阴性分别列出

通过对SNP和Indel的总错误数(FP+FN)进行分析,结果显示DNAscope Hybrid混合方法在不同样本中均展现出最优异的性能。且总错误数在三组样本间的波动极小。

数据表明,结合长短读段优势的DNAscope Hybrid方法在显著降低测序错误的同时,兼具跨样本的稳定性,证实了混合测序策略在提高基因组测序准确性方面的优越性。


三、结构变异(SV)检测结果

1. 三个流程在不同测序深度下的性能比较

为评估SV检测准确性,Sentieon分析了降采样的长读段和短读段数据集,并将混合流程中的SV模块的DS-Hybrid/LR PB和仅使用长读段的Pbsv PB、仅使用短读段的Dragen v4.2 ILMN 35X 在Draft Q100和CMRG SV基准下的表现进行了比较。

图6 结构变异(SV)准确性,通过以下方式测量
A) Draft Q100基准的精确度;
B) Draft Q100基准的召回率;
C) CMRG SV基准的精确度;
D) CMRG SV基准的召回率。
PB-Hybrid/LongRead和Pbsv PB显示5x-30x长读段深度的曲线。Dragen ILMN显示全深度准确性。

结果显示,短读段流程在SV检测方面表现欠佳,特别是在召回率方面。相比之下,长读段流程即使在较低深度下也仍展现出更高的SV检测准确性;混合流程在Q100基准下展现出了极高的精确度和召回率;

表明混合测序在SV检测的准确度上优于单独的短读长或长读长测序,特别是在复杂区域(CMRG)的检测中表现更为突出。而且,混合测序在较低测序深度下就能获得较好的性能,展现出极佳的成本效益。

2. 三个流程与Q100基准的交集比较

图7 SV的Upset图
包括3个基准流程和Q100基准。交集类别按大小排序。每个流程的检测集大小显示在左下方面板。

进一步分析三个流程与Q100 SV基准的交集。发现短读段流程漏检了大量的结构变异,这主要源于短读段固有的局限性,使其无法跨越许多SV特有的长序列。


四、拷贝数变异(CNV)检测

1. 不同流程对检测不同长度CNV的准确性比较

当前版本的DNAscope Hybrid流程集成了Sentieon CNVscope模块,该模块目前仅依赖短读段数据进行CNV检测。研究团队使用HG002样本结合Q100基准,对比了CNVscope 与CNVnator在检测不同长度CNV事件时的准确性。

图8 CNV准确性基准测试CNVscope作为DNAscope Hybrid和短读段流程中的CNV检测器。显示CNVnator结果以供比较。

结果显示,在拷贝数增加的检测方面,CNVnator仅能检测10k以上的CNV,而CNVscope在几乎所有长度范围内均表现出极高的准确性,包括技术上具有挑战性的<10k事件。在拷贝数缺失的检测方面,两种工具都能检测所有长度范围的缺失,但CNVscope在每个长度范围内的F1值均显著高于CNVnator。证实了DNAscope Hybrid在CNV检测灵敏度和特异性上的重大提升。


五、输出结果HG002样本的整体变异数量

1. 两种流程在检测变异范围和类型上的比较

图9 DNAscope Hybrid流程在10x PB + 35x ILMN数据上,以及DNAscope在35x ILMN数据上识别的小型和结构变异的大小分布

DNAscope Hybrid是一个综合型的变异检测流程,能够同时检测SNV、短Indels(<50 bp)和较长的插入和缺失。与短读段Dragen流程相比,Hybrid流程能识别出更多的变异数量,特别是大型插入事件方面。这归功于DNAscope Hybrid的长读段数据提供的额外信息,使得DNAscope Hybrid能够有效解析复杂基因组区域并捕获大型结构变异。


六、模拟致病变异的临床验证

1. 三个流程在HG002 CMRG外显子变异中的检测评估

为评估DNAscope Hybrid流程的临床实用性,Sentieon进一步分析了DS-Hybrid、DV-PB、DV-ILMN在CMRG基准中的HG002变异检测情况。

图10 不同流程漏检的选定SNPs/Indels的识别图谱
变异选择基于HG002 CMRG外显子变异与被三个流程中一个或两个识别的变异的交集。
如右侧面板所示,许多CMRG基因都有明确记录的疾病关联。

图10展示的是三个流程检测到的变异,可以发现DNAscope Hybrid流程识别出全部的64个变异,而DV PB和DV ILMN均存在不同程度的漏检。而这些变异位点都涉及到癌症、自身免疫疾病、神经退行性和精神类疾病等。DNAscope Hybrid在这些区域中的卓越表现,充分证明了其在对准确度要求极严苛的临床诊断场景中的应用潜力。

2. DNAscope Hybrid 模拟患者数据的验证

Sentieon分析了源自100个患者样本中识别出的临床相关生殖系变异集。从中筛选出42个SNP/Indel变异进行进一步的分析,生成了模拟的30x ILMN和10x PB数据,并使用DNAscope Hybrid流程进行处理。结果显示成功检测到全部42个SNP/Indels。

图11 通过传统检测方法诊断的患者携带的具有挑战性的临床SNP/Indels选例

图12 IGV截图显示变异
(A) Chr6(GRCh38):g.32039081C>G,由患者P10-B4携带。
(B) OPN1LW: LVAVA组合,由患者P11-F11携带。
上方轨道显示模拟长读段的映射结果,下方轨道显示重新比对的短读段。目标变异由黑色箭头指示。

图12展示了两个典型的临床案例。患者P10-B4被诊断为先天性肾上腺皮质增生症(CAH),该病是由CYP21A2内含子2中的SNP引起的,而CYP21A1P与CYP21A2高度同源。患者P11-F11携带着影响OPN1LW基因外显子3的LVAVA组合变异,这些突变与色觉障碍相关。而OPN1LW与OPN1MW、OPN1SW具有高度的序列同一性。

由于基因间的高度相似性,短读长测序比对极易出现偏差。混合分析流程通过使用长读段组装的单倍型数据来引导比对,能够实现短读段的精确映射,从而确保了对此类复杂临床变异的可靠检测。


七、计算资源基准测试

1. 三个流程在运行耗时和成本方面的评估

为评估软件的运行耗时,Sentieon测试了DNAscope Hybrid、DNAscope LongRead (PB)、DNAscope,使用120线程的Azure实例(Standard HG120rs V3)作为计算环境。评估了从比对、预处理和SNP/Indel/SV/CNV检测各个环节的运行性能。

图13 DNAscope流程的计算资源基准测试
基准测试环境为Azure Standard HB120rs v3 (120 vCPUs, 456 GiB内存, 512GB高级SSD),显示运行时间和按需计算成本。
DNAscope Hybrid流程输出SNP/Indel/SV/CNV
DNAscope LongRead流程输出SNP/Indel/SV
DNAscope流程输出SNP/Indel/CNV

结果显示,虽然DNAscope Hybrid流程耗时最长、成本最高,但可以提供更为全面的变异图谱。所有的Sentieon流程均能在20至90分钟内完成从FASTQ到VCF的全流程分析。选择Sentieon,能更快更准确地将变异检测结果交付到您的手上。


八、总结

以Sentieon DNAscope Hybrid为代表的混合测序技术,通过整合短读长的高准确度与长读长的长跨度优势,显著提升了变异检测的精度,尤其是在Draft Q100和CMRG等复杂基因组区域。

DNAscope Hybrid 流程目前正处于积极的开发阶段,并已制定了多项改进与扩展计划。未来,Sentieon将继续朝着更高的准确性、更高的通量和更低的成本方向发展,为遗传病精准诊断、大规模人群队列研究以及个体化医疗提供更加稳健、高效的技术支撑。


Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2025年7月份,Sentieon已经在全球范围内为1860+用户提供服务,用户处理超过4980+PB数据量,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过1500篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。

目录
相关文章
|
1天前
|
人工智能 自然语言处理 Shell
🦞 如何在 Moltbot 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
🦞 如何在 Moltbot 配置阿里云百炼 API
|
6天前
|
人工智能 API 开发者
Claude Code 国内保姆级使用指南:实测 GLM-4.7 与 Claude Opus 4.5 全方案解
Claude Code是Anthropic推出的编程AI代理工具。2026年国内开发者可通过配置`ANTHROPIC_BASE_URL`实现本地化接入:①极速平替——用Qwen Code v0.5.0或GLM-4.7,毫秒响应,适合日常编码;②满血原版——经灵芽API中转调用Claude Opus 4.5,胜任复杂架构与深度推理。
|
9天前
|
JSON API 数据格式
OpenCode入门使用教程
本教程介绍如何通过安装OpenCode并配置Canopy Wave API来使用开源模型。首先全局安装OpenCode,然后设置API密钥并创建配置文件,最后在控制台中连接模型并开始交互。
4465 8
|
15天前
|
人工智能 JavaScript Linux
【Claude Code 全攻略】终端AI编程助手从入门到进阶(2026最新版)
Claude Code是Anthropic推出的终端原生AI编程助手,支持40+语言、200k超长上下文,无需切换IDE即可实现代码生成、调试、项目导航与自动化任务。本文详解其安装配置、四大核心功能及进阶技巧,助你全面提升开发效率,搭配GitHub Copilot使用更佳。
10231 21
|
2天前
|
人工智能 自然语言处理 Cloud Native
大模型应用落地实战:从Clawdbot到实在Agent,如何构建企业级自动化闭环?
2026年初,开源AI Agent Clawdbot爆火,以“自由意志”打破被动交互,寄生社交软件主动服务。它解决“听与说”,却缺“手与脚”:硅谷Manus走API原生路线,云端自主执行;中国实在Agent则用屏幕语义理解,在封闭系统中精准操作。三者协同,正构建AI真正干活的三位一体生态。
2263 9
|
1天前
|
存储 安全 数据库
使用 Docker 部署 Clawdbot(官方推荐方式)
Clawdbot 是一款开源、本地运行的个人AI助手,支持 WhatsApp、Telegram、Slack 等十余种通信渠道,兼容 macOS/iOS/Android,可渲染实时 Canvas 界面。本文提供基于 Docker Compose 的生产级部署指南,涵盖安全配置、持久化、备份、监控等关键运维实践(官方无预构建镜像,需源码本地构建)。
1053 2
|
20小时前
|
机器人 API 数据安全/隐私保护
只需3步,无影云电脑一键部署Moltbot(Clawdbot)
本指南详解Moltbot(Clawdbot)部署全流程:一、购买无影云电脑Moltbot专属套餐(含2000核时);二、下载客户端并配置百炼API Key、钉钉APP KEY及QQ通道;三、验证钉钉/群聊交互。支持多端,7×24运行可关闭休眠。
|
17天前
|
存储 人工智能 自然语言处理
OpenSpec技术规范+实例应用
OpenSpec 是面向 AI 智能体的轻量级规范驱动开发框架,通过“提案-审查-实施-归档”工作流,解决 AI 编程中的需求偏移与不可预测性问题。它以机器可读的规范为“单一真相源”,将模糊提示转化为可落地的工程实践,助力开发者高效构建稳定、可审计的生产级系统,实现从“凭感觉聊天”到“按规范开发”的跃迁。
2560 18
|
10天前
|
人工智能 前端开发 Docker
Huobao Drama 开源短剧生成平台:从剧本到视频
Huobao Drama 是一个基于 Go + Vue3 的开源 AI 短剧自动化生成平台,支持剧本解析、角色与分镜生成、图生视频及剪辑合成,覆盖短剧生产全链路。内置角色管理、分镜设计、视频合成、任务追踪等功能,支持本地部署与多模型接入(如 OpenAI、Ollama、火山等),搭配 FFmpeg 实现高效视频处理,适用于短剧工作流验证与自建 AI 创作后台。
1373 5