Sentieon推出混合型短读长和长读长变异检测DNAscope Hybrid流程(上)

简介: Sentieon开发了创新的混合分析流程DNAscope Hybrid,有效地整合了短读长和长读长测序技术的优势,能生成比单独使用一种技术更准确的变异检测结果,从而实现更全面和准确的基因组分析。

一、DNAscope Hybrid介绍

短读长测序技术在解析基因组“盲区”(如难以比对区域)及结构变异方面存在着局限性。尽管长读长测序凭借超过15kb的读段显著改善了SV检测,但仍面临高错误率(尤其是同聚物区域的插入/缺失,Indel)和高成本的挑战。

Sentieon开发了创新的混合分析流程DNAscope Hybrid,有效地整合了短读长和长读长测序技术的优势,能生成比单独使用一种技术更准确的变异检测结果,从而实现更全面和准确的基因组分析。

该流程通过组合分析可将典型的长读长覆盖度需求降低2-3倍,同时提高样本结果的准确性和全面性。DNAscope Hybrid不仅能够全面检测SNP、Indel、SV和CNV,还能在保持高准确度的同时降低成本。

图1 DNAscope Hybrid变异检测流程的处理步骤概述

相比于HELLO、blend-seq和Variantyx等现有的混合分析流程,DNAscope Hybrid的独特优势在于:利用长读长单体型指导短读段重新比对,实现深度融合分析;通过单体型解析和并行化处理优化计算效率,完美适配临床应用场景;

本篇将重点介绍DNAscope Hybrid的基本操作流程,下篇将深入解析DNAscope Hybrid具体的性能评测指标。


二、系统要求

1. 软件许可说明

DNAscope Hybrid流程使用Sentieon软件包实现,需要有效的许可证。请联系info@sentieon.com获取Sentieon软件和评估许可。

2. 使用DNAscope Hybrid的前提

  • 需要Sentieon软件包202503.01或更高版本
  • 需要Python 3.8或更高版本
  • 需要bcftools 1.10或更高版本
  • 需要bedtools工具包
  • 需要MultiQC 1.18或更高版本,用于生成指标报告
  • 需要samtools 1.16或更高版本
  • 需要mosdepth 0.2.6或更高版本,用于长读段数据的覆盖度指标收集

Sentieon、python、bcftools、bedtools、samtools、multiqc和mosdepth这些可执行文件将通过用户的PATH环境变量进行访问。


三、输入数据要求

1. 参考基因组

DNAscope LongRead将相对于FASTA格式的高质量参考基因组检测样本中存在的变异。除了参考基因组文件外,还需要samtools fasta索引文件(.fai)。短读段比对还需要bwa索引文件。

我们建议比对到不含替代片段的参考基因组。如果基因组中存在替代片段且流程正在执行短读段比对,请同时提供".alt"文件以激活bwa中的alt感知比对。

2. 支持输入数据格式(需要同时提供短读段和长读段数据)

  • 未比对的短读段数据(gzipped FASTQ格式)
  • 已比对的短读段数据(BAM或CRAM格式)
  • 未比对的长读段数据(uBAM或uCRAM格式)
  • 已比对的长读段数据(BAM或CRAM格式)

四、使用方法

运行两个独立的命令来进行CNV检测和应用机器学习模型。输入的BAM文件应该来自已经完成比对和去重复的流程。

1. 从已比对的短读长和长读长数据进行胚系变异检测

运行单个命令从已比对的短读段和长读段数据中调用SNP、Indel、SV和CNV:

sentieon-cli dnascope-hybrid \
  -r REFERENCE \
  --sr_aln SR_ALN [SR_ALN ...] \
  --lr_aln LR_ALN [LR_ALN ...] \
  -m MODEL_BUNDLE \
  [-b DIPLOID_BED] \
  [-d DBSNP] \
  [--dry_run] \
  [--gvcf] \
  [--sr_duplicate_marking MARKDUP] \
  [-t NUMBER_THREADS] \
  sample.vcf.gz

DNAscope Hybrid流程需要以下必备参数:

  • -r REFERENCE:参考FASTA文件的路径。还需要对应的fasta索引".fai"文件。
  • --sr_aln:BAM或CRAM格式的输入短读段比对文件,支持在参数后输入多个文件。
  • --lr_aln:BAM或CRAM格式的输入长读段比对文件,支持在参数后输入多个文件。
  • -m MODEL_BUNDLE:模型包的路径,可以在sentieon-models仓库中找到(https://github.com/Sentieon/sentieon-models
  • sample.vcf.gz:SNV和indel输出VCF文件的路径,要求输出文件以".vcf.gz"后缀结尾。

DNAscope Hybrid流程接受以下可选参数:

  • -b DIPLOID_BED:BED文件格式的参考中限制二倍体变异调用的区间,提供此文件将限制二倍体变异调用在BED文件内的区间。
  • -d DBSNP:用于标记已知变异的单核苷酸多态性数据库(dbSNP)的位置,VCF(.vcf)或bgzip压缩的VCF(.vcf.gz)格式。仅支持一个文件,提供此文件将用dbSNP refSNP ID号注释变异,需要VCF索引文件。
  • --dry_run:打印流程命令,而不实际执行。
  • --gvcf:在生成VCF的同时生成一个 gVCF格式的输出文件。
  • --sr_duplicate_marking:设置重复序列标记模式。使用 markdup将标记重复读段。使用 rmdup 将直接移除重复读段。使用 none 将跳过重复序列标记步骤。默认设置为 markdup。
  • -t NUMBER_THREADS:软件运行并行进程所使用的计算线程数。若省略,流程将使用服务器拥有的所有线程。
  • -h:打印命令行帮助并退出。

2. 从未比对的短读长和长读长数据进行胚系变异检测

运行单个命令从未比对的短读段和长读段数据中调用SNP、Indel、SV和CNV:

sentieon-cli dnascope-hybrid \
  -r REFERENCE \
  --sr_r1_fastq SR_R1_FQ [SR_R1_FQ ...] \
  --sr_r2_fastq SR_R2_FQ [SR_R2_FQ ...] \
  --sr_readgroups SR_READGROUP [SR_READGROUP ...] \
  --lr_aln LR_ALN [LR_ALN ...] \
  --lr_align_input \
  -m MODEL_BUNDLE \
  [-b DIPLOID_BED] \
  [--bam_format] \
  [-d DBSNP] \
  [--dry_run] \
  [--gvcf] \
  [--sr_duplicate_marking MARKDUP] \
  [-t NUMBER_THREADS] \
  sample.vcf.gz

DNAscope Hybrid流程需要以下必备参数:

  • --sr_r1_fastq:gzipped FASTQ格式的R1短读段输入数据。可以在参数后输入多个文件。
  • --sr_r2_fastq:gzipped FASTQ格式的R2短读段输入数据。可以在参数后输入多个文件。
  • --sr_readgroups:对应每个FASTQ的读组信息。流程将期望--sr_r1_fastq和--sr_readgroups有相同数量的参数。
    • 示例参数为"@RG\tID:HG002-1\tSM:HG002\tLB:HG002-LB-1\tPL:ILLUMINA"
  • --lr_aln:uBAM或uCRAM格式的长读段输入数据。可以在参数后输入多个文件。
  • --lr_align_input:指示流程对输入的长读段进行比对。

DNAscope Hybrid流程接受以下可选参数:

  • --bam_format:对输出的比对文件使用BAM格式而不是默认的CRAM格式。
  • --lr_input_ref:用于解码输入长读段文件的参考fasta。长读段uCRAM或CRAM输入时需要,可以与-r参数使用的fasta不同。

五、输出结果

1. 默认输出文件类型

  • VCF格式的小变异(SNP和Indel)
  • VCF格式的结构变异(SV)
  • VCF格式的拷贝数变异(CNV)
  • 如果输入未比对的reads,还会输出BAM或CRAM格式的比对结果。

2. 输出文件列表

DNAscope Hybrid流程输出以下文件:

  • sample.vcf.gz:-b DIPLOID_BED文件中定义的基因组区域的SNV和indel变异检测。
  • sample.sv.vcf.gz:Sentieon LongReadSV工具的结构变异检测。
  • sample.cnv.vcf.gz:Sentieon CNVscope工具的拷贝数变异检测。
  • sample_deduped.cram:来自输入FASTQ文件的已比对、坐标排序和重复标记的短读段数据。
  • sample_mm2_sorted_*.cram:来自输入uBAM、uCRAM、BAM或CRAM文件的已比对和坐标排序的长读段。
  • sample_metrics:包含已分析样本的质控指标的目录。

六、故障排除

错误提示:"输入...具有不同的RG-SM标签"

当流程检测到输入文件具有(或将具有)不同的读组标签时,会出现此错误。要修复此错误,请使用--rgsm参数在变异检测过程中调整输入文件的SM标签。请注意,使用此参数时,输入文件中的所有读数都将在变异检测过程中被使用。


七、总结

DNAscope Hybrid不仅适用于全基因组测序数据分析,还支持靶向测序分析(如Twist Alliance Dark Genes Panel),展现出了高鲁棒性和多功能性,使其成为对准确性和全面性要求极严苛的临床诊断场景的理想选择。下一篇将展示与现有方法相比,DNAscope Hybrid在基准测试中所拥有的卓越性能,进一步印证Sentieon在混合数据分析领域的创新。

当前,长读长-短读长混合测序分析领域正处于高速迭代期,Sentieon团队将持续对DNAscope Hybrid进行优化,朝着更高的准确性、更强的通量和更低的成本三个维度实现突破。将与行业伙伴共同推动精准医疗的发展,助力基因组学研究和应用迈向新的高度。


Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2025年7月份,Sentieon已经在全球范围内为1860+用户提供服务,用户处理超过4980+PB数据量,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过1500篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。

目录
相关文章
|
1天前
|
人工智能 自然语言处理 Shell
🦞 如何在 Moltbot 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
🦞 如何在 Moltbot 配置阿里云百炼 API
|
6天前
|
人工智能 API 开发者
Claude Code 国内保姆级使用指南:实测 GLM-4.7 与 Claude Opus 4.5 全方案解
Claude Code是Anthropic推出的编程AI代理工具。2026年国内开发者可通过配置`ANTHROPIC_BASE_URL`实现本地化接入:①极速平替——用Qwen Code v0.5.0或GLM-4.7,毫秒响应,适合日常编码;②满血原版——经灵芽API中转调用Claude Opus 4.5,胜任复杂架构与深度推理。
|
9天前
|
JSON API 数据格式
OpenCode入门使用教程
本教程介绍如何通过安装OpenCode并配置Canopy Wave API来使用开源模型。首先全局安装OpenCode,然后设置API密钥并创建配置文件,最后在控制台中连接模型并开始交互。
4448 8
|
15天前
|
人工智能 JavaScript Linux
【Claude Code 全攻略】终端AI编程助手从入门到进阶(2026最新版)
Claude Code是Anthropic推出的终端原生AI编程助手,支持40+语言、200k超长上下文,无需切换IDE即可实现代码生成、调试、项目导航与自动化任务。本文详解其安装配置、四大核心功能及进阶技巧,助你全面提升开发效率,搭配GitHub Copilot使用更佳。
10208 21
|
2天前
|
人工智能 自然语言处理 Cloud Native
大模型应用落地实战:从Clawdbot到实在Agent,如何构建企业级自动化闭环?
2026年初,开源AI Agent Clawdbot爆火,以“自由意志”打破被动交互,寄生社交软件主动服务。它解决“听与说”,却缺“手与脚”:硅谷Manus走API原生路线,云端自主执行;中国实在Agent则用屏幕语义理解,在封闭系统中精准操作。三者协同,正构建AI真正干活的三位一体生态。
2255 9
|
1天前
|
存储 安全 数据库
使用 Docker 部署 Clawdbot(官方推荐方式)
Clawdbot 是一款开源、本地运行的个人AI助手,支持 WhatsApp、Telegram、Slack 等十余种通信渠道,兼容 macOS/iOS/Android,可渲染实时 Canvas 界面。本文提供基于 Docker Compose 的生产级部署指南,涵盖安全配置、持久化、备份、监控等关键运维实践(官方无预构建镜像,需源码本地构建)。
1027 2
|
20小时前
|
机器人 API 数据安全/隐私保护
只需3步,无影云电脑一键部署Moltbot(Clawdbot)
本指南详解Moltbot(Clawdbot)部署全流程:一、购买无影云电脑Moltbot专属套餐(含2000核时);二、下载客户端并配置百炼API Key、钉钉APP KEY及QQ通道;三、验证钉钉/群聊交互。支持多端,7×24运行可关闭休眠。
|
17天前
|
存储 人工智能 自然语言处理
OpenSpec技术规范+实例应用
OpenSpec 是面向 AI 智能体的轻量级规范驱动开发框架,通过“提案-审查-实施-归档”工作流,解决 AI 编程中的需求偏移与不可预测性问题。它以机器可读的规范为“单一真相源”,将模糊提示转化为可落地的工程实践,助力开发者高效构建稳定、可审计的生产级系统,实现从“凭感觉聊天”到“按规范开发”的跃迁。
2557 18
|
10天前
|
人工智能 前端开发 Docker
Huobao Drama 开源短剧生成平台:从剧本到视频
Huobao Drama 是一个基于 Go + Vue3 的开源 AI 短剧自动化生成平台,支持剧本解析、角色与分镜生成、图生视频及剪辑合成,覆盖短剧生产全链路。内置角色管理、分镜设计、视频合成、任务追踪等功能,支持本地部署与多模型接入(如 OpenAI、Ollama、火山等),搭配 FFmpeg 实现高效视频处理,适用于短剧工作流验证与自建 AI 创作后台。
1367 5