Sentieon推出混合型短读长和长读长变异检测DNAscope Hybrid流程（上）

2026-01-29 17

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Sentieon开发了创新的混合分析流程DNAscope Hybrid，有效地整合了短读长和长读长测序技术的优势，能生成比单独使用一种技术更准确的变异检测结果，从而实现更全面和准确的基因组分析。

一、DNAscope Hybrid介绍

短读长测序技术在解析基因组“盲区”（如难以比对区域）及结构变异方面存在着局限性。尽管长读长测序凭借超过15kb的读段显著改善了SV检测，但仍面临高错误率（尤其是同聚物区域的插入/缺失，Indel）和高成本的挑战。

Sentieon开发了创新的混合分析流程DNAscope Hybrid，有效地整合了短读长和长读长测序技术的优势，能生成比单独使用一种技术更准确的变异检测结果，从而实现更全面和准确的基因组分析。

该流程通过组合分析可将典型的长读长覆盖度需求降低2-3倍，同时提高样本结果的准确性和全面性。DNAscope Hybrid不仅能够全面检测SNP、Indel、SV和CNV，还能在保持高准确度的同时降低成本。

图1 DNAscope Hybrid变异检测流程的处理步骤概述

相比于HELLO、blend-seq和Variantyx等现有的混合分析流程，DNAscope Hybrid的独特优势在于：利用长读长单体型指导短读段重新比对，实现深度融合分析；通过单体型解析和并行化处理优化计算效率，完美适配临床应用场景；

本篇将重点介绍DNAscope Hybrid的基本操作流程，下篇将深入解析DNAscope Hybrid具体的性能评测指标。

二、系统要求

1. 软件许可说明

DNAscope Hybrid流程使用Sentieon软件包实现，需要有效的许可证。请联系info@sentieon.com获取Sentieon软件和评估许可。

2. 使用DNAscope Hybrid的前提

需要Sentieon软件包202503.01或更高版本
需要Python 3.8或更高版本
需要bcftools 1.10或更高版本
需要bedtools工具包
需要MultiQC 1.18或更高版本，用于生成指标报告
需要samtools 1.16或更高版本
需要mosdepth 0.2.6或更高版本，用于长读段数据的覆盖度指标收集

Sentieon、python、bcftools、bedtools、samtools、multiqc和mosdepth这些可执行文件将通过用户的PATH环境变量进行访问。

三、输入数据要求

1. 参考基因组

DNAscope LongRead将相对于FASTA格式的高质量参考基因组检测样本中存在的变异。除了参考基因组文件外，还需要samtools fasta索引文件(.fai)。短读段比对还需要bwa索引文件。

我们建议比对到不含替代片段的参考基因组。如果基因组中存在替代片段且流程正在执行短读段比对，请同时提供".alt"文件以激活bwa中的alt感知比对。

2. 支持输入数据格式（需要同时提供短读段和长读段数据）

未比对的短读段数据(gzipped FASTQ格式)
已比对的短读段数据(BAM或CRAM格式)
未比对的长读段数据(uBAM或uCRAM格式)
已比对的长读段数据(BAM或CRAM格式)

四、使用方法

运行两个独立的命令来进行CNV检测和应用机器学习模型。输入的BAM文件应该来自已经完成比对和去重复的流程。

1. 从已比对的短读长和长读长数据进行胚系变异检测

运行单个命令从已比对的短读段和长读段数据中调用SNP、Indel、SV和CNV：

sentieon-cli dnascope-hybrid \
  -r REFERENCE \
  --sr_aln SR_ALN [SR_ALN ...] \
  --lr_aln LR_ALN [LR_ALN ...] \
  -m MODEL_BUNDLE \
  [-b DIPLOID_BED] \
  [-d DBSNP] \
  [--dry_run] \
  [--gvcf] \
  [--sr_duplicate_marking MARKDUP] \
  [-t NUMBER_THREADS] \
  sample.vcf.gz

DNAscope Hybrid流程需要以下必备参数：

-r REFERENCE：参考FASTA文件的路径。还需要对应的fasta索引".fai"文件。
--sr_aln：BAM或CRAM格式的输入短读段比对文件，支持在参数后输入多个文件。
--lr_aln：BAM或CRAM格式的输入长读段比对文件，支持在参数后输入多个文件。
-m MODEL_BUNDLE：模型包的路径，可以在sentieon-models仓库中找到（https://github.com/Sentieon/sentieon-models ）
sample.vcf.gz：SNV和indel输出VCF文件的路径，要求输出文件以".vcf.gz"后缀结尾。

DNAscope Hybrid流程接受以下可选参数：

-b DIPLOID_BED：BED文件格式的参考中限制二倍体变异调用的区间，提供此文件将限制二倍体变异调用在BED文件内的区间。
-d DBSNP：用于标记已知变异的单核苷酸多态性数据库(dbSNP)的位置，VCF(.vcf)或bgzip压缩的VCF(.vcf.gz)格式。仅支持一个文件，提供此文件将用dbSNP refSNP ID号注释变异，需要VCF索引文件。
--dry_run：打印流程命令，而不实际执行。
--gvcf：在生成VCF的同时生成一个 gVCF格式的输出文件。
--sr_duplicate_marking：设置重复序列标记模式。使用 markdup将标记重复读段。使用 rmdup 将直接移除重复读段。使用 none 将跳过重复序列标记步骤。默认设置为 markdup。
-t NUMBER_THREADS：软件运行并行进程所使用的计算线程数。若省略，流程将使用服务器拥有的所有线程。
-h：打印命令行帮助并退出。

2. 从未比对的短读长和长读长数据进行胚系变异检测

运行单个命令从未比对的短读段和长读段数据中调用SNP、Indel、SV和CNV：

sentieon-cli dnascope-hybrid \
  -r REFERENCE \
  --sr_r1_fastq SR_R1_FQ [SR_R1_FQ ...] \
  --sr_r2_fastq SR_R2_FQ [SR_R2_FQ ...] \
  --sr_readgroups SR_READGROUP [SR_READGROUP ...] \
  --lr_aln LR_ALN [LR_ALN ...] \
  --lr_align_input \
  -m MODEL_BUNDLE \
  [-b DIPLOID_BED] \
  [--bam_format] \
  [-d DBSNP] \
  [--dry_run] \
  [--gvcf] \
  [--sr_duplicate_marking MARKDUP] \
  [-t NUMBER_THREADS] \
  sample.vcf.gz

DNAscope Hybrid流程需要以下必备参数：

--sr_r1_fastq：gzipped FASTQ格式的R1短读段输入数据。可以在参数后输入多个文件。
--sr_r2_fastq：gzipped FASTQ格式的R2短读段输入数据。可以在参数后输入多个文件。
--sr_readgroups：对应每个FASTQ的读组信息。流程将期望--sr_r1_fastq和--sr_readgroups有相同数量的参数。
- 示例参数为"@RG\tID:HG002-1\tSM:HG002\tLB:HG002-LB-1\tPL:ILLUMINA"
--lr_aln：uBAM或uCRAM格式的长读段输入数据。可以在参数后输入多个文件。
--lr_align_input：指示流程对输入的长读段进行比对。

DNAscope Hybrid流程接受以下可选参数：

--bam_format：对输出的比对文件使用BAM格式而不是默认的CRAM格式。
--lr_input_ref：用于解码输入长读段文件的参考fasta。长读段uCRAM或CRAM输入时需要，可以与-r参数使用的fasta不同。

五、输出结果

1. 默认输出文件类型

VCF格式的小变异(SNP和Indel)
VCF格式的结构变异（SV）
VCF格式的拷贝数变异(CNV)
如果输入未比对的reads，还会输出BAM或CRAM格式的比对结果。

2. 输出文件列表

DNAscope Hybrid流程输出以下文件：

sample.vcf.gz：-b DIPLOID_BED文件中定义的基因组区域的SNV和indel变异检测。
sample.sv.vcf.gz：Sentieon LongReadSV工具的结构变异检测。
sample.cnv.vcf.gz：Sentieon CNVscope工具的拷贝数变异检测。
sample_deduped.cram：来自输入FASTQ文件的已比对、坐标排序和重复标记的短读段数据。
sample_mm2_sorted_*.cram：来自输入uBAM、uCRAM、BAM或CRAM文件的已比对和坐标排序的长读段。
sample_metrics：包含已分析样本的质控指标的目录。

六、故障排除

错误提示："输入...具有不同的RG-SM标签"

当流程检测到输入文件具有（或将具有）不同的读组标签时，会出现此错误。要修复此错误，请使用--rgsm参数在变异检测过程中调整输入文件的SM标签。请注意，使用此参数时，输入文件中的所有读数都将在变异检测过程中被使用。

七、总结

DNAscope Hybrid不仅适用于全基因组测序数据分析，还支持靶向测序分析（如Twist Alliance Dark Genes Panel），展现出了高鲁棒性和多功能性，使其成为对准确性和全面性要求极严苛的临床诊断场景的理想选择。下一篇将展示与现有方法相比，DNAscope Hybrid在基准测试中所拥有的卓越性能，进一步印证Sentieon在混合数据分析领域的创新。

当前，长读长-短读长混合测序分析领域正处于高速迭代期，Sentieon团队将持续对DNAscope Hybrid进行优化，朝着更高的准确性、更强的通量和更低的成本三个维度实现突破。将与行业伙伴共同推动精准医疗的发展，助力基因组学研究和应用迈向新的高度。

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案，其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下，大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度，并匹配目前全部第二代、三代测序平台。

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验，致力于解决生物数据分析中的速度与准确度瓶颈，为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案，共同推动基因技术的发展。

截至2025年7月份，Sentieon已经在全球范围内为1860+用户提供服务，用户处理超过4980+PB数据量，被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用，引用次数超过1500篇。此外，Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠，在业内获得广泛认可。

Sentieon推出混合型短读长和长读长变异检测DNAscope Hybrid流程（上）

一、DNAscope Hybrid介绍

二、系统要求

1. 软件许可说明

2. 使用DNAscope Hybrid的前提

三、输入数据要求

1. 参考基因组

2. 支持输入数据格式（需要同时提供短读段和长读段数据）

四、使用方法

1. 从已比对的短读长和长读长数据进行胚系变异检测

2. 从未比对的短读长和长读长数据进行胚系变异检测

五、输出结果

1. 默认输出文件类型

2. 输出文件列表

六、故障排除

错误提示："输入...具有不同的RG-SM标签"

七、总结

Sentieon软件介绍

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Sentieon推出混合型短读长和长读长变异检测DNAscope Hybrid流程（上）

一、DNAscope Hybrid介绍

二、系统要求

1. 软件许可说明

2. 使用DNAscope Hybrid的前提

三、输入数据要求

1. 参考基因组

2. 支持输入数据格式（需要同时提供短读段和长读段数据）

四、使用方法

1. 从已比对的短读长和长读长数据进行胚系变异检测

2. 从未比对的短读长和长读长数据进行胚系变异检测

五、输出结果

1. 默认输出文件类型

2. 输出文件列表

六、故障排除

错误提示："输入...具有不同的RG-SM标签"

七、总结

Sentieon软件介绍

热门文章

最新文章

相关电子书