Sentieon | DNAscope 核心家系(trio) WES 分析全流程详解

简介: 3 个样本一起做家系分析(步骤二到步骤八)共耗时 3.6 分钟。同时提交步骤 1(单样本变异检测),待其完成后再提交步骤 2 (家系联合基因型进行初轮联合变异检测)至步骤 8(第二次检测 de novo 突变并建立索引),全流程能在 12 分钟内完成 100X 的 WES 样本的家系分析,内存最大占用为 21.69 G。

一、背景介绍

在罕见病诊断中,单样本外显子组测序(WES)常面临“瓶颈”——由于缺乏家系成员对照,难以判断变异是否呈现家系共分离,导致致病变异的筛选如同“大海捞针”,且对于复杂遗传模式的漏检率较高。

而核心家系分析(Trio-WES:先证者 + 生物学父母联合测序)恰好破解了这一难题:通过父母与孩子序列的实时比对,若父母健康且不携带相关致病基因,可迅速排除大量良性遗传变异,将候选范围精准锁定在极少数潜在致病位点内。

研究数据充分印证了 WES 模式下家系分析的临床价值:进行 Trio-WES 分析的患儿,其确诊率显著高于单样本分析;由于 WES 具有更高的测序深度(通常 >100X),在核心家系模式下能更灵敏地捕捉到编码区内微小的新生突变(De novo Mutation)和复合杂合突变。平均而言,家系分析向临床团队报告的候选变异数量远少于单样本模式,极大地降低了人工审核的负担。

Sentieon 的 DNAscope 流程基于预训练的机器学习模型,在 WES 复杂捕获区域的单样本调用准确度上已实现大幅提升。针对 WES 核心家系分析的特殊需求,Sentieon 进一步推出了专属流程,利用高深度数据优势,聚焦于孟德尔错误(ME)与新生突变(De novo Mutation)的精准识别。该流程通过优化的算法逻辑,有效过滤了 WES 捕获不均导致的假阳性,进一步降低漏检,为罕见病的临床分子诊断提供更高效、更经济的数据支撑。


二、适用场景

  • 研究对象:疑似罕见病患者及其父母(核心家系)
  • 数据类型:全外显子组测序(WES)数据,支持 PCR-free 和 PCR 建库样本
  • 核心目标
    • 判断变异的家系共分离模式
    • 精准识别孟德尔错误(ME)位点
    • 高效筛选对诊断至关重要的新生突变

三、环境必备


四、分析流程

该分析流程是一个针对家系 WES 数据的变异检测流程,核心目标是准确识别先证者的 de novo 突变(新突变)。流程通过“初步检测 → 联合调用 → 筛选孟德尔不兼容变异 → 重调用优化 → 二次联合调用”的步骤,逐步提高变异检测的准确性,最终输出高质量的家系变异结果,尤其是新突变的注释信息。

该流程用于处理家系(trio,通常指先证者及其父母)全外显子组测序(WES)数据的变异检测流程,使用 sentieon 工具和 bcftools 进行分析。核心分析流程如下:

步骤 1:单样本变异检测

使用 DNAscope 对家系每个样本进行变异检测,生成 GVCF。

# 先证者变异检测
sentieon-cli dnascope -r FASTA --r1-fastq P_FQ1 --r2-fastq P_FQ2 \
  --readgroups "@RG\tID:proband_name\tSM:proband_name\tPL:platform" \
  -m MODEL_BUNDLE -d dbsnp --duplicate-marking rmdup \
  --assay WES --gvcf --skip-svs --skip-multiqc --pcr-free proband_name.vcf.gz

# 父亲/母亲变异检测(命令结构与先证者一致,仅样本名和输入文件不同)
sentieon-cli dnascope ... father_name.vcf.gz
sentieon-cli dnascope ... mother_name.vcf.gz

步骤 2:家系联合基因型进行初轮联合变异检测

使用 GVCFtyper 合并三人 GVCF 生成初步联合 VCF。

sentieon driver -r FASTA --algo GVCFtyper \
  -v proband_name.g.vcf.gz -v father_name.g.vcf.gz -v mother_name.g.vcf.gz \
  joint-call_pass1.vcf.gz

步骤 3:突变 De Novo 突变检测

检测家系中的 de novo 突变,添加 DNM 标签标记新发突变位点。

bcftools +trio-dnm2 -p proband_name,father_name,mother_name -X GRCh38 \
  -o trio-dnm2.output.vcf.gz -Oz --use-NAIVE joint-call_pass1.vcf.gz

步骤 4:变异位点分类

对变异位点进行分类,筛选孟德尔兼容或不兼容变异。

# 筛选孟德尔不兼容变异(可能是 DNM)
bcftools view -i "FMT/DNM[0]==1" trio-dnm2.output.vcf.gz | \
  sentieon util vcfconvert - mendelian-incompatible.vcf.gz

# 筛选孟德尔兼容变异(符合遗传规律)
bcftools view -e "FMT/DNM[0]==1" trio-dnm2.output.vcf.gz | \
  sentieon util vcfconvert - mendelian-compatible.vcf.gz

步骤 5:重召回孟德尔不兼容变异

sentieon driver -r FASTA \
  -i proband_name_deduped.cram -i father_name_deduped.cram -i mother_name_deduped.cram \
  --algo DNAscope --pcr_indel_model none --given mendelian-incompatible.vcf.gz \
  --model MODEL_BUNDLE/dnascope.model mendelian-incompatible.recalled.vcf.gz

步骤 6:筛选高置信度重召回结果

bcftools view -e "QUAL<qual_thresh" mendelian-incompatible.recalled.vcf.gz | \
  sentieon util vcfconvert - mendelian-incompatible.recalled.highconf.vcf.gz

步骤 7:合并结果并进行第二次联合调用

bcftools concat --allow-overlaps mendelian-compatible.vcf.gz \
  mendelian-incompatible.recalled.highconf.vcf.gz | \
  bcftools sort - | sentieon util vcfconvert - joint-call_pass2.vcf.gz

步骤 8:第二次检测 de novo 突变并建立索引

bcftools +trio-dnm2 -p proband_name,father_name,mother_name -X GRCh38 \
  -o trio-dnm2.joint-call_pass2.vcf.gz -Oz --use-NAIVE joint-call_pass2.vcf.gz

sentieon util vcfindex trio-dnm2.joint-call_pass2.vcf.gz

参数说明

  • FASTA:参考基因组 FASTA 文件路径,需与比对阶段使用的参考一致,如 hg38 的 hs38.fa
  • dbsnp:dbSNP 数据库 VCF 文件路径,用于变异注释,如 hg38 的 dbSNP138 版本
  • MODEL_BUNDLE:DNAscope 预训练模型路径,需使用与数据平台匹配的模型,如 Illumina WGS 的 2.0 版本
  • --readgroups:读组信息,需包含 ID(Read Group ID,读组 ID)、SM(样本名)、PL(测序平台,如 Illumina)
  • --duplicate-marking:重复序列处理,rmdup 为去除重复,none 为不处理;预处理阶段建议使用 rmdup

结果说明

triodnm2.joint-call_pass2.vcf.gz 是整个家系(trio)变异检测流程的核心输出文件之一,专门用于存储经过二次优化后筛选出的 de novo 突变(DNM,即先证者中出现、父母均未携带的新突变)信息。该文件遵循 VCF 标准格式,是基因组变异数据的通用存储格式。

其中家系 DNM 相关注释如下:

  1. ##FORMAT=<ID=DNM,Number=1,Type=Integer,Description="De novo mutation status (1=de novo, 0=not de novo, .=unknown)">关键字段,标记该变异是否为 DNM,1 表示是 DNM。

  2. ##INFO=<ID=TRIO_STATUS,Number=1,Type=String,Description="Relationship status in trio (e.g., mendelian_compatible, de_novo)">描述变异在家系中的遗传状态,如 de_novo 表示符合 DNM 特征。

Sentieon DNAscope trio-WES 流程 GitHub 地址:

https://github.com/Insvast/bioinformatics/tree/main/WES-trio-test


五、DNAscope 核心家系设计优势

Sentieon 核心家系流程的准确性依赖以下核心设计:

  • 双轮迭代策略:PASS 1 通过联合调用筛选候选 ME 位点,PASS 2 通过多样本共比对(co-alignment)重新召回,修正单样本漏检导致的假阳性
  • 真集训练与验证:模型训练与流程验证采用 HG002 T2T(端到端)基因组真集及泛基因组样本,确保对复杂区域变异的准确识别
  • 样本适配性:同时支持 PCR-free 与 PCR 建库样本,通过动态参数调整(如 --pcr-freequal_thresh)适配不同实验条件

六、实际运行测试

本次测试将下载 GIAB 的 HG002、HG003、HG004 WES 项目数据,从而进行 DNAscope 分析查看实际的运行效率。

1. 测试项目使用配置

  • CPU:Intel(R) Xeon(R) Platinum 8358P CPU @ 2.60GHz,64 核心
  • 内存:512GB DDR4
  • 系统:Ubuntu 22.04.3 LTS

2. 分析结果评测

为了对流程准确率进行评测,我们分析了瓶中基因组核心家系标准品 HG002、HG003、HG004 的 100X MGI WES 的 PCR-free 建库数据集。将检测得到的结果和真集中的 ME 进行比较,计算准确率。

如下图所示,几乎无漏检的存在,假阳性也被控制在一个合理的区间。

  • TP:真阳结果,在样本最终 ME list 中被列出,同时也存在于真集的 ME list
  • FN:假阴结果,存在于真集中但是不在样本的最终 ME list,这暗示该位点在先证者数据中被漏检或者错检
  • FP:假阳结果,存在于样本的最终 ME list 但是不在真集中,这暗示该位点在先证者数据中就是假阳性或者在父母样本中漏检

3. Bam 质控统计

指标 HG002_deduped.bam HG003_deduped.bam HG004_deduped.bam
[Total] Raw Reads (All reads) 150386776 128608638 146149978
[Total] QC Fail reads 0 0 0
[Total] Raw Data(Mb) 18948.73 16204.69 18414.9
[Total] Paired Reads 150386776 128608638 146149978
[Total] Mapped Reads 149956595 128273760 145773372
[Total] Fraction of Mapped Reads 99.71% 99.74% 99.74%
[Total] Mapped Data(Mb) 18894.53 16162.49 18367.44
[Total] Fraction of Mapped Data(Mb) 99.71% 99.74% 99.74%
[Total] Properly paired 148818172 127384880 144716192
[Total] Fraction of Properly paired 98.96% 99.05% 99.02%
[Total] Read and mate paired 149708260 128064082 145529472
[Total] Fraction of Read and mate paired 99.55% 99.58% 99.58%
[Total] Singletons 248335 209678 243900
[Total] Read and mate map to diff chr 322494 263786 345692
[Total] Read1 75193388 64304319 73074989
[Total] Read2 75193388 64304319 73074989
[Total] Read1(rmdup) 71382116 61481327 69338113
[Total] Read2(rmdup) 71283939 61393996 69239325
[Total] forward strand reads 74963676 64116295 72877727
[Total] backward strand reads 74992919 64157465 72895645
[Total] PCR duplicate reads 7290540 5398437 7195934
[Total] Fraction of PCR duplicate reads 4.86% 4.21% 4.94%
[Total] Map quality cutoff value 20 20 20
[Total] MapQuality above cutoff reads 146608546 125434718 142355051
[Total] Fraction of MapQ reads in all reads 97.49% 97.53% 97.40%
[Total] Fraction of MapQ reads in mapped reads 97.77% 97.79% 97.66%
[Insert size] Average 201.44 203.27 200.09
[Insert size] Median 186 188 185
[Target] Target Reads 100741473 85329743 95522567
[Target] Fraction of Target Reads in all reads 66.99% 66.35% 65.36%
[Target] Fraction of Target Reads in mapped reads 67.18% 66.52% 65.53%
[Target] Target Data(Mb) 8967.52 7573.95 8507.73
[Target] Target Data Rmdup(Mb) 8414.83 7159.03 7973.14
[Target] Fraction of Target Data in all data 47.33% 46.74% 46.20%
[Target] Fraction of Target Data in mapped data 47.46% 46.86% 46.32%
[Target] Len of region 73336305 73336305 73336305
[Target] Average depth 122.28 103.28 116.01
[Target] Average depth(rmdup) 114.74 97.62 108.72
[Target] Coverage (>0.2*(Average depth)x) 51.23% 51.34% 51.27%
[Target] Coverage (>0.5*(Average depth)x) 46.81% 46.94% 47.04%
[Target] Coverage (>0x) 75.22% 74.01% 76.23%
[Target] Coverage (>=4x) 60.26% 59.12% 60.84%
[Target] Coverage (>=10x) 54.10% 53.61% 54.11%
[Target] Coverage (>=30x) 50.45% 49.83% 50.34%
[Target] Coverage (>=100x) 41.69% 39.01% 41.30%

4. 分析内存统计

步骤 HG002 HG003 HG004
比对+排序内存(G) 21.69 21.62 21.66
去重内存(G) 1.82 1.81 1.86
统计 metrics 质控信息内存(G) 0.3 0.28 0.29
DNAscope 变异检测内存(G) 1.76 1.73 1.95
DNAModelApply 机器学习模型应用与变异过滤内存(G) 3.44 3.44 3.44
GVCFtyper 变异检测内存(G) 0.13 0.12 0.13

5. 分析时间统计

步骤一耗时如下所示:

步骤 HG002 HG003 HG004
比对+排序时间(min) 3.85 3.26 3.65
去重时间(min) 0.72 0.49 0.56
统计 metrics 质控信息时间(min) 0.28 0.27 0.28
DNAscope 变异检测时间(min) 1.85 1.58 1.78
DNAModelApply 机器学习模型应用与变异过滤时间(min) 1.28 1.18 1.38
GVCFtyper 变异检测时间(min) 0.21 0.2 0.21
总时间(min) 8.2 6.98 7.86

3 个样本一起做家系分析(步骤二到步骤八)共耗时 3.6 分钟。同时提交步骤 1,待其完成后再提交步骤 2 至步骤 8,全流程能在 12 分钟内完成 100X 的 WES 样本的家系分析,内存最大占用为 21.69 G。

目前,Sentieon 核心家系分析流程已集成至最新版 Sentieon 软件包,已授权用户可直接调用脚本运行;若您尚未成为 Sentieon 用户,欢迎后台联系试用。


Sentieon 软件介绍

Sentieon 为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于 BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard 等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升 WGS、WES、Panel、UMI、ctDNA、RNA 等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至 2026 年 4 月份,Sentieon 已经在全球范围内为 1860+ 用户提供服务,用户处理超过 7400+ PB 数据量,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 1900 篇。此外,Sentieon 连续数年摘得了 PrecisionFDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。

目录
相关文章
|
10天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23444 10
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
14天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
4758 15
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
15天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
5712 13
|
1月前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
24893 65
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
3天前
|
前端开发 API 内存技术
对比claude code等编程cli工具与deepseek v4的适配情况
DeepSeek V4发布后,多家编程工具因未适配其强制要求的`reasoning_content`字段而报错。本文对比Claude Code、GitHub Copilot、Langcli、OpenCode及DeepSeek-TUI等主流工具的兼容性:Claude Code需按官方方式配置;Langcli表现最佳,开箱即用且无报错;Copilot与OpenCode暂未修复问题;DeepSeek-TUI尚处早期阶段。
764 2
对比claude code等编程cli工具与deepseek v4的适配情况