一、背景介绍

在罕见病诊断中，单样本外显子组测序（WES）常面临“瓶颈”——由于缺乏家系成员对照，难以判断变异是否呈现家系共分离，导致致病变异的筛选如同“大海捞针”，且对于复杂遗传模式的漏检率较高。

而核心家系分析（Trio-WES：先证者 + 生物学父母联合测序）恰好破解了这一难题：通过父母与孩子序列的实时比对，若父母健康且不携带相关致病基因，可迅速排除大量良性遗传变异，将候选范围精准锁定在极少数潜在致病位点内。

研究数据充分印证了 WES 模式下家系分析的临床价值：进行 Trio-WES 分析的患儿，其确诊率显著高于单样本分析；由于 WES 具有更高的测序深度（通常 >100X），在核心家系模式下能更灵敏地捕捉到编码区内微小的新生突变（De novo Mutation）和复合杂合突变。平均而言，家系分析向临床团队报告的候选变异数量远少于单样本模式，极大地降低了人工审核的负担。

Sentieon 的 DNAscope 流程基于预训练的机器学习模型，在 WES 复杂捕获区域的单样本调用准确度上已实现大幅提升。针对 WES 核心家系分析的特殊需求，Sentieon 进一步推出了专属流程，利用高深度数据优势，聚焦于孟德尔错误（ME）与新生突变（De novo Mutation）的精准识别。该流程通过优化的算法逻辑，有效过滤了 WES 捕获不均导致的假阳性，进一步降低漏检，为罕见病的临床分子诊断提供更高效、更经济的数据支撑。

二、适用场景

研究对象：疑似罕见病患者及其父母（核心家系）
数据类型：全外显子组测序（WES）数据，支持 PCR-free 和 PCR 建库样本
核心目标：
- 判断变异的家系共分离模式
- 精准识别孟德尔错误（ME）位点
- 高效筛选对诊断至关重要的新生突变

三、环境必备

软件授权： Sentieon license
软件下载
- X86 架构 CPU 服务器版本，例如 Intel、AMD、曙光：
  https://ftp.insvast.com/user/Sentieon/release/sentieon-genomics-202503.03.tar.gz
- ARM 架构 CPU 服务器版本，例如华为鲲鹏、阿里倚天、Ampere：
  https://ftp.insvast.com/user/Sentieon/release/arm-sentieon-genomics-202503.03.tar.gz
软件下载链接需账号与密码，请于s信进行获取。
模型下载： https://github.com/Sentieon/sentieon-models/

四、分析流程

该分析流程是一个针对家系 WES 数据的变异检测流程，核心目标是准确识别先证者的 de novo 突变（新突变）。流程通过“初步检测 → 联合调用 → 筛选孟德尔不兼容变异 → 重调用优化 → 二次联合调用”的步骤，逐步提高变异检测的准确性，最终输出高质量的家系变异结果，尤其是新突变的注释信息。

该流程用于处理家系（trio，通常指先证者及其父母）全外显子组测序（WES）数据的变异检测流程，使用 sentieon 工具和 bcftools 进行分析。核心分析流程如下：

步骤 1：单样本变异检测

使用 DNAscope 对家系每个样本进行变异检测，生成 GVCF。

# 先证者变异检测
sentieon-cli dnascope -r FASTA --r1-fastq P_FQ1 --r2-fastq P_FQ2 \
  --readgroups "@RG\tID:proband_name\tSM:proband_name\tPL:platform" \
  -m MODEL_BUNDLE -d dbsnp --duplicate-marking rmdup \
  --assay WES --gvcf --skip-svs --skip-multiqc --pcr-free proband_name.vcf.gz

# 父亲/母亲变异检测（命令结构与先证者一致，仅样本名和输入文件不同）
sentieon-cli dnascope ... father_name.vcf.gz
sentieon-cli dnascope ... mother_name.vcf.gz

步骤 2：家系联合基因型进行初轮联合变异检测

使用 GVCFtyper 合并三人 GVCF 生成初步联合 VCF。

sentieon driver -r FASTA --algo GVCFtyper \
  -v proband_name.g.vcf.gz -v father_name.g.vcf.gz -v mother_name.g.vcf.gz \
  joint-call_pass1.vcf.gz

步骤 3：突变 De Novo 突变检测

检测家系中的 de novo 突变，添加 DNM 标签标记新发突变位点。

bcftools +trio-dnm2 -p proband_name,father_name,mother_name -X GRCh38 \
  -o trio-dnm2.output.vcf.gz -Oz --use-NAIVE joint-call_pass1.vcf.gz

步骤 4：变异位点分类

对变异位点进行分类，筛选孟德尔兼容或不兼容变异。

# 筛选孟德尔不兼容变异（可能是 DNM）
bcftools view -i "FMT/DNM[0]==1" trio-dnm2.output.vcf.gz | \
  sentieon util vcfconvert - mendelian-incompatible.vcf.gz

# 筛选孟德尔兼容变异（符合遗传规律）
bcftools view -e "FMT/DNM[0]==1" trio-dnm2.output.vcf.gz | \
  sentieon util vcfconvert - mendelian-compatible.vcf.gz

步骤 5：重召回孟德尔不兼容变异

sentieon driver -r FASTA \
  -i proband_name_deduped.cram -i father_name_deduped.cram -i mother_name_deduped.cram \
  --algo DNAscope --pcr_indel_model none --given mendelian-incompatible.vcf.gz \
  --model MODEL_BUNDLE/dnascope.model mendelian-incompatible.recalled.vcf.gz

步骤 6：筛选高置信度重召回结果

bcftools view -e "QUAL<qual_thresh" mendelian-incompatible.recalled.vcf.gz | \
  sentieon util vcfconvert - mendelian-incompatible.recalled.highconf.vcf.gz

步骤 7：合并结果并进行第二次联合调用

bcftools concat --allow-overlaps mendelian-compatible.vcf.gz \
  mendelian-incompatible.recalled.highconf.vcf.gz | \
  bcftools sort - | sentieon util vcfconvert - joint-call_pass2.vcf.gz

步骤 8：第二次检测 de novo 突变并建立索引

bcftools +trio-dnm2 -p proband_name,father_name,mother_name -X GRCh38 \
  -o trio-dnm2.joint-call_pass2.vcf.gz -Oz --use-NAIVE joint-call_pass2.vcf.gz

sentieon util vcfindex trio-dnm2.joint-call_pass2.vcf.gz

参数说明

FASTA：参考基因组 FASTA 文件路径，需与比对阶段使用的参考一致，如 hg38 的 hs38.fa
dbsnp：dbSNP 数据库 VCF 文件路径，用于变异注释，如 hg38 的 dbSNP138 版本
MODEL_BUNDLE：DNAscope 预训练模型路径，需使用与数据平台匹配的模型，如 Illumina WGS 的 2.0 版本
--readgroups：读组信息，需包含 ID（Read Group ID，读组 ID）、SM（样本名）、PL（测序平台，如 Illumina）
--duplicate-marking：重复序列处理，rmdup 为去除重复，none 为不处理；预处理阶段建议使用 rmdup

结果说明

triodnm2.joint-call_pass2.vcf.gz 是整个家系（trio）变异检测流程的核心输出文件之一，专门用于存储经过二次优化后筛选出的 de novo 突变（DNM，即先证者中出现、父母均未携带的新突变）信息。该文件遵循 VCF 标准格式，是基因组变异数据的通用存储格式。

其中家系 DNM 相关注释如下：

##FORMAT=<ID=DNM,Number=1,Type=Integer,Description="De novo mutation status (1=de novo, 0=not de novo, .=unknown)">关键字段，标记该变异是否为 DNM，1 表示是 DNM。
##INFO=<ID=TRIO_STATUS,Number=1,Type=String,Description="Relationship status in trio (e.g., mendelian_compatible, de_novo)">描述变异在家系中的遗传状态，如 de_novo 表示符合 DNM 特征。

Sentieon DNAscope trio-WES 流程 GitHub 地址：

https://github.com/Insvast/bioinformatics/tree/main/WES-trio-test

五、DNAscope 核心家系设计优势

Sentieon 核心家系流程的准确性依赖以下核心设计：

双轮迭代策略：PASS 1 通过联合调用筛选候选 ME 位点，PASS 2 通过多样本共比对（co-alignment）重新召回，修正单样本漏检导致的假阳性
真集训练与验证：模型训练与流程验证采用 HG002 T2T（端到端）基因组真集及泛基因组样本，确保对复杂区域变异的准确识别
样本适配性：同时支持 PCR-free 与 PCR 建库样本，通过动态参数调整（如 --pcr-free、qual_thresh）适配不同实验条件

六、实际运行测试

本次测试将下载 GIAB 的 HG002、HG003、HG004 WES 项目数据，从而进行 DNAscope 分析查看实际的运行效率。

1. 测试项目使用配置

CPU：Intel(R) Xeon(R) Platinum 8358P CPU @ 2.60GHz，64 核心
内存：512GB DDR4
系统：Ubuntu 22.04.3 LTS

2. 分析结果评测

为了对流程准确率进行评测，我们分析了瓶中基因组核心家系标准品 HG002、HG003、HG004 的 100X MGI WES 的 PCR-free 建库数据集。将检测得到的结果和真集中的 ME 进行比较，计算准确率。

如下图所示，几乎无漏检的存在，假阳性也被控制在一个合理的区间。

TP：真阳结果，在样本最终 ME list 中被列出，同时也存在于真集的 ME list
FN：假阴结果，存在于真集中但是不在样本的最终 ME list，这暗示该位点在先证者数据中被漏检或者错检
FP：假阳结果，存在于样本的最终 ME list 但是不在真集中，这暗示该位点在先证者数据中就是假阳性或者在父母样本中漏检

3. Bam 质控统计

指标	HG002_deduped.bam	HG003_deduped.bam	HG004_deduped.bam
[Total] Raw Reads (All reads)	150386776	128608638	146149978
[Total] QC Fail reads	0	0	0
[Total] Raw Data(Mb)	18948.73	16204.69	18414.9
[Total] Paired Reads	150386776	128608638	146149978
[Total] Mapped Reads	149956595	128273760	145773372
[Total] Fraction of Mapped Reads	99.71%	99.74%	99.74%
[Total] Mapped Data(Mb)	18894.53	16162.49	18367.44
[Total] Fraction of Mapped Data(Mb)	99.71%	99.74%	99.74%
[Total] Properly paired	148818172	127384880	144716192
[Total] Fraction of Properly paired	98.96%	99.05%	99.02%
[Total] Read and mate paired	149708260	128064082	145529472
[Total] Fraction of Read and mate paired	99.55%	99.58%	99.58%
[Total] Singletons	248335	209678	243900
[Total] Read and mate map to diff chr	322494	263786	345692
[Total] Read1	75193388	64304319	73074989
[Total] Read2	75193388	64304319	73074989
[Total] Read1(rmdup)	71382116	61481327	69338113
[Total] Read2(rmdup)	71283939	61393996	69239325
[Total] forward strand reads	74963676	64116295	72877727
[Total] backward strand reads	74992919	64157465	72895645
[Total] PCR duplicate reads	7290540	5398437	7195934
[Total] Fraction of PCR duplicate reads	4.86%	4.21%	4.94%
[Total] Map quality cutoff value	20	20	20
[Total] MapQuality above cutoff reads	146608546	125434718	142355051
[Total] Fraction of MapQ reads in all reads	97.49%	97.53%	97.40%
[Total] Fraction of MapQ reads in mapped reads	97.77%	97.79%	97.66%
[Insert size] Average	201.44	203.27	200.09
[Insert size] Median	186	188	185
[Target] Target Reads	100741473	85329743	95522567
[Target] Fraction of Target Reads in all reads	66.99%	66.35%	65.36%
[Target] Fraction of Target Reads in mapped reads	67.18%	66.52%	65.53%
[Target] Target Data(Mb)	8967.52	7573.95	8507.73
[Target] Target Data Rmdup(Mb)	8414.83	7159.03	7973.14
[Target] Fraction of Target Data in all data	47.33%	46.74%	46.20%
[Target] Fraction of Target Data in mapped data	47.46%	46.86%	46.32%
[Target] Len of region	73336305	73336305	73336305
[Target] Average depth	122.28	103.28	116.01
[Target] Average depth(rmdup)	114.74	97.62	108.72
[Target] Coverage (>0.2*(Average depth)x)	51.23%	51.34%	51.27%
[Target] Coverage (>0.5*(Average depth)x)	46.81%	46.94%	47.04%
[Target] Coverage (>0x)	75.22%	74.01%	76.23%
[Target] Coverage (>=4x)	60.26%	59.12%	60.84%
[Target] Coverage (>=10x)	54.10%	53.61%	54.11%
[Target] Coverage (>=30x)	50.45%	49.83%	50.34%
[Target] Coverage (>=100x)	41.69%	39.01%	41.30%

4. 分析内存统计

步骤	HG002	HG003	HG004
比对+排序内存（G）	21.69	21.62	21.66
去重内存（G）	1.82	1.81	1.86
统计 metrics 质控信息内存（G）	0.3	0.28	0.29
DNAscope 变异检测内存（G）	1.76	1.73	1.95
DNAModelApply 机器学习模型应用与变异过滤内存（G）	3.44	3.44	3.44
GVCFtyper 变异检测内存（G）	0.13	0.12	0.13

5. 分析时间统计

步骤一耗时如下所示：

步骤	HG002	HG003	HG004
比对+排序时间（min）	3.85	3.26	3.65
去重时间（min）	0.72	0.49	0.56
统计 metrics 质控信息时间（min）	0.28	0.27	0.28
DNAscope 变异检测时间（min）	1.85	1.58	1.78
DNAModelApply 机器学习模型应用与变异过滤时间（min）	1.28	1.18	1.38
GVCFtyper 变异检测时间（min）	0.21	0.2	0.21
总时间（min）	8.2	6.98	7.86

3 个样本一起做家系分析（步骤二到步骤八）共耗时 3.6 分钟。同时提交步骤 1，待其完成后再提交步骤 2 至步骤 8，全流程能在 12 分钟内完成 100X 的 WES 样本的家系分析，内存最大占用为 21.69 G。

目前，Sentieon 核心家系分析流程已集成至最新版 Sentieon 软件包，已授权用户可直接调用脚本运行；若您尚未成为 Sentieon 用户，欢迎后台联系试用。

Sentieon 软件介绍

Sentieon 为完整的纯软件基因变异检测二级分析方案，其分析流程完全忠于 BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard 等金标准的数学模型。在匹配开源流程分析结果的前提下，大幅提升 WGS、WES、Panel、UMI、ctDNA、RNA 等测序数据的分析效率和检出精度，并匹配目前全部第二代、三代测序平台。

Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验，致力于解决生物数据分析中的速度与准确度瓶颈，为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案，共同推动基因技术的发展。

截至 2026 年 4 月份，Sentieon 已经在全球范围内为 1860+ 用户提供服务，用户处理超过 7400+ PB 数据量，被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用，引用次数超过 1900 篇。此外，Sentieon 连续数年摘得了 PrecisionFDA、Dream Challenges 等多个权威评比的桂冠，在业内获得广泛认可。

Sentieon | DNAscope 核心家系（trio） WES 分析全流程详解

一、背景介绍

二、适用场景

三、环境必备

四、分析流程

步骤 1：单样本变异检测

步骤 2：家系联合基因型进行初轮联合变异检测

步骤 3：突变 De Novo 突变检测

步骤 4：变异位点分类

步骤 5：重召回孟德尔不兼容变异

步骤 6：筛选高置信度重召回结果

步骤 7：合并结果并进行第二次联合调用

步骤 8：第二次检测 de novo 突变并建立索引

参数说明

结果说明

五、DNAscope 核心家系设计优势

六、实际运行测试

1. 测试项目使用配置

2. 分析结果评测

3. Bam 质控统计

4. 分析内存统计

5. 分析时间统计

Sentieon 软件介绍

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Sentieon | DNAscope 核心家系（trio） WES 分析全流程详解

一、背景介绍

二、适用场景

三、环境必备

四、分析流程

步骤 1：单样本变异检测

步骤 2：家系联合基因型进行初轮联合变异检测

步骤 3：突变 De Novo 突变检测

步骤 4：变异位点分类

步骤 5：重召回孟德尔不兼容变异

步骤 6：筛选高置信度重召回结果

步骤 7：合并结果并进行第二次联合调用

步骤 8：第二次检测 de novo 突变并建立索引

参数说明

结果说明

五、DNAscope 核心家系设计优势

六、实际运行测试

1. 测试项目使用配置

2. 分析结果评测

3. Bam 质控统计

4. 分析内存统计

5. 分析时间统计

Sentieon 软件介绍

热门文章

最新文章

相关电子书