一、背景介绍
在罕见病诊断中,单样本外显子组测序(WES)常面临“瓶颈”——由于缺乏家系成员对照,难以判断变异是否呈现家系共分离,导致致病变异的筛选如同“大海捞针”,且对于复杂遗传模式的漏检率较高。
而核心家系分析(Trio-WES:先证者 + 生物学父母联合测序)恰好破解了这一难题:通过父母与孩子序列的实时比对,若父母健康且不携带相关致病基因,可迅速排除大量良性遗传变异,将候选范围精准锁定在极少数潜在致病位点内。
研究数据充分印证了 WES 模式下家系分析的临床价值:进行 Trio-WES 分析的患儿,其确诊率显著高于单样本分析;由于 WES 具有更高的测序深度(通常 >100X),在核心家系模式下能更灵敏地捕捉到编码区内微小的新生突变(De novo Mutation)和复合杂合突变。平均而言,家系分析向临床团队报告的候选变异数量远少于单样本模式,极大地降低了人工审核的负担。
Sentieon 的 DNAscope 流程基于预训练的机器学习模型,在 WES 复杂捕获区域的单样本调用准确度上已实现大幅提升。针对 WES 核心家系分析的特殊需求,Sentieon 进一步推出了专属流程,利用高深度数据优势,聚焦于孟德尔错误(ME)与新生突变(De novo Mutation)的精准识别。该流程通过优化的算法逻辑,有效过滤了 WES 捕获不均导致的假阳性,进一步降低漏检,为罕见病的临床分子诊断提供更高效、更经济的数据支撑。
二、适用场景
- 研究对象:疑似罕见病患者及其父母(核心家系)
- 数据类型:全外显子组测序(WES)数据,支持 PCR-free 和 PCR 建库样本
- 核心目标:
- 判断变异的家系共分离模式
- 精准识别孟德尔错误(ME)位点
- 高效筛选对诊断至关重要的新生突变
三、环境必备
软件授权: Sentieon license
软件下载
X86 架构 CPU 服务器版本,例如 Intel、AMD、曙光:
https://ftp.insvast.com/user/Sentieon/release/sentieon-genomics-202503.03.tar.gzARM 架构 CPU 服务器版本,例如华为鲲鹏、阿里倚天、Ampere:
https://ftp.insvast.com/user/Sentieon/release/arm-sentieon-genomics-202503.03.tar.gz
软件下载链接需账号与密码,请于s信进行获取。
四、分析流程
该分析流程是一个针对家系 WES 数据的变异检测流程,核心目标是准确识别先证者的 de novo 突变(新突变)。流程通过“初步检测 → 联合调用 → 筛选孟德尔不兼容变异 → 重调用优化 → 二次联合调用”的步骤,逐步提高变异检测的准确性,最终输出高质量的家系变异结果,尤其是新突变的注释信息。

该流程用于处理家系(trio,通常指先证者及其父母)全外显子组测序(WES)数据的变异检测流程,使用 sentieon 工具和 bcftools 进行分析。核心分析流程如下:
步骤 1:单样本变异检测
使用 DNAscope 对家系每个样本进行变异检测,生成 GVCF。
# 先证者变异检测
sentieon-cli dnascope -r FASTA --r1-fastq P_FQ1 --r2-fastq P_FQ2 \
--readgroups "@RG\tID:proband_name\tSM:proband_name\tPL:platform" \
-m MODEL_BUNDLE -d dbsnp --duplicate-marking rmdup \
--assay WES --gvcf --skip-svs --skip-multiqc --pcr-free proband_name.vcf.gz
# 父亲/母亲变异检测(命令结构与先证者一致,仅样本名和输入文件不同)
sentieon-cli dnascope ... father_name.vcf.gz
sentieon-cli dnascope ... mother_name.vcf.gz
步骤 2:家系联合基因型进行初轮联合变异检测
使用 GVCFtyper 合并三人 GVCF 生成初步联合 VCF。
sentieon driver -r FASTA --algo GVCFtyper \
-v proband_name.g.vcf.gz -v father_name.g.vcf.gz -v mother_name.g.vcf.gz \
joint-call_pass1.vcf.gz
步骤 3:突变 De Novo 突变检测
检测家系中的 de novo 突变,添加 DNM 标签标记新发突变位点。
bcftools +trio-dnm2 -p proband_name,father_name,mother_name -X GRCh38 \
-o trio-dnm2.output.vcf.gz -Oz --use-NAIVE joint-call_pass1.vcf.gz
步骤 4:变异位点分类
对变异位点进行分类,筛选孟德尔兼容或不兼容变异。
# 筛选孟德尔不兼容变异(可能是 DNM)
bcftools view -i "FMT/DNM[0]==1" trio-dnm2.output.vcf.gz | \
sentieon util vcfconvert - mendelian-incompatible.vcf.gz
# 筛选孟德尔兼容变异(符合遗传规律)
bcftools view -e "FMT/DNM[0]==1" trio-dnm2.output.vcf.gz | \
sentieon util vcfconvert - mendelian-compatible.vcf.gz
步骤 5:重召回孟德尔不兼容变异
sentieon driver -r FASTA \
-i proband_name_deduped.cram -i father_name_deduped.cram -i mother_name_deduped.cram \
--algo DNAscope --pcr_indel_model none --given mendelian-incompatible.vcf.gz \
--model MODEL_BUNDLE/dnascope.model mendelian-incompatible.recalled.vcf.gz
步骤 6:筛选高置信度重召回结果
bcftools view -e "QUAL<qual_thresh" mendelian-incompatible.recalled.vcf.gz | \
sentieon util vcfconvert - mendelian-incompatible.recalled.highconf.vcf.gz
步骤 7:合并结果并进行第二次联合调用
bcftools concat --allow-overlaps mendelian-compatible.vcf.gz \
mendelian-incompatible.recalled.highconf.vcf.gz | \
bcftools sort - | sentieon util vcfconvert - joint-call_pass2.vcf.gz
步骤 8:第二次检测 de novo 突变并建立索引
bcftools +trio-dnm2 -p proband_name,father_name,mother_name -X GRCh38 \
-o trio-dnm2.joint-call_pass2.vcf.gz -Oz --use-NAIVE joint-call_pass2.vcf.gz
sentieon util vcfindex trio-dnm2.joint-call_pass2.vcf.gz
参数说明
- FASTA:参考基因组 FASTA 文件路径,需与比对阶段使用的参考一致,如 hg38 的
hs38.fa - dbsnp:dbSNP 数据库 VCF 文件路径,用于变异注释,如 hg38 的 dbSNP138 版本
- MODEL_BUNDLE:DNAscope 预训练模型路径,需使用与数据平台匹配的模型,如 Illumina WGS 的 2.0 版本
- --readgroups:读组信息,需包含 ID(Read Group ID,读组 ID)、SM(样本名)、PL(测序平台,如 Illumina)
- --duplicate-marking:重复序列处理,
rmdup为去除重复,none为不处理;预处理阶段建议使用rmdup
结果说明
triodnm2.joint-call_pass2.vcf.gz 是整个家系(trio)变异检测流程的核心输出文件之一,专门用于存储经过二次优化后筛选出的 de novo 突变(DNM,即先证者中出现、父母均未携带的新突变)信息。该文件遵循 VCF 标准格式,是基因组变异数据的通用存储格式。
其中家系 DNM 相关注释如下:
##FORMAT=<ID=DNM,Number=1,Type=Integer,Description="De novo mutation status (1=de novo, 0=not de novo, .=unknown)">关键字段,标记该变异是否为 DNM,1表示是 DNM。##INFO=<ID=TRIO_STATUS,Number=1,Type=String,Description="Relationship status in trio (e.g., mendelian_compatible, de_novo)">描述变异在家系中的遗传状态,如de_novo表示符合 DNM 特征。
Sentieon DNAscope trio-WES 流程 GitHub 地址:
https://github.com/Insvast/bioinformatics/tree/main/WES-trio-test
五、DNAscope 核心家系设计优势
Sentieon 核心家系流程的准确性依赖以下核心设计:
- 双轮迭代策略:PASS 1 通过联合调用筛选候选 ME 位点,PASS 2 通过多样本共比对(co-alignment)重新召回,修正单样本漏检导致的假阳性
- 真集训练与验证:模型训练与流程验证采用 HG002 T2T(端到端)基因组真集及泛基因组样本,确保对复杂区域变异的准确识别
- 样本适配性:同时支持 PCR-free 与 PCR 建库样本,通过动态参数调整(如
--pcr-free、qual_thresh)适配不同实验条件
六、实际运行测试
本次测试将下载 GIAB 的 HG002、HG003、HG004 WES 项目数据,从而进行 DNAscope 分析查看实际的运行效率。
1. 测试项目使用配置
- CPU:Intel(R) Xeon(R) Platinum 8358P CPU @ 2.60GHz,64 核心
- 内存:512GB DDR4
- 系统:Ubuntu 22.04.3 LTS
2. 分析结果评测
为了对流程准确率进行评测,我们分析了瓶中基因组核心家系标准品 HG002、HG003、HG004 的 100X MGI WES 的 PCR-free 建库数据集。将检测得到的结果和真集中的 ME 进行比较,计算准确率。
如下图所示,几乎无漏检的存在,假阳性也被控制在一个合理的区间。

- TP:真阳结果,在样本最终 ME list 中被列出,同时也存在于真集的 ME list
- FN:假阴结果,存在于真集中但是不在样本的最终 ME list,这暗示该位点在先证者数据中被漏检或者错检
- FP:假阳结果,存在于样本的最终 ME list 但是不在真集中,这暗示该位点在先证者数据中就是假阳性或者在父母样本中漏检
3. Bam 质控统计
| 指标 | HG002_deduped.bam | HG003_deduped.bam | HG004_deduped.bam |
|---|---|---|---|
| [Total] Raw Reads (All reads) | 150386776 | 128608638 | 146149978 |
| [Total] QC Fail reads | 0 | 0 | 0 |
| [Total] Raw Data(Mb) | 18948.73 | 16204.69 | 18414.9 |
| [Total] Paired Reads | 150386776 | 128608638 | 146149978 |
| [Total] Mapped Reads | 149956595 | 128273760 | 145773372 |
| [Total] Fraction of Mapped Reads | 99.71% | 99.74% | 99.74% |
| [Total] Mapped Data(Mb) | 18894.53 | 16162.49 | 18367.44 |
| [Total] Fraction of Mapped Data(Mb) | 99.71% | 99.74% | 99.74% |
| [Total] Properly paired | 148818172 | 127384880 | 144716192 |
| [Total] Fraction of Properly paired | 98.96% | 99.05% | 99.02% |
| [Total] Read and mate paired | 149708260 | 128064082 | 145529472 |
| [Total] Fraction of Read and mate paired | 99.55% | 99.58% | 99.58% |
| [Total] Singletons | 248335 | 209678 | 243900 |
| [Total] Read and mate map to diff chr | 322494 | 263786 | 345692 |
| [Total] Read1 | 75193388 | 64304319 | 73074989 |
| [Total] Read2 | 75193388 | 64304319 | 73074989 |
| [Total] Read1(rmdup) | 71382116 | 61481327 | 69338113 |
| [Total] Read2(rmdup) | 71283939 | 61393996 | 69239325 |
| [Total] forward strand reads | 74963676 | 64116295 | 72877727 |
| [Total] backward strand reads | 74992919 | 64157465 | 72895645 |
| [Total] PCR duplicate reads | 7290540 | 5398437 | 7195934 |
| [Total] Fraction of PCR duplicate reads | 4.86% | 4.21% | 4.94% |
| [Total] Map quality cutoff value | 20 | 20 | 20 |
| [Total] MapQuality above cutoff reads | 146608546 | 125434718 | 142355051 |
| [Total] Fraction of MapQ reads in all reads | 97.49% | 97.53% | 97.40% |
| [Total] Fraction of MapQ reads in mapped reads | 97.77% | 97.79% | 97.66% |
| [Insert size] Average | 201.44 | 203.27 | 200.09 |
| [Insert size] Median | 186 | 188 | 185 |
| [Target] Target Reads | 100741473 | 85329743 | 95522567 |
| [Target] Fraction of Target Reads in all reads | 66.99% | 66.35% | 65.36% |
| [Target] Fraction of Target Reads in mapped reads | 67.18% | 66.52% | 65.53% |
| [Target] Target Data(Mb) | 8967.52 | 7573.95 | 8507.73 |
| [Target] Target Data Rmdup(Mb) | 8414.83 | 7159.03 | 7973.14 |
| [Target] Fraction of Target Data in all data | 47.33% | 46.74% | 46.20% |
| [Target] Fraction of Target Data in mapped data | 47.46% | 46.86% | 46.32% |
| [Target] Len of region | 73336305 | 73336305 | 73336305 |
| [Target] Average depth | 122.28 | 103.28 | 116.01 |
| [Target] Average depth(rmdup) | 114.74 | 97.62 | 108.72 |
| [Target] Coverage (>0.2*(Average depth)x) | 51.23% | 51.34% | 51.27% |
| [Target] Coverage (>0.5*(Average depth)x) | 46.81% | 46.94% | 47.04% |
| [Target] Coverage (>0x) | 75.22% | 74.01% | 76.23% |
| [Target] Coverage (>=4x) | 60.26% | 59.12% | 60.84% |
| [Target] Coverage (>=10x) | 54.10% | 53.61% | 54.11% |
| [Target] Coverage (>=30x) | 50.45% | 49.83% | 50.34% |
| [Target] Coverage (>=100x) | 41.69% | 39.01% | 41.30% |
4. 分析内存统计
| 步骤 | HG002 | HG003 | HG004 |
|---|---|---|---|
| 比对+排序内存(G) | 21.69 | 21.62 | 21.66 |
| 去重内存(G) | 1.82 | 1.81 | 1.86 |
| 统计 metrics 质控信息内存(G) | 0.3 | 0.28 | 0.29 |
| DNAscope 变异检测内存(G) | 1.76 | 1.73 | 1.95 |
| DNAModelApply 机器学习模型应用与变异过滤内存(G) | 3.44 | 3.44 | 3.44 |
| GVCFtyper 变异检测内存(G) | 0.13 | 0.12 | 0.13 |
5. 分析时间统计
步骤一耗时如下所示:
| 步骤 | HG002 | HG003 | HG004 |
|---|---|---|---|
| 比对+排序时间(min) | 3.85 | 3.26 | 3.65 |
| 去重时间(min) | 0.72 | 0.49 | 0.56 |
| 统计 metrics 质控信息时间(min) | 0.28 | 0.27 | 0.28 |
| DNAscope 变异检测时间(min) | 1.85 | 1.58 | 1.78 |
| DNAModelApply 机器学习模型应用与变异过滤时间(min) | 1.28 | 1.18 | 1.38 |
| GVCFtyper 变异检测时间(min) | 0.21 | 0.2 | 0.21 |
| 总时间(min) | 8.2 | 6.98 | 7.86 |
3 个样本一起做家系分析(步骤二到步骤八)共耗时 3.6 分钟。同时提交步骤 1,待其完成后再提交步骤 2 至步骤 8,全流程能在 12 分钟内完成 100X 的 WES 样本的家系分析,内存最大占用为 21.69 G。
目前,Sentieon 核心家系分析流程已集成至最新版 Sentieon 软件包,已授权用户可直接调用脚本运行;若您尚未成为 Sentieon 用户,欢迎后台联系试用。
Sentieon 软件介绍
Sentieon 为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于 BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard 等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升 WGS、WES、Panel、UMI、ctDNA、RNA 等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
截至 2026 年 4 月份,Sentieon 已经在全球范围内为 1860+ 用户提供服务,用户处理超过 7400+ PB 数据量,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 1900 篇。此外,Sentieon 连续数年摘得了 PrecisionFDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。