在常规的基因组学研究中,人们常常把“参照基因组”当作某一物种遗传信息的“规范模板”。但这犹如仅通过一份标准住宅设计图去推断所有家庭的住宅布局,不可避免地忽视了众多个性化的特征。泛基因组(Pan-genome)概念的提出,完全超越了这一限制,为我们展现了一个更加宏大、精确且不断变化的物种遗传全貌。
本期将聚焦泛基因组在遗传疾病相关研究中的优势。
一、突破“单一参考”的局限:从个体代表性到群体包容性
自2003年人类基因组计划(HGP)完成以来,GRCh38等线性参考基因组虽为基因组学研究奠定了基石,但其本质是一个拼接自少数个体(且以欧洲血统为主)的“共识”序列,无法反映人类群体内部巨大的遗传多态性。尤其在复杂区域——如着丝粒周边(pericentromeric)、端粒附近(subtelomeric)、节段重复序列(segmental duplications, SDs)及rDNA阵列中——仍存在约150 Mb的缺口。即便2022年T2T-CHM13实现了首个端粒到端粒(T2T)无缺口单倍体组装,它仍是单一单倍型,无法代表结构变异(SVs)的群体多样性。
HPRC(人类泛基因组参考联盟)基于47个全球分布个体(94条单倍型)构建的泛基因组,首次实现了对人类基因组“常见变异空间”的系统性覆盖,从根本上解决了传统参考中“参考偏向”(reference bias)问题——即非参考等位基因在比对中被系统性低估或误判。

图1 两个泛基因组项目所采集样本的地理来源
- HPRC(人类泛基因组参考联盟):47个个体,来自非洲、美洲、亚洲、欧洲四大洲;
- CPC(中国泛基因组联盟):58个核心样本,覆盖中国36个少数民族。
泛基因组的核心理念在于:用图结构(graph-based pangenome)替代线性序列,整合多个高质量、单倍型分型(haplotype-phased)的个体基因组,构建一个能容纳多种等位基因、插入缺失、倒位、拷贝数变异等的“参考网络”。

泛基因组图谱能容纳SNV、Indel、CNV、倒位等各类变异,能覆盖节段重复序列(SDs)这一传统“盲区。从机制上解释了新生儿中高达1/800的罗伯逊易位(Robertsonian translocations, ROBs)发生率,证明泛基因组可解析染色体结构病的起源。
相比GRCh38,新增119 Mb 常见多态序列,新增1,115 个新基因重复(novel gene duplications),其中约90 Mb 源于结构变异(SVs)。
二、显著提升变异检出能力与准确性
23年的一篇综述[1]明确指出,以泛基因组替代GRCh38作为比对参考后,变异检测性能获得飞跃式提升:
- 小变异(SNV/Indel)检测错误率降低34%:因图结构可将 reads 更准确地锚定至其真实来源的等位路径,避免了在高度同源区域(如SDs)的错配。
- 每单倍型检出的结构变异数量增加104%:即翻倍!这意味着大量以往“不可见”的SVs(尤其是复杂SVs,如嵌套插入、倒位伴随缺失)被系统性揭示。例如,HPRC泛基因组新增了119 Mb的常见多态序列和1,115个新基因重复——其中约90 Mb源于SVs。
具体来看,泛基因组的最大价值之一,在于它首次使得对高度重复、传统上难以比对的区域进行系统性群体遗传学研究成为可能:
1. 节段重复区(SDs)是SNV富集与基因转换热点
Vollger et al.(2023)利用HPRC泛基因组发现:SDs中的SNV密度比非重复区高1.6倍,其中至少23%归因于基因间基因转换(Interlocus Gene Conversion, IGC)。不同于等位基因间的同源转换,IGC发生在不同基因座之间,可导致功能基因(如F8凝血因子、HBG1胎儿血红蛋白、C4B补体)的等位基因“横向传播”,既可能促进有利突变扩散(进化意义),也可能造成致病突变蔓延(疾病风险)。研究识别出800余个受IGC影响的蛋白编码基因,其中38个为进化上高度保守的“约束基因”(constrained genes),突变易致严重表型。
2. 近端着丝粒染色体短臂(acrocentric p-arms)是异源重组温床
Guarracino et al.(2023)通过泛基因组图谱发现:13、14、15、21、22号染色体的p-臂因富含rDNA阵列与伪同源区(PHRs),在减数分裂中易发生非同源染色体间的异源重组(heterologous recombination),直接导致罗伯逊易位(ROBs)——新生儿中发生率约1/800。泛基因组首次精准定位ROBs断点均位于PHRs,从机制上解释了这类常见染色体病的起源。
这些区域曾是临床基因组学的“禁区”,如今泛基因组正将其转化为新的致病机制与生物标志物发现源泉。
三、推动精准医学与人群特异性研究:以中国泛基因组(CPC)为例
HPRC泛基因组虽具开创性,但亚洲样本仅占13%,存在显著人群偏差。对此,中国泛基因组联盟(CPC)率先响应,基于58个核心样本(涵盖36个少数民族),构建了首个中国人群代表性泛基因组:
- 新增189 Mb多态序列、1,367个重复蛋白编码基因。
- 发现78,072个SVs,其中34,223个为全新变异。
- 鉴定出与角质化、紫外线响应、DNA修复、免疫及寿命调控相关的新基因/等位基因,部分源于古菌水平基因转移。
尤为关键的是,CPC数据成功将558个ClinVar中列为“致病/可能致病/VUS”的变异重分类为“可能良性”——因其在东亚人群中频率过高(而既往公共数据库缺乏亚洲数据)。这直接避免了临床误诊,彰显泛基因组在人群特异性变异解读中的不可替代性:没有足够多样化的泛基因组,罕见病诊断与遗传咨询将长期受制于“欧洲中心主义”偏见。
参考文献
[1] Wang, B., Dang, N., Yang, X., Xu, S., & Ye, K. (2023). The human pangenome reference: the beginning of a new era for genomics. Science Bulletin, 68(14), 1484–1487.
Sentieon软件介绍
Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
截至2025年7月份,Sentieon已经在全球范围内为1860+用户提供服务,用户处理超过4980+PB数据量,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过1500篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。