Sentieon | 泛基因组相比传统变异检测的优势

简介: 泛基因组相比于传统变异检测,能够突破“单一参考”的局限,即从个体代表性到群体包容性;显著提升变异检出的能力与准确性;推动了精准医学与人群特异性的研究。

在常规的基因组学研究中,人们常常把“参照基因组”当作某一物种遗传信息的“规范模板”。但这犹如仅通过一份标准住宅设计图去推断所有家庭的住宅布局,不可避免地忽视了众多个性化的特征。泛基因组(Pan-genome)概念的提出,完全超越了这一限制,为我们展现了一个更加宏大、精确且不断变化的物种遗传全貌。

本期将聚焦泛基因组在遗传疾病相关研究中的优势。


一、突破“单一参考”的局限:从个体代表性到群体包容性

自2003年人类基因组计划(HGP)完成以来,GRCh38等线性参考基因组虽为基因组学研究奠定了基石,但其本质是一个拼接自少数个体(且以欧洲血统为主)的“共识”序列,无法反映人类群体内部巨大的遗传多态性。尤其在复杂区域——如着丝粒周边(pericentromeric)、端粒附近(subtelomeric)、节段重复序列(segmental duplications, SDs)及rDNA阵列中——仍存在约150 Mb的缺口。即便2022年T2T-CHM13实现了首个端粒到端粒(T2T)无缺口单倍体组装,它仍是单一单倍型,无法代表结构变异(SVs)的群体多样性。

HPRC(人类泛基因组参考联盟)基于47个全球分布个体(94条单倍型)构建的泛基因组,首次实现了对人类基因组“常见变异空间”的系统性覆盖,从根本上解决了传统参考中“参考偏向”(reference bias)问题——即非参考等位基因在比对中被系统性低估或误判。

屏幕截图 2025-11-24 153829.jpg


图1 两个泛基因组项目所采集样本的地理来源

  • HPRC(人类泛基因组参考联盟):47个个体,来自非洲、美洲、亚洲、欧洲四大洲;
  • CPC(中国泛基因组联盟):58个核心样本,覆盖中国36个少数民族。

泛基因组的核心理念在于:用图结构(graph-based pangenome)替代线性序列,整合多个高质量、单倍型分型(haplotype-phased)的个体基因组,构建一个能容纳多种等位基因、插入缺失、倒位、拷贝数变异等的“参考网络”。

屏幕截图 2025-11-24 153915.jpg

泛基因组图谱能容纳SNV、Indel、CNV、倒位等各类变异,能覆盖节段重复序列(SDs)这一传统“盲区。从机制上解释了新生儿中高达1/800的罗伯逊易位(Robertsonian translocations, ROBs)发生率,证明泛基因组可解析染色体结构病的起源。

相比GRCh38,新增119 Mb 常见多态序列,新增1,115 个新基因重复(novel gene duplications),其中约90 Mb 源于结构变异(SVs)。


二、显著提升变异检出能力与准确性

23年的一篇综述[1]明确指出,以泛基因组替代GRCh38作为比对参考后,变异检测性能获得飞跃式提升:

  • 小变异(SNV/Indel)检测错误率降低34%:因图结构可将 reads 更准确地锚定至其真实来源的等位路径,避免了在高度同源区域(如SDs)的错配。
  • 每单倍型检出的结构变异数量增加104%:即翻倍!这意味着大量以往“不可见”的SVs(尤其是复杂SVs,如嵌套插入、倒位伴随缺失)被系统性揭示。例如,HPRC泛基因组新增了119 Mb的常见多态序列和1,115个新基因重复——其中约90 Mb源于SVs。

具体来看,泛基因组的最大价值之一,在于它首次使得对高度重复、传统上难以比对的区域进行系统性群体遗传学研究成为可能:

1. 节段重复区(SDs)是SNV富集与基因转换热点

Vollger et al.(2023)利用HPRC泛基因组发现:SDs中的SNV密度比非重复区高1.6倍,其中至少23%归因于基因间基因转换(Interlocus Gene Conversion, IGC)。不同于等位基因间的同源转换,IGC发生在不同基因座之间,可导致功能基因(如F8凝血因子、HBG1胎儿血红蛋白、C4B补体)的等位基因“横向传播”,既可能促进有利突变扩散(进化意义),也可能造成致病突变蔓延(疾病风险)。研究识别出800余个受IGC影响的蛋白编码基因,其中38个为进化上高度保守的“约束基因”(constrained genes),突变易致严重表型。

2. 近端着丝粒染色体短臂(acrocentric p-arms)是异源重组温床

Guarracino et al.(2023)通过泛基因组图谱发现:13、14、15、21、22号染色体的p-臂因富含rDNA阵列与伪同源区(PHRs),在减数分裂中易发生非同源染色体间的异源重组(heterologous recombination),直接导致罗伯逊易位(ROBs)——新生儿中发生率约1/800。泛基因组首次精准定位ROBs断点均位于PHRs,从机制上解释了这类常见染色体病的起源。

这些区域曾是临床基因组学的“禁区”,如今泛基因组正将其转化为新的致病机制与生物标志物发现源泉。


三、推动精准医学与人群特异性研究:以中国泛基因组(CPC)为例

HPRC泛基因组虽具开创性,但亚洲样本仅占13%,存在显著人群偏差。对此,中国泛基因组联盟(CPC)率先响应,基于58个核心样本(涵盖36个少数民族),构建了首个中国人群代表性泛基因组:

  • 新增189 Mb多态序列、1,367个重复蛋白编码基因。
  • 发现78,072个SVs,其中34,223个为全新变异。
  • 鉴定出与角质化、紫外线响应、DNA修复、免疫及寿命调控相关的新基因/等位基因,部分源于古菌水平基因转移。

尤为关键的是,CPC数据成功将558个ClinVar中列为“致病/可能致病/VUS”的变异重分类为“可能良性”——因其在东亚人群中频率过高(而既往公共数据库缺乏亚洲数据)。这直接避免了临床误诊,彰显泛基因组在人群特异性变异解读中的不可替代性:没有足够多样化的泛基因组,罕见病诊断与遗传咨询将长期受制于“欧洲中心主义”偏见。

参考文献

[1] Wang, B., Dang, N., Yang, X., Xu, S., & Ye, K. (2023). The human pangenome reference: the beginning of a new era for genomics. Science Bulletin, 68(14), 1484–1487.


Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

640.jpg

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2025年7月份,Sentieon已经在全球范围内为1860+用户提供服务,用户处理超过4980+PB数据量,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过1500篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。

目录
相关文章
|
3天前
|
云安全 人工智能 安全
AI被攻击怎么办?
阿里云提供 AI 全栈安全能力,其中对网络攻击的主动识别、智能阻断与快速响应构成其核心防线,依托原生安全防护为客户筑牢免疫屏障。
|
12天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
7天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
496 203
|
5天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
650 157
|
11天前
|
人工智能 自然语言处理 安全
国内主流Agent工具功能全维度对比:从技术内核到场景落地,一篇读懂所有选择
2024年全球AI Agent市场规模达52.9亿美元,预计2030年将增长至471亿美元,亚太地区增速领先。国内Agent工具呈现“百花齐放”格局,涵盖政务、金融、电商等多场景。本文深入解析实在智能实在Agent等主流产品,在技术架构、任务规划、多模态交互、工具集成等方面进行全维度对比,结合市场反馈与行业趋势,为企业及个人用户提供科学选型指南,助力高效落地AI智能体应用。
|
5天前
|
数据采集 消息中间件 人工智能
跨系统数据搬运的全方位解析,包括定义、痛点、技术、方法及智能体解决方案
跨系统数据搬运打通企业数据孤岛,实现CRM、ERP等系统高效互通。伴随数字化转型,全球市场规模超150亿美元,中国年增速达30%。本文详解其定义、痛点、技术原理、主流方法及智能体新范式,结合实在Agent等案例,揭示从数据割裂到智能流通的实践路径,助力企业降本增效,释放数据价值。
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
661 46