Sentieon | 泛基因组相比传统变异检测的优势

简介: 泛基因组相比于传统变异检测,能够突破“单一参考”的局限,即从个体代表性到群体包容性;显著提升变异检出的能力与准确性;推动了精准医学与人群特异性的研究。

在常规的基因组学研究中,人们常常把“参照基因组”当作某一物种遗传信息的“规范模板”。但这犹如仅通过一份标准住宅设计图去推断所有家庭的住宅布局,不可避免地忽视了众多个性化的特征。泛基因组(Pan-genome)概念的提出,完全超越了这一限制,为我们展现了一个更加宏大、精确且不断变化的物种遗传全貌。

本期将聚焦泛基因组在遗传疾病相关研究中的优势。


一、突破“单一参考”的局限:从个体代表性到群体包容性

自2003年人类基因组计划(HGP)完成以来,GRCh38等线性参考基因组虽为基因组学研究奠定了基石,但其本质是一个拼接自少数个体(且以欧洲血统为主)的“共识”序列,无法反映人类群体内部巨大的遗传多态性。尤其在复杂区域——如着丝粒周边(pericentromeric)、端粒附近(subtelomeric)、节段重复序列(segmental duplications, SDs)及rDNA阵列中——仍存在约150 Mb的缺口。即便2022年T2T-CHM13实现了首个端粒到端粒(T2T)无缺口单倍体组装,它仍是单一单倍型,无法代表结构变异(SVs)的群体多样性。

HPRC(人类泛基因组参考联盟)基于47个全球分布个体(94条单倍型)构建的泛基因组,首次实现了对人类基因组“常见变异空间”的系统性覆盖,从根本上解决了传统参考中“参考偏向”(reference bias)问题——即非参考等位基因在比对中被系统性低估或误判。

屏幕截图 2025-11-24 153829.jpg


图1 两个泛基因组项目所采集样本的地理来源

  • HPRC(人类泛基因组参考联盟):47个个体,来自非洲、美洲、亚洲、欧洲四大洲;
  • CPC(中国泛基因组联盟):58个核心样本,覆盖中国36个少数民族。

泛基因组的核心理念在于:用图结构(graph-based pangenome)替代线性序列,整合多个高质量、单倍型分型(haplotype-phased)的个体基因组,构建一个能容纳多种等位基因、插入缺失、倒位、拷贝数变异等的“参考网络”。

屏幕截图 2025-11-24 153915.jpg

泛基因组图谱能容纳SNV、Indel、CNV、倒位等各类变异,能覆盖节段重复序列(SDs)这一传统“盲区。从机制上解释了新生儿中高达1/800的罗伯逊易位(Robertsonian translocations, ROBs)发生率,证明泛基因组可解析染色体结构病的起源。

相比GRCh38,新增119 Mb 常见多态序列,新增1,115 个新基因重复(novel gene duplications),其中约90 Mb 源于结构变异(SVs)。


二、显著提升变异检出能力与准确性

23年的一篇综述[1]明确指出,以泛基因组替代GRCh38作为比对参考后,变异检测性能获得飞跃式提升:

  • 小变异(SNV/Indel)检测错误率降低34%:因图结构可将 reads 更准确地锚定至其真实来源的等位路径,避免了在高度同源区域(如SDs)的错配。
  • 每单倍型检出的结构变异数量增加104%:即翻倍!这意味着大量以往“不可见”的SVs(尤其是复杂SVs,如嵌套插入、倒位伴随缺失)被系统性揭示。例如,HPRC泛基因组新增了119 Mb的常见多态序列和1,115个新基因重复——其中约90 Mb源于SVs。

具体来看,泛基因组的最大价值之一,在于它首次使得对高度重复、传统上难以比对的区域进行系统性群体遗传学研究成为可能:

1. 节段重复区(SDs)是SNV富集与基因转换热点

Vollger et al.(2023)利用HPRC泛基因组发现:SDs中的SNV密度比非重复区高1.6倍,其中至少23%归因于基因间基因转换(Interlocus Gene Conversion, IGC)。不同于等位基因间的同源转换,IGC发生在不同基因座之间,可导致功能基因(如F8凝血因子、HBG1胎儿血红蛋白、C4B补体)的等位基因“横向传播”,既可能促进有利突变扩散(进化意义),也可能造成致病突变蔓延(疾病风险)。研究识别出800余个受IGC影响的蛋白编码基因,其中38个为进化上高度保守的“约束基因”(constrained genes),突变易致严重表型。

2. 近端着丝粒染色体短臂(acrocentric p-arms)是异源重组温床

Guarracino et al.(2023)通过泛基因组图谱发现:13、14、15、21、22号染色体的p-臂因富含rDNA阵列与伪同源区(PHRs),在减数分裂中易发生非同源染色体间的异源重组(heterologous recombination),直接导致罗伯逊易位(ROBs)——新生儿中发生率约1/800。泛基因组首次精准定位ROBs断点均位于PHRs,从机制上解释了这类常见染色体病的起源。

这些区域曾是临床基因组学的“禁区”,如今泛基因组正将其转化为新的致病机制与生物标志物发现源泉。


三、推动精准医学与人群特异性研究:以中国泛基因组(CPC)为例

HPRC泛基因组虽具开创性,但亚洲样本仅占13%,存在显著人群偏差。对此,中国泛基因组联盟(CPC)率先响应,基于58个核心样本(涵盖36个少数民族),构建了首个中国人群代表性泛基因组:

  • 新增189 Mb多态序列、1,367个重复蛋白编码基因。
  • 发现78,072个SVs,其中34,223个为全新变异。
  • 鉴定出与角质化、紫外线响应、DNA修复、免疫及寿命调控相关的新基因/等位基因,部分源于古菌水平基因转移。

尤为关键的是,CPC数据成功将558个ClinVar中列为“致病/可能致病/VUS”的变异重分类为“可能良性”——因其在东亚人群中频率过高(而既往公共数据库缺乏亚洲数据)。这直接避免了临床误诊,彰显泛基因组在人群特异性变异解读中的不可替代性:没有足够多样化的泛基因组,罕见病诊断与遗传咨询将长期受制于“欧洲中心主义”偏见。

参考文献

[1] Wang, B., Dang, N., Yang, X., Xu, S., & Ye, K. (2023). The human pangenome reference: the beginning of a new era for genomics. Science Bulletin, 68(14), 1484–1487.


Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

640.jpg

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2025年7月份,Sentieon已经在全球范围内为1860+用户提供服务,用户处理超过4980+PB数据量,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过1500篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。

目录
相关文章
|
3月前
|
存储 SQL 机器学习/深度学习
sentieon | 泛基因组分析流程详解
泛基因组:指的是一个物种所有个体中全部基因的集合。它不再依赖于单个参考基因组,而是承认没有任何一个个体能够拥有其物种的全部基因。
312 1
|
2月前
|
人工智能 缓存 供应链
森马如何用阿里云 AI 网关,轻松实现“AI+业务”高效落地
森马快速实现 AI 转型,通过阿里云 AI 网关(即 Higress 企业版)及注册配置中心 Nacos3.0 实现了多模型多 MCP server 统一接入统一管理统一配置,将存量服务一键转换为 MCP server,使 AI 与生产业务相结合,综合提效 30%。
315 27
|
4月前
|
机器学习/深度学习 算法 算法框架/工具
MINUN: 微控制器上的精确机器学习推理——论文阅读
MINUN是一个专为微控制器设计的高效机器学习推理框架,能精确解决TinyML中的三大挑战:数字表示参数化、位宽分配优化和内存碎片管理。它支持如Arduino和STM32等低功耗设备,显著减少内存占用,同时保持模型精度。
435 122
|
2月前
|
人工智能 JSON 文字识别
发票验真API:基于权威数据源与阿里云平台的发票验真代码解析
发票验真迈向智能化新阶段,融合OCR识别与权威查验平台,实现全票种自动化验真。一站式接口高效、安全、可溯,支持批量处理与高并发调用,显著提升效率、降低合规风险,助力企业构建智能财税风控体系。(238字)
|
2月前
|
人工智能 自然语言处理 搜索推荐
AI写作工具应用效能与治理策略研究报告
本报告聚焦AI写作工具在学术、商业、政务、创意四大场景的应用现状与适配逻辑,结合实测数据构建效率、质量、合规三维评估体系,剖析版权模糊、同质化等核心问题,提出法律、技术、行业协同治理路径,并预测认知智能、多模态创作等未来趋势,为产业健康发展提供参考。
|
2月前
|
供应链 数据可视化 Java
云端SaaS诊所管理系统(java源码),实现挂号、开方、收费、发药全流程管理
云诊所SaaS系统,集患者管理、预约挂号、电子处方、智能诊断、药房进销存、财务统计于一体,支持模板调用、库存预警、多支付方式,实现诊疗全流程数字化管理,提升基层医疗效率。
146 13
|
4月前
|
缓存 Docker 容器
优化Docker镜像大小的五个实用技巧
优化Docker镜像大小的五个实用技巧
413 98
|
小程序 JavaScript 数据库
微信小程序云开发数据库操作删除记录
微信小程序云开发数据库操作删除记录
316 0
|
机器学习/深度学习 人工智能 自然语言处理
从原理出发 - 提示词如何影响大模型的输出
在探索人工智能的深海中,提示词(Prompt)是引导大模型输出的灯塔。本文希望通过对自身所学所思进行总结,解析提示词如何塑造AI的响应,揭示其背后的机制。
1573 10
|
存储 人工智能 数据可视化
AI计算机视觉笔记二十一:PaddleOCR训练自定义数据集
在完成PaddleOCR环境搭建与测试后,本文档详细介绍如何训练自定义的车牌检测模型。首先,在`PaddleOCR`目录下创建`train_data`文件夹存放数据集,并下载并解压缩车牌数据集。接着,复制并修改配置文件`ch_det_mv3_db_v2.0.yml`以适应训练需求,包括设置模型存储目录、训练可视化选项及数据集路径。随后,下载预训练权重文件并放置于`pretrain_models`目录下,以便进行预测与训练。最后,通过指定命令行参数执行训练、断点续训、测试及导出推理模型等操作。
1491 3