阿里云携手华大基因推出极速、低成本、高精度的个人全基因组测序(WGS, Whole Genome Sequencing)云交付方案,只需要15分钟即可完成一个30X WGS的基因比对、排序、去重、变异检测全流程,相比经典流程可达120倍加速,比目前全球最快的FPGA/GPU方案仍能提速2-4倍。
[小科普:什么是全基因组测序?]
全基因组测序,不再依赖捕获试剂的差异,同时获得均一性较好的mtDNA,通过分析个体基因序列的突变机制,可为遗传病检测、肿瘤筛查等提供有力支撑,未来将在临床医学和基因诊断方面。一个人类全基因组有30亿碱基,一个30X的WGS测序数据量大约在100G。
此方案由华大基因自主测序仪、BGI Online混合云架构、阿里云容器服务ACK/AGS基因服务,以及赛乐基因GPU加速算法的深度融合而成。方案无缝衔接测序平台和基因云平台,全面支持包括MGISEQ系列测序仪在内的多种测序平台,可按需定制分析流程,交付灵活性极高。
这套端到端解决方案,相比同类产品,在计算速度、精准度、成本、易用性、与上游测序仪的整合度上具有极大优势,在2020年里,新的WGS交付方案将会助力基因科研与临床检测再上一个新台阶。
其具备以下特点:
- 极速、精准:经过实际测试,整套方案在15分钟内完成了 8组30X WGS 样本二级分析处理。在保证精度的前提下,实现15分钟对7200亿碱基拼装、排序、去重、变异检测,完成基因检测全流程120倍加速。且经过NA12878测试数据集与金标准VCF比较,二级分析的精度高于或等于BWA-0.7.17/GATK 4.1.3的数据产出,SNP 精度到达99.80%。
- 成本大幅优化:阿里云ACK/AGS提供云上PaaS加速能力AGS,以混合云方式协助华大基因完成自主测序仪大批量下机数据二级分析的近实时交付,理想情况下可降低二级分析计算成本1/2,缩短交付周期95%。
云时代的基因科技,全面优化
基因计算所面临的挑战不同于常规计算,中大型基因测序公司平均每日会产生 10TB 到 100TB 的下机数据,大数据生信分析平台需要具备 PB 级的数据处理能力:存储与压缩、清理及管理、低成本保存的能力;快速、安全的云端分发共享;大规模数据挖掘、按需调度和弹性扩容;基因数据的安全隐私保护等等。
阿里云与华大基因的联合方案如上图所示,海量下机数据过滤后通过专线上载到华大基因BGI Online平台,BGI Online是一款强大且安全的基因云平台,它具备全流程自动化、全球云端快速部署、覆盖全球网络数据交付的能力。随后,BGI Online调用阿里云的容器服务ACK、基因计算服务AGS 和对象存储服务 OSS 发起WGS任务,开始一系列的生信流程分析,如引入GPU加速比对,去重,单体变异检测等流程进行全基因组二级分析,并输出BAM/VCF数据到BGI Online平台,BGI Online完成三级分析,以及质量检测后,输出符合用户设定的定制化分析报告及数据。
方案在保证分析通量的同时满足灵活性需求,可根据不同平台和数据定制分析流程。为各大测序服务商、研究机构等提供更简单更高效的存储、自动化分析、数据传输、项目协作以及生物信息工具开发等方面的解决方案。
华大基因联合阿里云的整体技术架构为云原生容器混合云,实现云上云下资源一体,跨地域集群统一管理。凭借云端的自动伸缩特性,实现大规模弹性调度计算。在使用上,该方案用户无需关心基因数据处理过程中的计算资源、处理逻辑、数据缓存等细节,只需将下机数据(FASTQ文件)上传至OSS,以及授权Bucket给AGS服务,即可高效、快速完成整个数据分析流程,并将结果数据上传到用户期望的存储空间。
除了上述所提及的,极速、精准、简便等特点,华大基因与阿里云的联合方案,还成功解决了海量数据存储、迁移与传输、安全合规等行业痛点问题。详见AGS全基因组GPU加速服务, 基因工作流分析, AGS基因服务指南。
解码未知,丈量生命。科技的每一小步,都会成为人类前行的一大步。华大基因与阿里云愿携起手来,共同为基因事业贡献一份力量。