生命数字化时代来临:全基因组计算成本不到1美元

简介: 生命数字化时代来临:全基因组计算成本不到1美元

基因组序列分析是生命科学和医疗保健行业领域的重要组成部分,是众多技术突破的关键。随着生命数字化时代的来临,为了解决大数据带来的速度与费用问题,在云计算平台进行流程的分析及计算是目前较流行的方案。然而大部分用户通常直接采用了未优化的软硬件配置,导致样本分析成本过高。因此,如何在云平台上选择合适的硬件配置,从而平衡计算成本与分析速度,成为了值得探索的问题。



 


为此,Oracle甲骨文云发布了相应的评测文章,该测试项目使用了OCI提供的最新的 ARM 和 x86计算实例,利用OCI硬件资源分配与优化机制,搭配Sentieon软件进行了一系列的运算耗时和云成本估算的基准测试。旨在为用户实现全基因组二级分析的高效计算和低成本的最佳平衡。


在分析流程上,该项目选择了Sentieon DNAseq(v202112.01)流程作为软件方案。Sentieon DNAseq 作为行业金标准 BWA-GATK 的直接替代品,不仅能提供与 BWA-GATK 流程一致的分析结果,而且灵活性强,运行速度更比GATK 快 5-20 倍。


我们将在本篇文章中详细展示测试细节和深度分析,供生物大数据分析研究人员参考。


测试细节


测试环境


该项目测试工作使用了OCI提供的最新的AMD、ARM 和 Intel处理器。下表为各个云计算实例的配置情况。相比于其他云计算服务平台,OCI的优势之一是允许用户灵活指定所需的CPU线程数,内存数,存储以及输入/输出,从而达到与应用流程的最佳适配和最优的使用成本。



测试设置


测试的分析流程使用了与行业金标准的BWA-GATK 结果匹配的Sentieon DNAseq流程。该项目对七组 WGS 数据进行了基准测试和成本估算分析,测试结果发现所有数据集的运行时间和计算成本特征都表现相似。因此,测试结果的分析将重点关注其中的两个数据集,分别为 Illumina HiSeq X 和Illumina NovaSeq 系统测出的 30X HG002 数据(无 PCR 样本)。


在参考基因的选择方面,相比于GRCh37版本,GRCh38版本参考基因组可显著提升序列的完整性和准确度,已作为业界标准被广泛采用。因此该项目采用了 GRCh38 作为参考基因(包括primary contigs以及额外的decoy contigs,不含ALT contigs或者HLA基因);Benchmark分析流程以FASTQ 文件作为输入并生成 VCF 输出文件,流程步骤包括比对、排序、重复数据的删除、BQSR 及变异检测。


测试结果


测试项目依据不同的线程数,内存,以及存储资源的申请,创建了共计11个测试实例,具体配置以及计算成本的评估结果如下表所示。



说明:WGS 分析中涉及的其他操作,例如作业执行脚本的设置、输入数据的上传与输出数据的下载等,这些额外步骤所消耗的资源成本将分摊到各个测试实例上(表 2 中的评估数据不包含这部分的资源成本,也不包含生产云计算操作所需的其他资源成本,以及 Sentieon DNAseq 许可证成本)。另外这里额外增加了 0.0171 美元或 0.0457 美元,以对应 500-GB 或 1000-GB 存储系统的每小时资源成本。


测试结果显示,Sentieon DNAseq在OCI的大部分ARM实例上实现了30x WGS的整体分析成本低于1美元,最低在ARM-S实例上处理NovaSeq 30x WGS成本0.9美元。



资源分析


资源监控


OCI极佳的资源可调性确保了用户在配置全基因组以及其他分析流程时,可以找到速度与成本的最佳平衡点。同时OCI平台的控制面板也提供了资源监测工具,帮助用户确认所调用的运算资源是否匹配流程所需。如下图所展示的,是在VM.Standard.A1.Flex实例上运行全基因组分析时运算资源的表现。



我们知道在全基因组的二级分析流程中,比对和变异检测步骤主要依赖CPU的运算,而排序以及去重则是I/O需求较重的步骤。由测试结果可知,Sentieon DNAseq 流程工作时,在大部分时间段内的内存利用率均保持 90%左右,CPU 利用率近乎100% ,只有在排序和去重步骤时稍低;这一结果与我们的预期一致。而在 IO 密集的工作阶段,磁盘I/O峰值已达到了 240 MB/s 的硬件限制。由此说明,Sentieon DNAseq流程工作时可充分利用OCI平台提供的所有可用的硬件资源,实现最佳的运行效率。


CPU性能


Sentieon DNAseq 可以通过在多台服务器上利用更多的 vCPU并行运行,以进一步提高分析速度。此外,由结果可观察到尽管 ARM 处理器不支持超线程,但其仍可提供与 x86 相比具有竞争力的性能表现。


内存性能


为了准确地评估生产环境下测试机器的 I/O 能力,该测试项目中保留了 WGS 分析通常需要的所有关键输出文件,其中 NovaSeq 样本生成了大约 90 GB 的结果文件,而 HiSeq 生成了 120 GB 的结果文件。另外,测试发现,当磁盘容量(及相应的吞吐量性能)从 500 GB (240 MB/s) 增加到 1000 GB (480 MB/s) 时,程序 I/O 速度也有所提高。


可扩展性


将“通量”定义为每天能够处理的30x全基因组数据的个数,下图展示了不同实例的通量与所用线程的关系。其中 AMD-X shape 每天可以处理 32 个 30X 数据集,而 ARM-S shape 只能处理 10 个数据集。


同时,该图还展示了 Sentieon DNAseq 程序的可扩展性。由图可知,通量与所用线程成正比,表明 Sentieon DNAseq 扩展性优异,可最大程度地利用可用硬件资源。



结论


OCI 提供的最新 ARM 实例能够很好的处理全基因组测序 (WGS) 二级分析类型的计算密集型和I/O 密集型的 HPC任务。此外,凭借 ARM 强大的计算速度和及更低的成本优势,OCI 的 ARM 实例可为用户提供性价比最佳的解决方案, 30X WGS 数据样本的FASTQ-to-VCF 分析,计算成本不到 1 美元。


OCI平台可精确调节各项运算资源,可有效减少资源浪费,降低了用户的计算成本。

Sentieon DNAseq 实施的全基因组测序 (WGS) 二级分析流程与行业标准的 BWA-GATK 最佳实践流程结果相匹配,且运行速度提高了 5-20 倍。同时,Sentieon软件安装简单,开箱即用,并且提供了与ARM和x86指令集适配的版本。使30X WGS 数据样本在OCI 实例上的计算成本压缩到每个样本 1 美元以下,处理时间缩短到近一小时。

软件试用:Sentieon基因数据分析加速软件 -官方试用下载 (insvast.com)

目录
相关文章
|
前端开发 小程序 JavaScript
微信小程序-Unhandled promise rejection TypeError: Cannot read property ‘get‘ of undefined
微信小程序-Unhandled promise rejection TypeError: Cannot read property ‘get‘ of undefined
|
Android开发 iOS开发 C#
Xamarin:用C#打造跨平台移动应用的终极利器——从零开始构建你的第一个iOS与Android通用App,体验前所未有的高效与便捷开发之旅
【8月更文挑战第31天】Xamarin 是一个强大的框架,允许开发者使用单一的 C# 代码库构建高性能的原生移动应用,支持 iOS、Android 和 Windows 平台。作为微软的一部分,Xamarin 充分利用了 .NET 框架的强大功能,提供了丰富的 API 和工具集,简化了跨平台移动应用开发。本文通过一个简单的示例应用介绍了如何使用 Xamarin.Forms 快速创建跨平台应用,包括设置开发环境、定义用户界面和实现按钮点击事件处理逻辑。这个示例展示了 Xamarin.Forms 的基本功能,帮助开发者提高开发效率并实现一致的用户体验。
434 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
Tokenformer:基于参数标记化的高效可扩展Transformer架构
本文是对发表于arXiv的论文 "TOKENFORMER: RETHINKING TRANSFORMER SCALING WITH TOKENIZED MODEL PARAMETERS" 的深入解读与扩展分析。主要探讨了一种革新性的Transformer架构设计方案,该方案通过参数标记化实现了模型的高效扩展和计算优化。
571 0
|
存储 人工智能 弹性计算
通义万相AI绘画创作评测及图文搭建教程
【7月更文挑战第4天】阿里云的通义万相是AI绘画模型,结合ECS、OSS和API服务,提供无缝创作环境。用户上传图片至OSS,模型通过签名URL下载图片,然后生成AI艺术作品。模型服务具有高性能、易集成的特点,适用于多种场景如设计、广告等。用户可按指示在阿里云官网注册、充值、开通服务并部署。项目评测显示,其集成便捷、响应快、泛化能力强,但仍有改进空间,如增加图像控制选项和批量处理能力。相对于竞品,通义万相在成本、易用性和应用场景上有竞争力,值得推荐。
11589 9
|
Ubuntu 数据可视化 Linux
Ubuntu下载、安装QGIS软件的方法
Ubuntu下载、安装QGIS软件的方法
557 2
|
NoSQL 安全 Java
分布式锁实现原理与最佳实践
在单体的应用开发场景中涉及并发同步时,大家往往采用Synchronized(同步)或同一个JVM内Lock机制来解决多线程间的同步问题。而在分布式集群工作的开发场景中,就需要一种更加高级的锁机制来处理跨机器的进程之间的数据同步问题,这种跨机器的锁就是分布式锁。接下来本文将为大家分享分布式锁的最佳实践。
|
SQL 关系型数据库 MySQL
mysql密码错误-ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using passwor:yes)
这篇文章提供了解决MySQL数据库"Access denied for user 'root'@'localhost' (using password: YES)"错误的方法,通过跳过密码验证、修改root密码,然后重启服务来解决登录问题。
mysql密码错误-ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using passwor:yes)
|
数据采集 Web App开发 测试技术
使用Selenium调试Edge浏览器的常见问题与解决方案
在互联网数据采集领域,Selenium常用于自动化网页爬取。针对使用Edge浏览器时遇到的启动远程调试失败、访问受限及代理IP设置等问题,本文提供了解决方案。通过特定命令启动Edge的远程调试模式,并利用Python脚本配合Selenium库,可实现代理IP、User-Agent的设定及Cookie管理等高级功能,有效提升爬虫稳定性和隐蔽性。遵循步骤配置后,即可顺畅执行自动化测试任务。
2677 1
使用Selenium调试Edge浏览器的常见问题与解决方案
|
存储 算法 Shell
Sentieon | 应用教程:Sentieon分布模式
本文档描述了如何利用Sentieon®基因组学工具的分片能力将DNAseq®流程分布到多台服务器上;将其他流程(如TNseq®)进行分布遵循相同原则,因为所有Sentieon®基因组学工具都具有相同的内置分布式处理能力。这种分布的目标是为了减少流程的总运行时间,以更快地生成结果;然而,这种分布也会带来一些额外的开销,使计算成本增加。
199 2
|
监控 BI 数据安全/隐私保护
ERP系统中的成本核算与管理会计解析
【7月更文挑战第25天】 ERP系统中的成本核算与管理会计解析
969 4
下一篇
开通oss服务