Sentieon性价比高75%,倚天ECS在基因测序场景的实践

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 基因组测序分析是生物信息学中常见的应用场景,具有重要意义。近期的新平台创新带来了大量数据,同时带来的是数据分析方面的挑战。基因组和外显子数据分析场景中,CPU在分析效率、资源可获得性以及弹性部署等多方便具备均衡的表现,相对于FPGA及GPU方案更具优势。在分析大量基因组数据时,倚天CPU展现了出色的性能和经济性。本文通过在阿里云E-HPC平台上使用Sentieon进行基因组测序分析实验,结果显示倚天实例相对于同规格的7代x86实例可实现高达75%的性价比优势,是客户降本增效的最佳选择。

基因组分析的背景

基因组测序分析是云超算中最常见的生物信息学应用场景,是大多数生命科学和医疗保健领域的重要组成部分,也是许多技术突破的关键。2022年对基因组学研究者来说是一个令人兴奋的年份,因为Illumina宣布将30X全基因组测序的成本降至每个基因组200美元,同时华大智造和其他平台也陆续推出了新的仪器。虽然这些平台为基因组数据生成提供了令人兴奋的新选择,但是由于平台特定的数据特性和大量生成的数据,它们也带来了数据分析方面的新挑战。

在分析大量基因组和外显子数据的高性能解决方案中,包括GPU和FPGA在内的异构硬件加速方案可以显著提高分析速度。然而,通用CPU的加速方案在分析效率、可及性和部署灵活度方面都表现得非常均衡,无论是快速周转需求(例如,在急诊科从单个患者基因组中预测不良药物反应)还是高吞吐量需求(例如,在肿瘤学实验室中分析来自不同患者的多个样本),都可以通过CPU得到满足。

基因组分析软件的选择

在基因组数据分析中,传统的流程GATK一直是评估变异位点准确性的标准。然而,由于它是用Java编写的,性能与速度并不出众。梅奥诊所和华大基因发表的多个文献表明,使用C++编写并针对现代向量CPU进行优化的Sentieon软件,在没有损失准确性的情况下速度明显优于GATK,越来越成为基因测序行业的主流选择。

类别

软件版本

基因检测软件

sentieon-genomics-202112.06

OS

Alinux3

多种计算实例在基因组分析场景的比较

生物信息学应用中,倚天CPU的性能表现如何?作为云计算芯片,其经济性如何?最佳性价比的运算资源应该如何配置?生信分析人员可能没有时间或经验在不同的计算平台上进行系统基准测试或计算分析成本。为了填补这些空白,本文将使用业界主流分析流程Sentieon DNAscope,通过在阿里云E-HPC平台上提供的最新ARM和x86实例上进行运行时间基准测试和云成本估算。

经过对多组WGS数据进行的基准测试和分析,发现各数据集都表现出了类似的运行时间和成本特征。为简化说明,本文将重点介绍使用Illumina NovaSeq系统测序的标准参考样本HG002的30x PCR-free建库测序数据集,并采用GRCh38作为参考基因组,包括GRCh38主要染色体和其他假染色体,但不包括ALT染色体或HLA基因。相比于上一代基因组GRCh37,GRCh38有显著改进,并已被人类遗传学界广泛采用。 在本次测试中,我们基于阿里云E-HPC平台同时向X86及ARM不同规格实例提交相同的WGS测序任务,以横向对比其性能及成本消耗。该基准测试流程以FASTQ文件作为输入,以VCF文件作为输出,其中包括比对、排序、去重、变异检测以及过滤等步骤。 通过测试,我们获得了如下的数据

CPU 实例 vCPU/Mem(GB) 运行时长 (mins)

实例按量价格

(元/小时)

计算成本

(一次计算多少元)

性价比
Intel c7.16xlarge 64/128 86.4 13.05 18.792 100%
c8i.16xlarge 64/128 59.7 13.7 13.6315 138%
AMD c7a.16xlarge 64/128 77.4 9.39 12.1131 155%
c8a.16xlarge 64/128 59.88 12.39 12.36522 152%
Ampere c6r.16xlarge 64/128 79.8 9.97 13.2601 142%
倚天 c8y.16xlarge 64/128 75.6 8.54 10.7604 175%

image.png

总结

从测试结果看,倚天实例与同规格的7代x86实例相比,性价比优势最高达到了75%,相对于8代x86实例最常用的c8i及c8a,性价比也分别有27%和15%的优势,是云超算基因组测序分析场景客户降本增效的最佳选择。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
26天前
|
弹性计算 前端开发 JavaScript
高校学生在家实践ECS弹性云服务器
简单谈谈我这几周使用ECS弹性云服务器的体验感
|
7天前
|
机器学习/深度学习 人工智能 弹性计算
什么是阿里云GPU云服务器?GPU服务器优势、使用和租赁费用整理
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等多种场景。作为亚太领先的云服务提供商,阿里云的GPU云服务器具备灵活的资源配置、高安全性和易用性,支持多种计费模式,帮助企业高效应对计算密集型任务。
|
7天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器全解析_GPU价格收费标准_GPU优势和使用说明
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等场景。作为亚太领先的云服务商,阿里云GPU云服务器具备高灵活性、易用性、容灾备份、安全性和成本效益,支持多种实例规格,满足不同业务需求。
|
16天前
|
人工智能 安全 Linux
|
20天前
|
存储 弹性计算 NoSQL
"从入门到实践,全方位解析云服务器ECS的秘密——手把手教你轻松驾驭阿里云的强大计算力!"
【10月更文挑战第23天】云服务器ECS(Elastic Compute Service)是阿里云提供的基础云计算服务,允许用户在云端租用和管理虚拟服务器。ECS具有弹性伸缩、按需付费、简单易用等特点,适用于网站托管、数据库部署、大数据分析等多种场景。本文介绍ECS的基本概念、使用场景及快速上手指南。
62 3
|
22天前
|
存储 安全 关系型数据库
Linux系统在服务器领域的应用与优势###
本文深入探讨了Linux操作系统在服务器领域的广泛应用及其显著优势。通过分析其开源性、安全性、稳定性和高效性,揭示了为何Linux成为众多企业和开发者的首选服务器操作系统。文章还列举了Linux在服务器管理、性能优化和社区支持等方面的具体优势,为读者提供了全面而深入的理解。 ###
|
24天前
|
弹性计算 前端开发 JavaScript
高校学生在家实践ECS弹性云服务器
简单谈谈我这几周使用ECS弹性云服务器的体验感
|
24天前
|
弹性计算 前端开发 JavaScript
高校学生在家实践ECS弹性云服务器
简单谈谈我这几周使用ECS弹性云服务器的体验感
|
27天前
|
弹性计算 前端开发 JavaScript
高校学生在家实践ECS弹性云服务器
简单谈谈我这几周使用ECS弹性云服务器的体验感
|
26天前
|
机器学习/深度学习 人工智能 边缘计算
高算力服务器的应用场景
【10月更文挑战第18天】高算力服务器作为现代信息社会不可或缺的计算资源,正广泛应用于各行各业。从人工智能到科学研究,从智能交通到数字孪生,它为复杂的计算任务提供了不可替代的支持。
30 0

相关产品

  • 云服务器 ECS