Sentieon性价比高75%,倚天ECS在基因测序场景的实践

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器 ECS,u1 4核16GB 1个月
云服务器ECS,u1 2核4GB 1个月
简介: 基因组测序分析是生物信息学中常见的应用场景,具有重要意义。近期的新平台创新带来了大量数据,同时带来的是数据分析方面的挑战。基因组和外显子数据分析场景中,CPU在分析效率、资源可获得性以及弹性部署等多方便具备均衡的表现,相对于FPGA及GPU方案更具优势。在分析大量基因组数据时,倚天CPU展现了出色的性能和经济性。本文通过在阿里云E-HPC平台上使用Sentieon进行基因组测序分析实验,结果显示倚天实例相对于同规格的7代x86实例可实现高达75%的性价比优势,是客户降本增效的最佳选择。

基因组分析的背景

基因组测序分析是云超算中最常见的生物信息学应用场景,是大多数生命科学和医疗保健领域的重要组成部分,也是许多技术突破的关键。2022年对基因组学研究者来说是一个令人兴奋的年份,因为Illumina宣布将30X全基因组测序的成本降至每个基因组200美元,同时华大智造和其他平台也陆续推出了新的仪器。虽然这些平台为基因组数据生成提供了令人兴奋的新选择,但是由于平台特定的数据特性和大量生成的数据,它们也带来了数据分析方面的新挑战。

在分析大量基因组和外显子数据的高性能解决方案中,包括GPU和FPGA在内的异构硬件加速方案可以显著提高分析速度。然而,通用CPU的加速方案在分析效率、可及性和部署灵活度方面都表现得非常均衡,无论是快速周转需求(例如,在急诊科从单个患者基因组中预测不良药物反应)还是高吞吐量需求(例如,在肿瘤学实验室中分析来自不同患者的多个样本),都可以通过CPU得到满足。

基因组分析软件的选择

在基因组数据分析中,传统的流程GATK一直是评估变异位点准确性的标准。然而,由于它是用Java编写的,性能与速度并不出众。梅奥诊所和华大基因发表的多个文献表明,使用C++编写并针对现代向量CPU进行优化的Sentieon软件,在没有损失准确性的情况下速度明显优于GATK,越来越成为基因测序行业的主流选择。

类别

软件版本

基因检测软件

sentieon-genomics-202112.06

OS

Alinux3

多种计算实例在基因组分析场景的比较

生物信息学应用中,倚天CPU的性能表现如何?作为云计算芯片,其经济性如何?最佳性价比的运算资源应该如何配置?生信分析人员可能没有时间或经验在不同的计算平台上进行系统基准测试或计算分析成本。为了填补这些空白,本文将使用业界主流分析流程Sentieon DNAscope,通过在阿里云E-HPC平台上提供的最新ARM和x86实例上进行运行时间基准测试和云成本估算。

经过对多组WGS数据进行的基准测试和分析,发现各数据集都表现出了类似的运行时间和成本特征。为简化说明,本文将重点介绍使用Illumina NovaSeq系统测序的标准参考样本HG002的30x PCR-free建库测序数据集,并采用GRCh38作为参考基因组,包括GRCh38主要染色体和其他假染色体,但不包括ALT染色体或HLA基因。相比于上一代基因组GRCh37,GRCh38有显著改进,并已被人类遗传学界广泛采用。 在本次测试中,我们基于阿里云E-HPC平台同时向X86及ARM不同规格实例提交相同的WGS测序任务,以横向对比其性能及成本消耗。该基准测试流程以FASTQ文件作为输入,以VCF文件作为输出,其中包括比对、排序、去重、变异检测以及过滤等步骤。 通过测试,我们获得了如下的数据

CPU 实例 vCPU/Mem(GB) 运行时长 (mins)

实例按量价格

(元/小时)

计算成本

(一次计算多少元)

性价比
Intel c7.16xlarge 64/128 86.4 13.05 18.792 100%
c8i.16xlarge 64/128 59.7 13.7 13.6315 138%
AMD c7a.16xlarge 64/128 77.4 9.39 12.1131 155%
c8a.16xlarge 64/128 59.88 12.39 12.36522 152%
Ampere c6r.16xlarge 64/128 79.8 9.97 13.2601 142%
倚天 c8y.16xlarge 64/128 75.6 8.54 10.7604 175%

image.png

总结

从测试结果看,倚天实例与同规格的7代x86实例相比,性价比优势最高达到了75%,相对于8代x86实例最常用的c8i及c8a,性价比也分别有27%和15%的优势,是云超算基因组测序分析场景客户降本增效的最佳选择。

相关实践学习
ECS云服务器新手上路
本实验会自动创建一台ECS实例。首先,远程登陆ECS实例,并部署应用。然后,登陆管理控制台,并对这台ECS实例进行管理操作。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1天前
|
弹性计算 运维 安全
阿里云ecs使用体验
整了台服务器部署项目上线
|
2天前
|
弹性计算 缓存 安全
阿里云服务器ECS收费标准参考,2核4G配置ECS实例规格整理
阿里云提供多种2核4G ECS实例,如计算型c7、经济型e、u1等,价格不等,从68.0元/月到203.0元/月。ECS通用算力型u1实例采用高性能Intel处理器,网络收发包能力达30万PPS。经济型e实例基于Intel Xeon Platinum,适合入门级需求。2核4G服务器支持的并发访问人数依赖于软件效率、带宽、应用架构和用户行为等因素。更多信息请查看阿里云ECS产品页。
|
2天前
|
弹性计算
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
|
2天前
|
弹性计算
阿里云ECS使用体验
在申请高校学生免费体验阿里云ECS云服务器后的一些使用体验和感受。
|
3天前
|
弹性计算
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
|
3天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器租用费用_GPU服务器详解_A10、V100、T4、P4、P100
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等多种GPU卡,适合深度学习、科学计算等场景。实例性能强劲,单实例可达5PFLOPS混合精度计算,VPC网络支持2400万PPS和160Gbps内网带宽。GPU实例包括A10卡GN7i(3213.99元/月起)、V100-16G卡GN6v(3830.00元/月起)等,价格因配置而异。阿里云还提供GPU加速软件如AIACC-Training和AIACC-Inference,以及弹性计算实例EAIS。客户案例包括深势科技、流利说和小牛翻译等。
|
3天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU云服务器介绍_GPU租用费用_GPU优势和使用场景说明
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等GPU卡,结合高性能CPU,单实例计算性能高达5PFLOPS。支持多种实例规格,如A10卡GN7i、V100-16G卡GN6v等,应用于深度学习、科学计算等场景。GPU服务器租用费用因实例规格而异,如A10卡GN7i每月3213.99元起。阿里云还提供GPU加速软件如AIACC-Training、AIACC-Inference等。网络性能强大,VPC支持2400万PPS和160Gbps内网带宽。购买方式灵活,包括包年包月、按量付费等。客户案例包括深势科技、流利说和小牛翻译等。
|
3天前
|
弹性计算 安全 Shell
阿里云ECS安全加固:从访问控制到数据保护的全方位策略
【6月更文挑战第29天】阿里云ECS安全聚焦访问控制、系统加固及数据保护。安全组限定IP和端口访问,密钥对增强SSH登录安全;定期更新补丁,使用防病毒工具;数据备份与加密确保数据安全。多维度策略保障业务安全。
26 15
|
3天前
|
弹性计算
阿里云ECS使用体验
在申请高校学生免费体验阿里云ECS云服务器后的一些使用体验和感受。
|
3天前
|
弹性计算 安全 前端开发
阿里云服务器ECS通用型、计算型和内存型详细介绍和性能参数表
阿里云ECS实例有计算型(c)、通用型(g)和内存型(r)三种,主要区别在于CPU和内存比例。计算型CPU内存比1:2,如2核4G;通用型为1:4,如2核8G;内存型为1:8,如2核16G。随着技术迭代,有第五代至第八代产品,如c7、g5、r8a等。每代实例在CPU型号和主频上相同,但性能有所提升。实例性能参数包括网络带宽、收发包能力、连接数等。具体应用场景如计算型适合高网络包收发、通用型适合企业级应用,内存型适合内存数据库等。详细信息可参阅阿里云ECS页面。

相关产品

  • 云服务器 ECS