阿里云架构师马继雨:云超算解决方案全面助力生命科学行业普惠增效

简介: 丰富算力、最优成本、极简运维、新技术赋能

摘要:本文整理自阿里云弹性计算产品解决方案架构师马继雨(芦笋),在阿里云「云计算情报局」的分享。本篇内容主要分为四个部分:

1.   生命科学行业综述

2.   生命科学行业分析

3.   云超算解决方案

4.   关键特性及方案优势


01 生命科学行业综述


幻灯.JPG


生命科学是研究生命现象、揭示生命活动规律和生命本质的科学。通常把服务于科学研究的企业所处的行业统称为科学服务行业,把服务于生命科学研究的企业所处的行业叫生命科学服务行业。生命科学技术是以分子遗传学为核心的先进科学技术。生命科学所要回答的首要问题就是“什么是生命”。


生命科学的主要领域是医药、生物、银行、基因等相关的一些领域。在市场中,息息相关的客户群体也主要是医院、研发、科研等。

幻灯片2.JPG


整个行业的产业链分为上、中、下三层。上游主要是设备的生产及软件研发,比赛默飞,华大都是较为有名的上游厂商;中游主要是以服务商为主;下游是医疗机构、科研场所、制药公司等服务。


由此可见,上游掌握着整个行业命脉。中游为面向终端用户的生命科学服务商为用户提供相应服务,从中收取服务费。下游则为服务使用者,其决定了中游服务细分赛道的市场容量、发展前景及业务模式特点。

幻灯片3.JPG


以基因检测技术为例,二代基因测序是当前下基因检测最热门技术。主要为从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性。


基因测序相关产品和技术已由实验室研究演变到临床使用,可以说基因测序技术是下一个改变世界的技术,与PCR和FISH技术相比,具有高通量、数据量大的特点。基因测序技术的缺点是操作复杂、对样本DNA浓度和纯度要求较高,且数据庞杂

幻灯片4.JPG


结合基因组学比较典型的业务,全基因组测序。人类基因组计划(HGP)历经13年,在2003年完成,使得整个基因测序领域发生了革命性的变化,随后很多政府资助的大规模测序计划也陆续启动,如1000基因组计划、10K计划等,极大推动了人类对基因变异、人类进化和基因疾病的研究及发现。


在计算机科学生信领域,基于GATK的全基因组测序流程则在现代基因测序中发挥着至关重要的作用


在典型的基因组测序业务中,涉及应用软件数量繁多,且使用方式各异,也存在大量的串行化软件,典型的全基因组测序流程,有两个主要特征。


第一,执行时间长,常规流程及通用计算资源,一个人类基因组样本需要近1000核时进行处理。第二,数据量大,单个样本平均能产生1TB的中间数据。


因此,结合集群调度器提升并发效率、结合异构方案加速执行性能、基于容器部署不同业务镜像、存储的冷热数据备份,都已成为计算机生信领域主要的分析课题。


02 生命科学行业分析



幻灯片5.JPG


传统超算方案,主要通过线下超算集群或者自建的机房对接。目前,主要面临三个问题。

1. 资源老化后维护困难。用户资源老化过保后,资源复用及维护,需要投入大量的人力、财力。


2. 业务的峰谷效应。因为资源有限,高峰期作业排队时间长,低谷期资源使用率低。


3. 已有集群无法满足新增业务及技术创新的需要,可扩展性不足,采购周期比较长。


随着基因组的不断演进,计算科技的不断发展,传统基因组测序已经无法满足现有的业务的发展诉求。

幻灯片6.JPG


对于传统的高性能计算业务流程,主要分为以下三个阶段,即业务前的处理,业务中的提交调度和执行,业务后的可视化分析。


如右上角,作业提交至调度器。调度器做线下机器的调度分发,根据作业运行配置和当前资源情况,调度适合的资源参与计算作业。

幻灯片7.JPG


传统行业的方案有以下几个特点,扩展性不佳、性能瓶颈,管理维护难,新技术挑战。其中,较为明显的是性能瓶颈,高峰算力不足,作业排队时间长,严重影响业务。


在管理维护方面,投入成本较大,软件统一管控、安全保障、建设运维一体化的方案不够。


03 云超算解决方案

image.gif


幻灯片8.JPG


阿里云高性能计算产品E-HPC主要是软件服务,通过高性能计算业务习惯与云计算优势相结合。大规模集群部署与推理,弹性的使用资源,工作流从前到后的保障,作业调度运行的管理,多客户的安全隔离,性能剖析与调优。


HPC作为基础设施,符合高性能计算业务场景与可靠性的要求。计算、存储、网络,图形可视化,满足了用户极致的性能诉求,低延时的网络通信,大规模推送的并行文件系统。


在线性扩容方面,阿里云高性能产品联合生命科学行业三十多款应用,提供轻量级使用便利。对于征信行业,兼容众多市场主流征信软件,提供生命科学统一门户。


阿里云在PaaS层提供集群算力、弹性伸缩、多级缓存、商业管理、资源生命周期的管理服务。底层是阿里云平台算力资源,神龙虚拟化技术,用户可以选择多种计算实例规格。

幻灯片9.JPG


高性能计算公共云解决方案,通过全量上云,在云上搭建E-HPC,提供资源调度、作业管理、弹性伸缩等能力。

幻灯片10.JPG

高性能计算混合云解决方案分为两种。第一种,调度节点在线下机房,资源不够时向线上扩容新节点。应用场景以本地建设为主,云上为满足突发业务需求。有利于快速满足突发需求,按需使用随时释放。


第二种,调度节点在E-HPC集群,同时管理线下已有计算节点。本地以有机房建设,但后续以云上建设为主。有利于利旧云下基础设施,逐步过渡。

幻灯片11.JPG


生命科学大计算解决方案的CPU内存提供1:2,1:4,1:8实例,同时提供高主频实例。上层是E-HPC的资源调度管控。

幻灯片12.JPG


在大内存实例性能优化解决方案中,E-HPC基于阿里云基础设施,为用户提供一站式公共云HPC服务,提供快捷、弹性、安全和与阿里云产品互通的技术计算云平台。HPC弹性伸缩,将MemVerge节点自动纳管,业务高峰扩容带有Memverge软件的ECS,低谷时释放,节省成本。


HPC作业调度带有MemVerge软件的大内存实例计算,在基因测序及EDA芯片设计场景,实现性能极致优化。


E-HPC+MemVerge软件+ECS i4p实例一键安装部署,在ECS上自动部署Memverge软件,解决每弹一台i4p部署一次Memverge软件的手动部署的繁琐低效问题。

幻灯片13.JPG


在制药AI解决方案中,有数据采集,清洗标注,模型训练,模型部署与推理五个环节。阿里云ECC1G-10G的网络专线,解决采集数据上云。OSS对象存储支持海量数据存储,数据分发/归档。NAS/CPFS井行文件存储提供高吞吐、低时延,高达百GB/s吞吐和百万IOPS,多种I/O模型,大文件小文件混合型workload。


04 关键特性及方案优势



幻灯片14.JPG


E-HPC的优势在于,快速创建云上的HPC集群。在云下,需要规划网络,软件初始化,账号处理。在云上,只需要半个小时,就能完成HPC集群的搭建。

image.gif幻灯片15.JPG


HPC应用的性能分析,采用逐层分析、优化的方法。基于系统及进程函数指令、微服务架构、HPC应用,阿里提供各个层级的优化分析。

幻灯片16.JPG


E-HPC自动伸缩支持跨数据中心,一个集群的计算资源可以在不同数据中心,满足大规模并行作业要求,计算资源的类型可根据HPC调度器队列灵活配置。

幻灯片17.JPG


在数据全流程可视化中,作业前通过web页面或者SSH,登录管控节点,进行操作。在作业运行中,可以通过性能分析、进程分析,做资源的监控和管理。在作业的最后,可以通过阿里云资源的云桌面,做可视化的数据处理分析。

幻灯片18.JPG


E-HPC的优势在于丰富算力,自动伸缩支持跨数据中心,满足大规模并行作业要求。支持多规格异构算力,以及大内存型、高主频等规格CPU实例。


在成本方面,E-HPC可以动态创建/删除计算节点,按实际负载弹性计费。灵活配置伸缩策略,支持抢占式实例,支持跨可用区伸缩,降低客户使用成本


在运维方面,E-HPC全面兼容HPC业务,自动多可用区集群搭建。提供作业运行性能分析,分别基于集群、实例、进程等维度定位热点。在新技术创新中,E-HPC提供生态SaaS、PaaS赋能,如GPU、FPGA、倚天等新产品的加持。


丰富算力、最优成本、极简运维、新技术赋能,E-HPC全方位为生命科学行业助力,真正实现普惠增效。


点击这里,观看嘉宾的演讲视频回放。


相关文章
|
11天前
|
人工智能 云计算 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。
阿里云引领智算集群网络架构的新一轮变革
|
4天前
|
传感器 算法 物联网
智能停车解决方案之停车场室内导航系统(二):核心技术与系统架构构建
随着城市化进程的加速,停车难问题日益凸显。本文深入剖析智能停车系统的关键技术,包括停车场电子地图编辑绘制、物联网与传感器技术、大数据与云计算的应用、定位技术及车辆导航路径规划,为读者提供全面的技术解决方案。系统架构分为应用层、业务层、数据层和运行环境,涵盖停车场室内导航、车位占用检测、动态更新、精准导航和路径规划等方面。
31 4
|
11天前
|
人工智能 运维 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日至10日,CCF ChinaNet(中国网络大会)在江苏张家港召开,众多院士、教授和技术领袖共聚一堂,探讨网络未来发展方向。阿里云研发副总裁蔡德忠发表主题演讲,展望智算技术发展趋势,提出智算网络架构变革的新思路,发布高通量以太网协议和ENode+超节点系统规划,引起广泛关注。阿里云HPN7.0引领智算以太网生态蓬勃发展,成为业界标杆。未来,X10规模的智算集群将面临新的挑战,Ethernet将成为主流方案,推动Scale up与Scale out的融合架构,提升整体系统性能。
|
17天前
|
运维 Serverless 数据处理
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
53 1
|
1月前
|
运维 Serverless 数据处理
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
57 3
|
2月前
|
Cloud Native Java 编译器
将基于x86架构平台的应用迁移到阿里云倚天实例云服务器参考
随着云计算技术的不断发展,云服务商们不断推出高性能、高可用的云服务器实例,以满足企业日益增长的计算需求。阿里云推出的倚天实例,凭借其基于ARM架构的倚天710处理器,提供了卓越的计算能力和能效比,特别适用于云原生、高性能计算等场景。然而,有的用户需要将传统基于x86平台的应用迁移到倚天实例上,本文将介绍如何将基于x86架构平台的应用迁移到阿里云倚天实例的服务器上,帮助开发者和企业用户顺利完成迁移工作,享受更高效、更经济的云服务。
将基于x86架构平台的应用迁移到阿里云倚天实例云服务器参考
|
2月前
|
缓存 Kubernetes Java
阿里云 SAE Web:百毫秒高弹性的实时事件中心的架构和挑战
SAE 事件中心通过智能诊断显示通知与用户连接起来,SAE WEB 百毫秒弹性实例给事件中心带来了新的实时性、海量数据和高吞吐的挑战,本篇将带您了解 SAE 整体事件中心的架构和挑战。
144 10
|
2月前
|
存储 监控 数据可视化
SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
【9月更文挑战第2天】SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
150 9
|
3月前
|
Serverless
解决方案评测|《Serverless高可用架构》获奖名单
解决方案评测|《Serverless高可用架构》获奖名单正式公布!!
155 1
|
3月前
|
数据挖掘 关系型数据库 MySQL
Serverless高可用架构的解决方案体验
Serverless高可用架构的解决方案体验
160 6