摘要:本文将从生命科学行业现状机器对算力的巨大需求开始,展示该行业目前在基础设施层面临的需求与痛点,解答为什么云上高性能计算将大大有助于生命科学企业的快速发展。
文 | 阿里云弹性高性能计算团队
生命科学行业正迎来发展的黄金时期。医学的发展和人们对健康的追求,正快速转换为生命科学整个产业链发展的新动能,高性能计算HPC在生命科学研究中扮演着十分重要的角色。同时,随着生命科学行业的快速发展,我们可以看到,行业的上云已经成为了势不可挡的趋势。
得益于云的弹性与便捷,一个行业对云计算的急切需求往往与其快速发展分不开,传统IT的备货、交付、部署的长流程决定了它无法满足快速生长的行业猛增的IT需求。
本文将从生命科学行业现状机器对算力的巨大需求开始,展示该行业目前在基础设施层面面临何种需求与痛点,解答为什么云上高性能计算将大大有助于生命科学企业的快速发展。
一、生命科学对算力的需求:规模大、高性能、类型丰富
目前,生命科学行业最主要的两个场景,分别是计算机辅助药物设计和基因测序。
1、计算机辅助药物研发
21世纪以来,由于疾病复杂程度的不断提升,可成药靶点逐渐减少,新药研发的难度和成本明显增加,同时全球新药研发成功率呈明显下降趋势。创新药物研发是药企构建核心竞争力和持续发展的关键,而药物研发是一项高投入、高技术、高风险、长周期的系统工程。药企开始寻求AI、大数据等计算机技术辅助药物研发。
药物研发全流程
新药的诞生通常需要经历药物发现、临床前研究、临床试验和审批等阶段后,最终才可以获批上市。在靶点发现、化合物合成等药物发现阶段,以及化合物筛选等临床前研究阶段,往往需要借助高性能计算强大的计算能力才能加速研发过程辅助药物设计。
在靶点发现环节进行蛋白质结构预测时,既有基于分子动力学和平面波等进行预测的方案,也有基于AI for Science的解决方案。
前者是高性能计算HPC典型的应用场景,有VASP、Gromacs等成熟软件的解决方案,通过计算得到模拟结果。该方案中,模拟问题规模与计算资源数量成正比。
与此同时,业界也逐渐涌现出AlphaFold2等解决方案,通过利用AI技术建立蛋白质序列和结构的关系,不断学习已知序列和结构进而对蛋白质结构进行预测。在强大的算法与算力的支持下,DeepMind将运算时间从数月缩短至数小时。随着网络模型参数规模的增加,对算力的要求也越来越高。
蛋白质三维结构AI预测
同样地,在虚拟化合物筛选时,药企通常需要对数百万级别的分子和蛋白结构做对接。每个配体分子都需要计算资源来获取对接分数,从而筛选出可用于实验验证活性的分子,面对海量的配体分子库,是需要庞大算力支撑分子和蛋白结构的对接工作。显然,单机的算力是很难胜任这样大规模的虚拟筛选任务,因此使用高性能计算HPC集群进行大规模虚拟筛选任务就至关重要。
先导化合物发现流程
在靶点发现、化合物筛选和化合物合成等流程中,不同的计算模式、参数和软件,对计算资源的要求往往也是不同的。尤其随着AI的引入,对多资源的多样性配置提出更高的要求。
2、基因测序
基因测序的业务流程主要包括样本上机(测序仪)、测序文件生成、基因序列比对及结果分析(计算机),并将结果数据及报告交付至各科研医疗机构。其中,基因序列比对及分析环节极为耗时,涉及大量的生信领域专业软件,计算资源的算力性能及方案优化对生信研发效率起着至关重要的作用。
基因测序业务流程
对于基因测序典型的WGS(人类全基因组测序)流程,由于涉及文库索引构建、reads比对、排序、去重、BQSR校正以及Caller等环节,方法多样、流程繁复,且不同步骤对应BWA、GATK等不同的软件及参数,不同的生信软件可能又对应不同的并发能力及性能,不同的筛选任务对计算资源的多样性和规模都是不同的,不仅需要弹性的计算资源,还需要具有多样的实例配置。
二代基因测序WGS测序流程
二、生命科学在基础设施层面临的痛点与挑战
原来大部分的生命科学企业都是采取自己在线下自建IDC机房的方式。总体来说,生命科学企业的IT基础设施主要面临资源规模固定、建设周期长和硬件资源运维成本高三大问题,具体表现如下:
1、资源固定,无法满足业务增长和资源多样性需求
1.1 算力规模固定,影响业务增长速度
企业在建设传统IDC之初,资源规模往往是明确规划的,因此整个集群的任务吞吐量是固定的。对于具有周期性的新药研发及测序业务来说,不同的研发周期和研发任务对资源的需求是不一样的,所以通常就会发生:在高峰期出现任务因等待资源而排队的现象,低谷期又出现资源闲置的问题,这就需要有弹性的计算资源来处理业务。
1.2 资源配置固定,无法满足资源多样性需求
本地IDC机房的计算资源由于是前期规划好的,其资源的配置是限定的,则会导致传统测序方式经常以相同的资源去完成不同测序步骤的执行,无法灵活变配,导致了大量的计算资源浪费。然而如前所述,其所需要的计算资源是灵活多边的。
1.3 存储容量固定,无法满足用户不断增长的存储需求
对于不断增长的存储规模,生信企业面对极大的线下存储设备运维和存储设备采购成本压力,如何能够获得高效、安全、稳定、高性价比及可持续的存储解决方案,也是生命科学企业面临的一大难题。
以蛋白质结构研究为例,一般有X射线晶体学、核磁共振和冷冻电镜三种方法来测定蛋白质结构。以冷冻电镜为例,单个样本的电镜数据一般是10TB级别,企业本地的数据量都是PB级。与此同时,生物信息科研数据包含大量的参考文库数据、样本数据及中间数据文件。其中,单个人类全基因组测序的全流程数据就达1TB大小,由于生信数据的周期性及特殊性,通常的生信企业本地数据的存储量都达到PB级别。
2 建设周期长,影响业务增长
2.1 交付周期长,无法满足用户即开即用的时效需求
传统IDC建设,一般需要经历有立项、招投标、采购和交付等流程,往往需要数月甚至长达一年的建设周期。在立项环节需要对后续业务规模进行评估、明确资源建设方案,这对于发展较快的业务来说,如此长时间的建设周期将成为发展较快的业务的瓶颈。
2.2 硬件资源选型迭代慢,无法满足用户不断升级的资源需求
在传统IDC建设中,企业往往很难快速地获取最新架构的硬件资源,而这些资源往往可以给业务带来可观的加速。
例如,相较于Volta架构,英伟达A100架构的单精训练最高可以提供20倍的加速,这对于借助AI技术来加速的蛋白质结构预测来说,是一个极大的助力。
而对于WGS测序,基于GPU或FPGA的异构加速方案研发也存在着大量的选型及验证过程。在线下IDC建设中,不仅需要考虑CPU/GPU/FPGA等产品的发布时间,选择合适的硬件规格,还需要评估业务架构的发展,这将是生命科学各类企业在建设资源时面临的巨大挑战。
3 运维成本高
线下IDC机房的运维工作也需要较大的人力投入。除了集群计算资源的管理、计算任务的调度、用户权限管理之外,计算资源本身的稳定性,尤其是硬件故障对业务进度将会产生严重影响。如果任务在计算过程中因宕机而终止,在没有checkpoint的情况下只能重新计算。此外,线下存储也需要考虑容灾,避免因硬件故障导致的数据丢失。所以,计算资源的管理、资源稳定性、数据容灾等工作都需要专门的运维团队来负责,无形中又增加了成本。
当前,因为传统IDC提供的基础设施存在资源限制、交付周期长、资源无弹性、硬件资源迭代升级慢、运维成本高等问题,越来越多的生命科学企业转向更具弹性、稳定、高性价比的云上高性能计算解决方案,以加快业务的创新发展。
三、阿里云EHPC生命科学系列解决方案
阿里云相信,云上高性能计算是目前HPC建设使用的最佳途径。针对生命科学行业的相关需求,阿里云依托遍布全球的计算力及领先行业的神龙架构,提供高性能计算公共云解决方案、混合云解决方案、大内存实例性能优化解决方案、容器化解决方案、制药AI解决方案等,可以覆盖解决行业不同场景需求,并拥有以下优势:
(1) 丰富算力,按需购买:阿里云在全球四大洲开服运营27个公共云地域、84个可用区;云上自动伸缩能力支持跨数据中心调度,满足大规模并行作业要求计算资源的类型也可根据调度器队列灵活配置支持多规格异构算力,以及大内存型、高主频等规格CPU实例;
(2) 弹性伸缩,降本增效:阿里云弹性高性能计算E-HPC平台可动态创建/删除计算节点,灵活配置伸缩策略,按实际负载弹性计费,抢占式实例价格最低至1折,降低客户使用成本,提高作业质量及速度;
(3) 极简运维,让企业专注核心业务发展:全面兼容HPC业务,自动搭建集群,提供作业运行性能分析,分别基于集群、实例、进程等维度定位热点,支持作业报表可视化输出,提供用户、任务、队列等维度的消费组成;
(4) 新技术赋能,快速享受红利:IaaS层,阿里云持续迭代最新算力,SaaS和PaaS有着上百家第三方合作伙伴集成阿里云,让生命科学企业快速获取相关技术服务。阿里云丰富的生态及云上持续迭代的技术能力,帮助企业享受到全流程的技术服务与最新技术红利。
阿里云高性能计算目前已经广泛应用于工业仿真(CAD/CAE)、芯片设计(EDA)、生物医药材料、能源勘探与公共服务等多个行业。
欢迎点击这里进入“阿里云生命科学最佳实践”专题页,了解更多方案与案例详细内容。
相关阅读: