目前,生命科学行业的发展开始进入快车道,人们对健康的追求加速整个行业的发展。与此同时,新型冠状病毒肺炎疫情更是极大推动了生命科学行业的发展速度。随着研究问题的复杂化和解决问题的紧迫性,基于 IDC(线下数据中心)的 IT 资源越来越难以满足行业发展的需求。IDC模式下,不仅资源扩容的周期长,而且资源种类相对较少、迭代较慢,资源配置方案难以满足多样性业务,尤其是部分新兴业务的计算需求,同时硬件资源的运维成本也比较高,因此越来越多的生命科学企业开始选择上云。
总体来说,生命科学企业的 IT 基础设施主要面临资源规模固定、建设周期长和硬件资源运维成本高三大问题,具体表现如下:
1 资源规模固定,无法满足业务增长和资源多样性需求
1 算力规模固定,影响业务增长速度
在进行蛋白质结构预测时,既有基于分子动力学和平面波等进行预测的方案,也有基于 AI for Science 的解决方案。前者是高性能计算 HPC 典型的应用场景,有 VASP、Gromacs 等成熟软件的解决方案,通过计算得到模拟结果。该方案中,模拟问题规模与计算资源数量成正比。
与此同时,业界也逐渐涌现出 AlphaFold2 等解决方案,通过利用 AI 技术建立蛋白质序列和结构的关系,不断学习已知序列和结构进而对蛋白质结构进行预测。在强大的算法与算力的支持下,DeepMind 将运算时间从数月缩短至数小时。随着网络模型参数规模的增加,对算力的要求也越来越高。
同样地,在虚拟化合物筛选时,药企通常需要对数百万级别的分子和蛋白结构做对接。每个配体分子都需要计算资源来获取对接分数,从而筛选出可用于实验验证活性的分子,面对海量的配体分子库,是需要庞大算力支撑分子和蛋白结构的对接工作。显然,单机的算力是很难胜任这样大规模的虚拟筛选任务,因此使用高性能计算 HPC 集群进行大规模虚拟筛选任务就至关重要。
企业在建设传统 IDC 之初,资源规模往往是明确规划的,因此整个集群的任务吞吐量是固定的。对于具有周期性的新药研发及测序业务来说,不同的研发周期和研发任务对资源的需求是不一样的,所以通常就会发生:在高峰期出现任务因等待资源而排队的现象,低谷期又出现资源闲置的问题,这就需要有弹性的计算资源来处理业务。
2 资源配置固定,无法满足资源多样性需求
对于基因测序典型的 WGS(人类全基因组测序)流程,由于涉及文库索引构建、reads 比对、排序、去重、BQSR 校正以及 Caller 等环节,方法多样、流程繁复,且不同步骤对应BWA、GATK 等不同的软件及参数,不同的生信软件可能又对应不同的并发能力及性能,不同的筛选任务对计算资源的多样性和规模都是不同的,不仅需要弹性的计算资源,还需要具有多样的实例配置。同样地,在药物研发流程中也面临同样问题,在靶点发现、化合物筛选和化合物合成等流程中,不同的计算模式、参数和软件,对计算资源的要求往往也是不同的。尤其随着 AI 的引入,对多资源的多样性配置提出更高的要求。
本地 IDC 机房的计算资源由于是前期规划好的,其资源的配置是限定的,则会导致传统测序方式经常以相同的资源去完成不同测序步骤的执行,无法灵活变配,导致了大量的计算资源浪费。所以,基因测序对计算资源的多样性,有着越来越迫切的需求。
3 存储容量固定,无法满足用户不断增长的存储需求
对于蛋白质结构研究来说,一般有 X 射线晶体学、核磁共振和冷冻电镜三种方法来测定蛋白质结构。以冷冻电镜为例,单个样本的电镜数据一般是 10TB 级别,企业本地的数据量都是 PB 级。
与此同时,生物信息科研数据包含大量的参考文库数据、样本数据及中间数据文件。其中,单个人类全基因组测序的全流程数据就达 1TB 大小,由于生信数据的周期性及特殊性,通常的生信企业本地数据的存储量都达到 PB 级别。
对于不断增长的存储规模,生信企业面对极大的线下存储设备运维和存储设备采购成本压力,如何能够获得高效、安全、稳定、高性价比及可持续的存储解决方案,也是生命科学企业面临的一大难题。
2 建设周期长,影响业务增长
1 交付周期长,无法满足用户即开即用的时效需求
传统 IDC 建设,一般需要经历有立项、招投标、采购和交付等流程,往往需要数月甚至长达一年的建设周期。在立项环节需要对后续业务规模进行评估、明确资源建设方案,这对于发展较快的业务来说,如此长时间的建设周期将成为发展较快的业务的瓶颈。
2 硬件资源选型迭代慢,无法满足用户不断升级的资源需求
在传统 IDC 建设中,企业往往很难快速地获取最新架构的硬件资源,而这些资源往往可以给业务带来可观的加速。例如,相较于 Volta 架构,A100 架构的单精训练最高可以提供 20 倍的加速,这对于借助 AI 技术来加速的蛋白质结构预测来说,是一个极大的助力。而对于 WGS 测序,基于 GPU 或 FPGA 的异构加速方案研发也存在着大量的选型及验证过程。在线下 IDC 建设中,不仅需要考虑 CPU/GPU/FPGA 等产品的发布时间,选择合适的硬件规格,还需要评估业务架构的发展,这将是生命科学各类企业在建设资源时面临的巨大挑战。
3 硬件资源运维成本高
线下 IDC 机房的运维工作也需要较大的人力投入。除了集群计算资源的管理、计算任务的调度、用户权限管理之外,计算资源本身的稳定性,尤其是硬件故障对业务进度将会产生严重影响。如果任务在计算过程中因宕机而终止,在没有 checkpoint 的情况下只能重新计算。此外,线下存储也需要考虑容灾,避免因硬件故障导致的数据丢失。所以,计算资源的管理、资源稳定性、数据容灾等工作都需要专门的运维团队来负责,无形中又增加了成本。
当前,因为传统 IDC 提供的基础设施存在资源限制、交付周期长、资源无弹性、硬件资源迭代升级慢、运维成本高等问题,越来越多的生命科学企业转向更具弹性、稳定、高性价比的云上高性能计算解决方案,以加快业务的创新发展。