《生命科学行业云上解决方案及最佳实践》——阿里云高性能计算生命科学行业解决方案——五大解决方案(上) https://developer.aliyun.com/article/1227237?groupCode=ecs
3 HPC+AI 的高性能容器方案
得益于容器化技术跨平台运行的特性,不少生命科学行业的应用也支持容器化部署,从而降低业务部署的复杂性。阿里云 E-HPC 发布了高性能容器应用 eStack,支持通过容器镜像部署集群计算任务。在支持 E-HPC 原有能力(如弹性伸缩、性能监控等)的基础上,高性能容器应用eStack 可为生命科学类应用提供更加高效和便捷的解决方案。
方案说明:高性能容器应用 eStack 支持以容器的方式部署和调度业务。针对生信类应用版本众多、依赖环境复杂,通过将应用打包成容器进行调度更为适合。例如,客户的生信应用工作流的逻辑顺序为 A、B、C,A 部分的业务基于 CentOS 6 和开源编译器构建,B 部分的业务基于CentOS 7 和商用编译器构建,C 部分业务又可能与 A、B 不同。在这种情况下,使用高性能容器应用 eStack 可以支持使用多种软件栈的生信应用运行在同一个平台。
方案特点:
高便捷性:eStack 提供多种操作系统和生信类应用的系统镜像(如 BWA,GATK 等),且支持 docker、singularity 等主流容器镜像,做到应用的开箱即用。
高兼容性:软件方面,eStack 支持 MPI、PBS、Slurm 调度以及 E-HPC 的自动伸缩;硬
件方面,eStack 支持 RoCE、IB 等高性能网络,GPU 等异构计算资源,CPFS、NAS 等
高性能存储。
4 生信行业应用大内存解决方案
在基因测序数据分析过程中,每个细胞的表达量数据高达数十万条读取 (reads),这种海量级的数据分析对内存容量提出了更高的要求。针对大内存容量需求的场景,阿里云与合作伙伴Memverge 联合推出了生信行业应用大内存解决方案。
5 生信行业应用高 IO 解决方案
在生物信息领域里有一个分支是组织学,该分支主要将基因检测设备检测出来的基因数据文件进行比对、分析、拼接和筛选等工作,在由此建立起来的测序与分析 pipeline 过程中,基因研究产生的数据快速增长且需永久保存,这就要求存储系统具有海量容量及高扩展性。另外,基因研究应用软件种类众多,部分计算任务对 IO 吞吐要求很高,需要在分析处理阶段保证并行执行应用程序的读写性能,这就需要存储系统能提供高吞吐能力,支持进行连续地并行读写。针对基因组织学应用对存储容量和性能的较高要求,阿里云与合作伙伴联科集团联合推出生信行业应用高 IO 解决方案。
方案说明:生信领域的应用绝大部分是以 Pipeline 方式出现的计算流程,包括基因分析类的组织学与病例分析类的影像学应用,主要特点如下:
1)基因分析以基因的比对、分析、质量筛选与拼接为主要工作,此类工作以单机内的单核或多核openmp 居多,主要采用 Java、Python、Perl、二进制程序等形式出现,且单个作业任务对 IO吞吐要求高,在多任务并行时,对 IO 的吞吐呈现倍数增长关系,计算则主要以 CPU 算力需求为主。
2)病理影像学及蛋白质研究分析类则是以大量的图片为基础的集群学习或图形图像识别为基础,以及通过三维建模将电镜影像进行 3D 合成等工作,其数据特点是大量图片文件的学习与合成,其计算力特点则是以 CPU 与 GPU 并重的模式。
我们提供的生信行业解决方案包含了高带宽、低延迟的 IO 解决方案,可以在基因比对或分析的计算过程中,避免 IO 出现严重瓶颈,加快计算速度。
适用场景:
基因的比对、分析、质量筛选与拼接等场景。
关于联智科技
联科集团(中国)有限公司成立于 2000 年,是亚太区首屈一指的高端 IT 解决方案及咨询服务提供商,以云计算、 高性能计算、人工智能和大数据等技术为基础,为客户解决海量数据处理、大规模计算等多种应用问题。联智科技(北京)有限公司成立于 2008 年,是集团在中国大陆的旗舰,专注高性能计算十余年,致力于将 HPC 这一利器赋能百行千业。公司获得国家高新技术企业认定,自主研发的高性能计算管理平台 CHESS 荣获「中国优秀软件产品」称号。经过多年 HPC 项目交付经验的积累,向上千家高等院校、科研机构、政府部门、企事业单位、军工单位等用户提供高性能计算行业解决方案。