四、AI模型训练解决方案
1. 文件存储在飞天AI加速中的应用
1)需求背景
高性能并行计算的大规模商业化,使得传统文件系统正面临诸多挑战,如存储资源急剧增长、成本高、运维管理复杂度大、大规模存储系统的稳定性以及性能无法随规模进行线性扩展等。阿里云CPFS(Cloud Paralleled File System)应运而生,CPFS是一种并行文件系统。CPFS的数据存储在集群中的多个数据节点,多个客户端可以同时访问,为大型高性能计算机集群提供高IOPS、高吞吐、低时延的数据存储服务。
2)解决方案
在混合云场景中,可以通过自建Kubernetes服务,线下集群+云上弹性扩展阿里云GPU服务实例+飞天AI加速工具加速框架,并采用阿里云CPFS存储运行AI训练+AI推理作业的操作步骤。
飞天AI加速工具加速框架分为两个版本,一个用于加速AI训练,一个用于加速AI推理。飞天AI加速工具训练框架是阿里云推出的统一分布式加速框架,支持主流的训练框架。
方案优势:
∙ 自主选择:本方案使用了GPU云服务器,客户可以根据自己的需求选择相应的GPU云服务器实例类型。
∙ 高效的数据访问:并行文件系统CPFS作为共享存储,提供高带宽低延迟的数据访问服务。
∙ AI加速:飞天AI加速工具提升训练速度,提升推理性能。