文件存储在飞天AI加速中的应用有没有比较好的实践案例?
高性能并行计算的大规模商业化,使得传统文件系统正面临诸多挑战,如存储资源急剧增长、成本高、运维管 理复杂度大、大规模存储系统的稳定性以及性能无法随规模进行线性扩展等。阿里云CPFS(Cloud Paralleled File System)应运而生,CPFS是一种并行文件系统。CPFS的数据存储在集群中的多个数据节点,多个客户端 可以同时访问,为大型高性能计算机集群提供高IOPS、高吞吐、低时延的数据存储服务。在混合云场景中,可以通过自建Kubernetes服务,线下集群+云上弹性扩展阿里云GPU服务实例+飞天AI加 速工具加速框架,并采用阿里云CPFS存储运行AI训练+AI推理作业的操作步骤。 飞天AI加速工具加速框架分为两个版本,一个用于加速AI训练,一个用于加速AI推理。飞天AI加速工具训练 框架是阿里云推出的统一分布式加速框架,支持主流的训练框架。( 1 ) 自主选择:本方案使用了GPU云服务器,客户可以根据自己的需求选择相应的GPU云服务器实例类型。 ( 2 ) 高效的数据访问:并行文件系统CPFS作为共享存储,提供高带宽低延迟的数据访问服务。 ( 3 ) AI加速:飞天AI加速工具提升训练速度,提升推理性能。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。