开发者社区 > 阿里云最佳实践 > 视频 > 正文

弹性裸金属AI训练最佳实践

发布者:知云直播 2019-12-10 10:01:18 944
视频介绍

直播主题:

AI正在深度影响各行各业,本系列视频将讲解如何利用阿里云的GPU云服务,共享存储CPFS/NAS,容器服务Kubernetes版等产品搭建AI图片训练,语音训练,图片推理等场景的最佳实践,这里还提供了相应的demo程序,可以用于快速构建真正的生产环境。同时,阿里云还提供了飞天AI加速工具,用于加速训练和推理的过程。
本系列还提供了两个使用RAPIDS加速库加速深度学习和图像搜索任务的最佳实践。

场景描述

本方案适用于AI图片训练场景,尤其是对性能要求苛刻,业务交付紧迫的场景。例如自动驾驶的模型训练(图片)等AI模型训练的场景。本方案使用了SCC超级计算集群,采用弹性裸金属GPU服务器+并行文件系统CPFS+ RDMA网络+阿里云容器服务Kubernetes版+飞天AI加速训练工具,提供极致性能稳定的训练环境,保障业务能力。

解决问题

1、搭建AI图片训练基础环境。
2、使用CPFS存储训练数据
3、使用飞天AI加速训练工具加速训练
4、使用Arena一键提交作业

产品列表

  • 容器服务Kubernetes版
  • CPFS
  • SCC超级计算集群
  • 神龙GPU服务器

嘉宾介绍:

张敬海 阿里云解决方案架构师
2018年加入阿里云,之前在阿里云存储研发团队,负责并行文件存储CPFS的相关开发工作。目前专注于解决方案相关开发和支持工作,在服务AI客户方面有丰富的经验积累。