kubernetes 运行AI任务实践 资料下载
分享嘉宾
徐晓舟 2015年加入阿里巴巴基础产品事业部-容器平台-容器服务高级开发工程师多年容器平台产品开发经验目前主要负责参与Kubernetes专有云与Kubernetes深度学习解决方案的研发工作
主题介绍
Kubernetes与深度学习介绍
阿里云的Kubernetes深度学习解决方.
Kubeflow实战系列:阿里云上小试TFJob
`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查看训练的历史记录。
K8S 安装及部署 Nginx 记录文档
K8S 部署文档记录
本文旨在对通过基于 Virtual Box 和 Vagrant 安装 CentOS虚拟机,在虚拟机中安装 K8S 集群并部署 Nginx 做一次记录,仅供参考。
K8S 部署文档记录
环境
虚拟机信息
安装基础环境
master
node1
更新 CentOS 主机名
IP 映射
K8S 安装前期准备
1.
开源工具GPU Sharing:支持Kubernetes集群细粒度
问题背景
全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被其他应用影响;对于深度学习模型训练的场景非常适合,但是如果对于模型开发和模型预测的场景就会比较浪费。