暂无个人介绍
## 介绍 本系列将介绍如何在阿里云容器服务上运行[Kubeflow](https://github.com/kubeflow/kubeflow), 本文介绍如何使用`TfJob`运行模型训练。 ## TFJob简介 模型训练是机器学习最主要的实践场景,尤其以使用机器学习框架TensorFlow进行模型训练最为流行,但是随着机器学习的平台由单机变成集群,这个问题变得复杂了。GPU
![tensorboard-2.jpg](http://ata2-img.cn-hangzhou.img-pub.aliyun-inc.com/1531f899c7f5fae432b43746500f4c24.jpg) ## 简介 Jupyter notebook是强大的数据分析工具,它能够帮助快速开发并且实现机器学习代码的共享,是数据科学团队用来做数据实验和组内合作的利器,也是机器学习初
Kubernetes引入的Devic Plugin,通过扩展机制实现支持GPU、FPGA、高性能 NIC、InfiniBand等各种设备的集成,而Device Manager正是Kubelet内负责Device Plugin交互和设备生命周期管理的模块,在[了解其基本设计](https://yq.aliyun.com/articles/498185)后,我们需要通过对Device Manager的