利用阿里云提供的弹性计算资源和存储服务,执行用户的模型训练代码,快速开始进行分布式训练。训练过程中,您可以控制如何分配计算资源(CPU, GPU),随时查看日志和监控训练状态,并将训练结果备份到存储服务中。
利用本文档描述的模型训练服务,您不仅可以从零开始训练一个模型,同样也可以在一个已有模型的基础(checkpoint)之上,使用新的数据继续训练(比如 fine tuning)。利用已创建的应用,可以不断通过更新配置的方式调整超参数,进行迭代训练。
准备工作
在运行模型训练任务之前,请确认以下工作已经完成:
[backcolor=transparent]注意:目前仅支持 HTTP 和 HTTPS 协议,不支持 SSH 协议。
[backcolor=transparent]注意:如果你选择的是支持 Python3 的框架,请在命令行中直接调用 python3,而不是 python。
[backcolor=transparent]注意:这里的训练日志指的是使用 TensorFlow API 输出的供 Tensorboard 读取的事件文件,以及保存了模型状态的 checkpoint 文件(使用 Tenforflow 进行分布式训练时,一般由担任 Chief 角色的 Worker 负责保存 checkpoint)。
[backcolor=transparent]注意:为了运行训练任务应用,一般会自动创建多个服务容器,分别运行不同的程序分支。比如 ps 容器一般用来运行参数服务器代码,worker 容器一般用来运行模型计算代码,tensorboard 容器用来运行 TensorBoard 训练监控。具体生成的服务/容器,可以单击 [backcolor=transparent]服务列表 或 [backcolor=transparent]容器列表 查看。)
[backcolor=transparent]注意:这里提到的标准输出/标准错误日志,请区别于上述 Tensorboard 事件文件和 checkpoint 文件。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。