开发者学堂课程【PAL 平台学习路线:机器学习入门到应用:使用 NAS 提交单击 PyTorch 迁移学习任务】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/855/detail/14239
使用 NAS 提交单击 PyTorch 迁移学习任务
内容介绍:
一、前提条件和使用限制
二、使用 NAS 提交单击 PyTorch 迁移学习任务步骤
一、前提条件和使用限制
使用 PAI-DLC 和 NAS,基于 PyTorch 进行离线迁移训练,在进行迁移学习任务时,有两个前提条件和一个使用限制
(1) 前提条件:
选择合适的地域,创建通用型 NAS 文件系统;
创建一个挂载 NAS 的 PAI-DSW 实例
(2) 使用限制:
本次操作仅支持 PAI-DLC 公共资源组的工作集群
二、使用 NAS 提交单击 PyTorch 迁移学习任务步骤
1.步骤一∶准备数据
(1)本文使用的数据已经存放在公开地址直接下载解压后即可使用
进入 PAI-DSW 开发环境,登录 PAI 的控制台,在左侧导航栏->模型开发和训练->交互式建模( DSW )
页面左上方,选择使用服务的地域
选择实例,打开 DSW 的环境
(2)PAI-DSW 开发环境->单击 Other 中的 Terminal,即可打开Terminal
(3)下载数据,单击页面左上方的文件夹图标创建文件夹
例如:命名为 pytorch_transfer_learning_;
在 Terminal 里面使用 cd pytorch_transfer_learning 命令进入到已经创建的这个文件夹下
进入到文件夹,通过
Wgethttps://pai-public-data.cos-cn-beijing.aliyuncm.com/hol-pytorch-transfer-cv/data,tar.gz
命令下载数据集
下载完成之后,使用tar -xf ./data.tar.gz 命令解压数据集
在左侧右键单击已经解压的数据文件,在快捷菜单中单击 rename 将该文件命名 input,便于后续的操作
2.步骤二∶准备训练代码和模型存储文件夹
(1)在同一个 PAI-DSW 实例内,将训练代码下载到 NAS 文件系统使用 Wget https://pai-public-data.cos-cn-beijing.aliyunc
m
.co
m
/hol-pytorch-transfer-cv/data,tar.g
z
命令下载训练代码
(2)在 pytorch_transfer_learning 文件夹下,创建名为 output 的文件夹,用于存储训练完成的模型
(3)查看 pytorch_transfer_learning 文件夹的内容
Input:包含了训练数据文件夹,
Output:存储了模型存储的文件夹
main.py:训练代码。
文件夹下包括 data.tar.gz文件,
3.步骤三∶新增数据配置
(1)进入 PAI-DLC Dashboard,
在左侧导航栏中找到模型开发和训练->云原生深度学习训练(DLC)->PAI-DLC 管理控制台找到类型为公共资源组的工作集群
单击操作类型为公共资源组工作集群列下的集群控制台
(2)进入到 DLC 训练界面,在左侧导航栏,单击“数据配置”
(3)在“数据集配置”页面,单击“新增数据集配置”
(4)在“新增数据集配置”页面,配置相应的参数
在对名称和 NAS 文件系统 id 进行复制时,后点击提交。
(5)单击提交
4.步骤四:创建任务
(1)进入 PAI-DLC Dashboard
在左侧导航栏中,模型开发和训练->云原生深度学习训练(DLC)->PAI-DLC 管理控制台找到类型为公共资源组的工作集群
单击操作公共资源组的工作集群列下的集群控制台
(2)进入到 DLC 训练界面,在左侧导航栏,点击任务列表->选择“新建”>“新建任务”
(3)在新建任务页面,配置相应参数
需要对任务名称,节点镜象,任务类型,数据集配置,以及执行命令和三方库配置进行参数信息填写;
在任务配资源配置下,选择节点配置为 GPU
(4)在配置完信息之后,单击提交
5.步骤五:查看任务详情和日志结果
(1)在 PAI-DLC Dashboard 左侧导航栏,单击任务列表
(2)在任务列表页面,单击任务的名称
(3)在任务详情页面,即可查看任务的基本信息及任务配置等信息
(4)在任务详情页面底部的实例区域,单击目标实例操作列下的日志,即可查看日志结果
日志的结果如下同所示: