开发者学堂课程【PAL 平台学习路线:机器学习入门到应用:如何在 PAI-EAS 定时自动部署模型服务】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/855/detail/14241
如何在 PAI-EAS 定时自动部署模型服务
内容介绍
一、前提条件
二、在 PAI-EAS 定时自动部署模型服务的步骤
一、前提条件
前提条件:
1.购买 DataWorks 独享调度资源组
2.购买 PAI 服务
3.完成实验的定时训练,并将模型保存至固定地址
4.如果 RAM 用户进行定时自动模型部署,则需要对其赋予 DataWorks 相关权限及 PAI-EAS 模型部署权限
二、在 PAI-EAS 定时自动部署模型服务的步骤
1.步骤一:创建独享调度资源组
登录 DataWorks 控制台,在左侧导航栏中,单击资源组列表
独享资源组机页单击创建调度资源组
在创建调度资源组面板中配置相应参数,单击确定。
资源组名称:eas_video
资源组备注:test
2.步骤二:绑定归属的工作空间
独享调度资源组需要绑定归属的工作空间,才可以在对应的工作空间下选择该资源组。
首先需要在独享资源页签单击相应的资源组后的修改归属工作空间
在修改归属工作空间对话框分配工作空间的区域,选中的是 es_video_demo 单击目标的空间操作下的绑定,已经进行了关联步骤。
3.步骤三是创建工作流
登录 DataWorks 控制台,在左侧导航栏中单击工作空间列表。
选择需要的工作空间,以 es_video_demo 为例,在右侧操作列下进入数据开发页面
选择第4个图标->业务流程
输入业务名称:es_video_demo
在业务流程页面拖拽通用里的 Shall 节点至右侧画布
节点名称是部署节点
4.步骤四:部署初始模型
定时自动部署在初始模型的服务基础上增加模型服务的版本,作为线上运行服务,在定时自动部署之前需要先部署初始模型,如果已经存在初始模型服务,则直接执行步骤五。
由于选的 PAI-tor 深入学习模型,公共资源组内没有相应的 GPU 资源,因此需要点击新建资源组。申请带有 GPU 资源的相应的节点进行部署
已经选中相应的资源组,GPU 配置是1卡,GPU(Core)是4
申请完专属资源组后,需将相应的 CPU,GPU 以及 resource 字段填入 metadata 内,从而进行脚本执行。
c
at
<<
EOF > echo. Json
{
"name"": "pytorch_nodel_13",
"generate
_
token"" : "true".
"model_path"":
"oss://eas-model
-
shanghai/blade/bbs_v2.0/pt_resnet50_v1.5.pt",
"processor"": "pytorch_gpu_1.6",
"metadata":
{
"instance": 1,
" cpu": 4,
“gpu": 1,
"cuda": "10.0",
"memory" : 200
0
,
resource"": "eas-r-ij9g2xb4yw59v1bwpf"
}
}EOF
-i
LTAI4G4D7qJN5Qr1q4
M
N6d4
v
-k UUEtGMfVoEU7
RXraGMNjxKYJEBEePw -e pai.cn-Shanghai.aliyuns.com
create
显示任务已经完成
模型部署在线服务界面,看到 pytorch _nodel_13 的服务模型的状态是正在运行。
5.步骤五:编辑定时自动部署脚本
Json 部分数据无需改变,只需改变下面两行执行的脚本,
将 create 改为 model,是执行模型进行更新部署。每执行一次定时部署的调度,系统就会在原型的服务基础上增加一个模型服务版本,作为最新的线上运行服务。如果测试服务发生了异常,则可以使用下述的命令进行模型回滚服务。
-i
LTAI4G4D7qJN5Qr1q4
M
N6d4
v
-k UUEtGMfVoEU7
RXraGMNjxKYJEBEePw
-e pai.cn-Shanghai.aliyuns.com modify
PAI EAS 服模型在线务界面,看到 pytorch _nodel_13的服务模型的当前版本是 V2,模型状态时是正在运行仍是等待中,需要等待一段时间。
等待一段时间后,目前的模型状态显示运行中,说明模型更新版本已经完成。
6.步骤六:执行定时调度
分为三步骤
(1) 执行调度任务,在 Shall 节点页面单击页面右侧的调度配置
调度配置页面中找时间属性区域,选择调度周期:日;
在调度依赖区域单击依赖的上源节点:使用工作空间根节点
配置依赖关系:详细可以参见配置调用依赖的文档,点击 shall 节点页面上方的保存图标,保存配置。
单击 shall 节点页面上方的上传图标提交调度任务。跳出提交新版本框,点击确认。
查看定时调度的运行实例
在 shall 节点页面单击右上方的运维中心,在运维中心页面->周期任务运维->周期实例
在实例详情页面可以查看模型自动部署的定时时间
选择操作列下的更多查看每次模型自动部署运行日志
(3)查看历史部署的模型服务
登录 PAI 控制台,在左侧导航栏中选择EAS模型部署->模型在线服务(EAS)
PAI 控制台平台页面的左上方选择相应的地域。
选择的是华东,上海
在 PAI 模型在线服务 (EAS )页面,从当前版本列下的列表,查看模型服务自动更新的所有历史版本,看到 pytorch _nodel_13 已经迭代过三次,当前版本是V3。