教程简介
耗时:55分钟
在本教程中,您将通过PAI提供的GBDT二分类v2训练与预测组件,实现流量数据的点击率预估,并通过二分类评估组件对预测结果进行评估。同时本教程还提供模型部署的方法,评估后的模型可以非常容易的部署成线上服务。
在教程示例的点击率预估模型中,对流量数据的处理思路如下:
- 首先使用标准化组件将数值型的特征进行标准化处理。
- 然后使用GBDT二分类v2组件对数据进行分类处理。
- 最后使用二分类评估组件v2对分类结果进行评估。
- 经过评估和调优后,我们还可以将标准化组件和GBDT二分类v2组件打包成一个复合模型,并部署成一个EAS的服务。
我能学到什么
- 训练预测相关模型的构建思路。
- 如何开通阿里云实时计算Flink版服务,并作为模型训练的资源。
- 如何使用阿里云机器学习PAI构建模型、训练模型、部署模型。
操作难度 | 中 |
所需时间 |
55分钟 |
使用的阿里云产品 |
|
所需费用 |
|
准备环境及资源
耗时:15分钟
开始教程前,请按以下步骤准备环境和资源:
- 访问阿里云免费试用。单击页面右上方的登录/注册按钮,并根据页面提示完成账号登录(已有阿里云账号)、账号注册(尚无阿里云账号)或实名认证(根据试用产品要求完成个人实名认证或企业实名认证)。
- 申请免费试用OSS,并创建Bucket。
- 领取对象存储OSS资源抵扣包。
进入OSS免费资源包申请页面,单击立即试用,在确认并了解相关信息后,根据页面提示申请试用。
【注意】:如果您的对象存储OSS资源抵扣包已使用完毕或无领取资格,开通Flink试用后,将正常收取费用,计费详情请参见OSS按量付费。 - 创建OSS Bucket。登录OSS控制台,在Bucket列表页面单击创建Bucket开始创建Bucket。本教程的核心配置参数如下,其他参数可保持默认值,详细创建步骤请参见创建有地域属性Bucket。
- 地域:选择有地域属性,华南1(深圳)地域。
- 其他参数:保持默认值即可。
- 申请免费试用SLB:领取传统型负载均衡CLB资源抵扣包。进入SLB免费资源包申请页面,单击立即试用,配置开通参数,根据页面提示申请试用。本教程的核心配置参数如下,其他参数可保持默认值。
- 地域和可用区:选择华南1(深圳)地域,可用区可按需配置。
- 其他参数:保持默认值即可。
- 开通VPC,并创建虚拟交换机。
- 登录VPC控制台,在顶部选择地域为华南1(深圳),单击创建专有网络开始创建VPC。操作详情请参见创建专有网络和交换机。
- 登录VPC控制台,在交换机页面的顶部选择地域为华南1(深圳),单击创建交换机开始创建交换机,操作详情请参见创建交换机。
- 申请免费试用Flink。进入Flink免费资源包申请页面,单击立即试用,配置开通参数,根据页面提示申请试用。
- 如果您第一次访问该服务,可能需要进行角色授权。请在弹出的授权请求页面,单击前往RAM进行授权后,单击同意授权,完成自动化角色授权。授权成功后,需返回立即试用页面。
- 在Flink开通页面,单击上方提示框中的领取免费的资源抵扣包,领取Flink资源抵扣包。
- 在Flink资源抵扣包页面,确认相关信息后,单击确认订单,根据页面提示完成领取。
- 领取完毕后,在Flink开通页面,刷新此页面后完成参数配置。
参数 |
说明 |
教程配置 |
付费模式 |
阿里云实时计算Flink版免费试用仅支持按量付费。 |
按量付费 |
地域 |
本教程不涉及上下游存储,所以可不与上下游存储保持一致。 |
华南1(深圳) |
可用区 |
本教程不涉及上下游存储,所以可不与上下游存储保持一致。 |
可用区E |
资源抵扣包 |
可用于抵扣中国内地公有云地域(目前仅支持上海,杭州,北京,深圳,张家口区域)按量付费模式用量,自购买资源包日起有效期三个月。领取资源包后,单击刷新按钮,即可更新此参数。 其中,本教程示例不适用于张家口地域。 |
5000CUH |
您需要领取负载均衡SLB和对象存储OSS资源抵扣包进行抵扣(即点击所给链接,单击对应产品卡片上的立即试用,在确认并了解相关信息后,根据页面提示申请试用),否则将会产生额外费用。 如果您的对象存储OSS或SLB资源抵扣包已使用完毕或无领取资格,开通Flink试用后,将正常收取费用,计费详情请参见SLB按量付费和OSS按量付费。 |
确认领取后,选中 |
|
SLB服务 |
SLB是通过浏览器访问Flink产品控制台的必要网络连接组件。在您开通阿里云实时计算Flink版服务后,会自动开通SLB服务,该SLB专用于阿里云实时计算Flink版服务。 |
选中 |
专有网络 |
选择您已创建的专有网络。如果您没有创建,请参见创建和管理专有网络进行创建。 |
选中您需要使用的VPC名称。 |
虚拟交换机 |
每个Flink作业的Task Manager和Job Manager实例都会占用一个IP,您需要至少选择1个虚拟交换机。 如果当前无可用虚拟交换机,请在当前地域当前可用区下进行创建,详情请参见创建和管理专有网络。 |
选中您需要使用的交换机名称。 |
工作空间名称 |
每个工作空间的计算资源隔离,开发控制台相互独立。 创建成功后不可修改。 |
flink-test |
OSS存储 |
OSS用于存储作业系统检查点、作业快照、日志和JAR包等信息。新建OSS存储的具体操作,请参见开通OSS服务。 不推荐对选择的Bucket开启非默认策略,例如多版本、合规保留等,可能会导致Flink作业异常。 |
选中您需要使用的OSS Bucket名称。 |
监控服务 |
如果您选中了监控服务(为您提供商业版Prometheus监控能力),则会正常进行收费,计费详情请参见ARMS按量计费。 |
不选中 |
- 开通PAI并申请免费试用PAI-EAS资源。
- 登录PAI控制台,在顶部选择地域为华南1(深圳),单击开通PAI并创建默认工作空间,开始开通操作,详情请参见开通PAI并创建默认工作空间。
- 登录并进入PAI免费试用页面后,在模型在线服务PAI-EAS卡片上单击立即试用。
【说明】:如果您此前已申请过试用PAI的抵扣包,此时界面会提示为已试用,您可以直接单击已试用按钮,进入PAI的控制台。 - 在模型在线服务PAI-EAS面板,勾选服务协议后,单击立即试用,进入免费开通页面。
下载示例数据并上传至OSS
耗时:5分钟
原始数据集来自于Criteo广告公司7天内的部分流量。需要注意的是,原始数据特别巨大,本教程所使用的数据在原始数据集的基础上进行了大幅度采样,因此预测及评估结果仅供演示作用。
- 单击以下下载链接,下载本实践所需的示例数据。
- 示例数据示例第一列为label值,1表示正样本,0表示负样本;接下来是13列数值型特征,其中可能有空值;然后是26列类别型特征。
- 登录OSS控制台,进入创建的Bucket空间中,单击上传文件,在弹出的页面中单击扫描文件,选择下载到本地的两个示例数据文件,单击上传文件。
- 当界面显示上传成功时,表明本教程需使用的示例数据已成功上传至OSS。
配置PAI工作空间
耗时:5分钟
- 登录PAI控制台,在左侧导航栏单击工作空间列表,进入工作空间列表页面后,单击自动创建的默认工作空间名称,进入工作空间详情页。
- 关联Flink为PAI工作空间的计算资源。
在工作空间详情页的右侧单击资源管理,在弹出的页面中选择Flink全托管资源页签,页面下方为您展示上述步骤中创建的Flink资源,您需要勾选对应的Flink资源,然后单击确认关联。
完成关联后,后续您即可以在PAI-Designer中使用Flink资源运行任务。 - 关联OSS为PAI空间默认存储。
在工作空间详情页的右侧的存储设置后单击设置,在弹出的页面中配置上述步骤中创建的OSS Bucket为默认PAI工作空间默认存储路径。
完成配置后,后续您在PAI-Designer即可将数据存储于对应的OSS Bucket中。
创建PAI-Designer工作流并建模
耗时:15分钟
- 进入PAI-Designer页面。
- 登录PAI控制台,在左侧导航栏单击可视化建模(Designer),在页面中单击进入Designer。
- 单击新建工作流>新建,在弹窗中配置工作流名称,完成后单击确定,新建一个Designer工作流。
- 单击进入工作流,进入Designer页面。
- 构建工作流。
- 在左侧组件列表中的搜索框中,搜索并拖入读CSV文件组件进画布中两次。分别用于读取本教程的示例数据,作为训练集和模型效果的评测集。
- 分别单击这两个读CSV文件组件节点,在右侧组件的参数配置中配置文件路径和Schema。两个组件节点的配置示例如下。
组件节点 |
组件配置 |
读csv文件-1 |
|
读csv文件-2 |
|
- 在左侧组件列表的搜索框中,搜索并拖入标准化批预测(拖入两次)、GBDT二分类V2、GBDT二分类预测V2以及二分类评估V2组件进入画布中。
- 连接组件节点间的输出桩与输入桩,将个组件连接成如下的流程。
- 配置工作流的资源与存储。
- 在工作流右侧,选择Alink算法默认执行资源类型为Flink。
- 选择工作流数据存储的路径为上述步骤中创建的OSS Bucket,用于保存中间数据及模型输出。
- 分别右键两个读CSV文件组件节点,选择执行该节点,开始读取CSV的数据,等待读取完成。
- 分别单击其他组件节点,在右侧的参数配置中配置以下核心参数,其他参数保持默认即可。
组件名 |
组件配置 |
标准化训练 |
字段设置: 特征列:选择所有数值列,包括:
nf01,nf02,nf03,nf04,nf05,nf06,nf07,nf08,nf09,nf10,nf11,nf12,nf13
|
标准化批预测 |
无需修改配置,保持默认即可。 |
GBDT二分类v2训练 |
|
GBDT二分类v2预测 |
无需修改配置,保持默认即可。 |
二分类评估V2 |
字段设置:
|
- 单击界面中的运行按钮,开始执行作业,等待作业运行完成。
- 在作业运行过程中,对于正在执行或执行完成的组件,邮件右键对应组件节点选择查看日志。
- 当所有组件都执行完成后,您可以右键二分类评估V2组件,单击可视化分析,查看评估指标。
部署模型为EAS服务
耗时:5分钟
如果对当前的实验的评估结果非常满意,您可以直接将实验中模型有选择的部署成一个EAS服务。
- 制作Pipeline模型。
- 单击页面顶部的制作Pipeline模型,在高亮的组件节点中选择需要部署的组件,然后单击下一步。
- 在弹框中选择模型存储的OSS路径,完成后单击下一步,此时您可以在弹窗中看到模型制作的运行状态等基本信息,耐心等待模型制作完成。
- 将模型部署至EAS。
- 当模型制作完成后,单击部署至EAS,跳转至模型部署页面。
- 配置以下核心部署参数。
参数 |
配置说明 |
服务名称 |
自定义一个服务部署名称。 |
资源配置选择 |
选择试用活动下领取的免费资源。 |
- 单击部署,页面跳转至EAS推理服务列表页面,您可以在此查看部署状态,当服务显示为运行中时,表明已经部署完成。
在线调试
耗时:5分钟
服务部署完成后可单击在线调试,在弹出的测试窗口中进行调试。
- 调试时可在调试请求参数的Body中配置与模型训练、预测数据一致的字段,并通过Key-Value的形式构造调试请求参数各个字段的取值。
- 本教程中,您可以将以下内容复制粘贴至调试参数Body中,然后单击发送请求,在右侧调试信息中可查看调试结果。
{"label":0,"nf01":4,"nf02":3,"nf03":null,"nf04":3,"nf05":14,"nf06":2,"nf07":4,"nf08":8,"nf09":8,"nf10":1,"nf11":1,"nf12":0,"nf13":2,"cf01":"05db9164","cf02":"73a46ff0","":"0128cf0a","cf04":"a9c1f26a","cf05":"25c83c98","cf06":"fbad5c96","cf07":"2f6a74d9","cf08":"0b153874","cf09":"a73ee510","cf10":"edd99521","cf11":"7e2c5c15","cf12":"43f4ba46","cf13":"91a1b611","cf14":"07d13a8f","cf15":"376a23f2","cf16":"bea98bfa","cf17":"e5ba7672","cf18":"da507f45","cf19":"21ddcdc9","cf20":"b1252a9d","cf21":"240c7f2b","cf22":"null","cf23":"32c7478e","cf24":"4c8e5aef","cf25":"ea9a246c","cf26":"9636866f"}
清理及后续
清理
申领的免费资源具有时长和容量限制,使用完请及时清理相关资源。如果未及时清理资源可能会导致服务终止或收取费用。完成教程后,您可以按照如下场景进行处理:
- 如果您需要继续使用,且免费资源已使用完或者已经超过免费试用周期(通常为3个月),请随时查看欠费金额,并在规定时间内充值结清欠费账单,否则无法继续正常使用。
- 如果您不需要继续使用,请及时清理测试数据和试用资源:
- 实时计算Flink版资源清理
登录实时计算控制台,单击目标工作空间操作列下的更多>释放资源,单击确定。应用实时监控服务ARMS(如果您开通时选中)和负载均衡SLB会随实时计算Flink版一起被释放。 - PAI-EAS资源清理
- 登录PAI控制台。
- 在页面左上方,选择服务的地域。
- 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击默认工作空间名称,进入对应工作空间内。
- 在工作空间页面的左侧导航栏选择模型部署>模型在线服务(EAS),进入PAI EAS模型在线服务页面。
- 在推理服务页签,单击目标服务操作列下的删除,删除模型服务。
后续
您还可以参考以上操作步骤,使用Flink计算资源构建新的Designer工作流进行模型训练和预测。
总结
常用知识点
问题1:设置工作流属性Alink算法默认执行资源类型为Flink后,是否还需要单独为每个组件设置使用的计算资源?(单选题)
- 否
- 是
正确答案是否,因为设置工作流属性后,即为每个组件设置了使用的计算资源,不需要再单独设置。