开发者学堂课程【场景实践 - 基于机器学习进行收入预测分析:阿里云 PAI 产品收入预测挖掘演示实验】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/526/detail/7092
阿里云 PAI 产品收入预测挖掘演示实验
内容介绍:
一、简介
二、操作
一、简介
此实验用到的阿里云产品模块如下
首先登录阿里云网站之后,点击右上角的控制台。进入到阿里云管理控制台界面,
选择大数据数加菜单。选择 date works 菜单。点击之后。右侧会显示出所拥有的项目,选择对应的项目进入到工作区。
试验主要用到阿里云产品的两大功能模块, dataworks 和机器学习。 dataworks 里面主要用到数据开发和运维中心。
在数据开发模块里,可以直接新建任务、新建脚本来数据加工处理。
在运维中心里面看到新建的脚本的情况,手动实例跑数的一些相关记录。
二、操作
机器学习功能模块主要的一些操作。
点击机器学习之后,在右侧选择对应的项目进入到机器学习。然后点击实验。可以新建实验。新建实验之后,可以看到左侧列出的相关的组件。
此次实验所用到的一些组件比如读数据表组件、写数据表组件。
读数据表组件是继续学习预测基于哪些组件完成。
写数据表是指最终预测出来的结果写到电脑里面。
然后还会用到过滤映射组件。过滤映射组件是指从上面拿过来的数据,想做怎样的过滤。比如数据里面需求类型比较多,金融行业、互联网行业、房地产行业。如果只想分析互联网行业的数据,把数据表里面对应的字段右边做相关的过滤,直接选择互联网行业的自动控制。
缺失值填充组件是指数据可能会出现空值,把空值给映射成平均值或者最小值。然后此次用到的主要的时间序列组件是 x13_auto_arima 组件。时序列、数值列、分组列字段设置里面这三列。
时序列是列来进行排序。数值列是指基于哪一列来进行预测。分组链就是把哪些数据加上组进行相关的预测。
分组列的话是可选的列。一般情况下,开始日期不改变。频率十二就表示一年12个月,如果四就表示今年四个季度,如果是七,就表示周的频率
这个地方一般就直接用12,因为是月数据。
pq 最大值、季节性最大值、差分 d 最大值/季节性差分 d 最大值、差分 d 和季节性差分 d 是主要调整的值。
其实 x 13_auto_arima 主要就是来调整这些相关的参数,来适应相关的预算输出。执行调优一般就不需要做调整。
x13_auto_arima 会有两个输出装,所说的预测结果表和详细信息表。
最终整个流程部署完之后,就可以运行各个流程,检查是否符合要求。