基于阿里云平台进行游戏数据分析（二）-阿里云开发者社区

基于阿里云平台进行游戏数据分析（二）

2022-02-17 608

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在本项目中，我们将基于阿里云平台进行游戏数据分析。本文是这个项目介绍的第二部分，主要介绍绘制散点图，建立回归模型，检测变量之间的线性关系。

在对游戏数据完成了数据导入与预处理等环节以后，下面我们将基于这些数据绘制散点图，建立回归模型，检测变量之间的线性关系。

点击机器学习页面左侧的“实验”，然后点击页面下方的“新建实验”按钮，如下所示：在名称一栏输入“数据转换”，然后点击创建按钮，如下所示：

创建完实验后，拖入“源/目标”中的“读数据表”组件，如下所示：

点击“读数据表”组件，在右侧“表名”一栏中输入“pokemon”，并右键改表名：![image.png]

拖入“统计分析”下的“散点图”组件，将“读数据表”组件与“散点图”组件相连接，即构建了一个从读数据表到散点图的数据流，如下图所示：

单击散点图组件，在右侧属性栏中点击选择字段，选择base_total和capture_rate后点击确定

右键单击散点图组件，选择执行到此处；执行完成之后，节点右侧会出现绿色的勾，如下图所示：

此时可以右键点击组件，选择查看日志：

然后回到机器学习PAI页面，右键点击散点图，查看分析报告，如图：

弹出窗口的左上角，即是base_total和capture_rate的散点图（剩下三张图是base_tota和本身，capture_rate和本身，base_total和capture_rate的散点图）

一般情况下，可以通过观察散点图，发现自变量和因变量之间的关系模式，以便于后续决定使用哪种转换方法。

然后关闭散点图，拖入线性回归，预测，回归模型评估这三个组件，
【1】机器学习-回归-线性回归：用于建立因变量与多个自变量之间的线性关系
【2】机器学习-预测：用于模型预测
【3】机器学习-评估-回归模型评估：基于预测结果和原始结果，评价回归算法的优劣，
构建如下数据流：

在线性回归中，选择属性设置
字段设置-选择特征列：capture_rate
字段设置-选择标签列：base_total

参数设置：

在预测中进行属性设置
字段设置：特征列选择capture_rate，原样输出列选择择generation 和base_total

在回归模型评估进行属性设置
字段设置：原回归值选择base_total

右键点击回归模型评估组件，选择执行到此处

执行完成后，右击回归模型评估组件，选择“查看分析报告”，如下所示：

在弹出的窗口中可以看到，由于模型评估组件给出的是残差的直方图，不能用于
判断线性与否，所以之后我们将会单独生成一个残差图。