基于阿里云平台进行游戏数据分析(二)

简介: 在本项目中,我们将基于阿里云平台进行游戏数据分析。本文是这个项目介绍的第二部分,主要介绍绘制散点图,建立回归模型,检测变量之间的线性关系。

在对游戏数据完成了数据导入与预处理等环节以后,下面我们将基于这些数据绘制散点图,建立回归模型,检测变量之间的线性关系。

点击机器学习页面左侧的“实验”,然后点击页面下方的“新建实验”按钮,如下所示:在名称一栏输入“数据转换”,然后点击创建按钮,如下所示:
image.png
创建完实验后,拖入“源/目标”中的“读数据表”组件,如下所示:
image.png
点击“读数据表”组件,在右侧“表名”一栏中输入“pokemon”,并右键改表名:![image.png]
image.png
拖入“统计分析”下的“散点图”组件,将“读数据表”组件与“散点图”组件相连接,即构建了一个从读数据表到散点图的数据流,如下图所示:
image.png
单击散点图组件,在右侧属性栏中点击选择字段,选择base_total和capture_rate后点击确定
image.png
右键单击散点图组件,选择执行到此处;执行完成之后,节点右侧会出现绿色的勾,如下图所示:
image.png
此时可以右键点击组件,选择查看日志:
image.png
然后回到机器学习PAI页面,右键点击散点图,查看分析报告,如图:
image.png
弹出窗口的左上角,即是base_total和capture_rate的散点图(剩下三张图是base_tota和本身,capture_rate和本身,base_total和capture_rate的散点图)

一般情况下,可以通过观察散点图,发现自变量和因变量之间的关系模式,以便于后续决定使用哪种转换方法。

然后关闭散点图,拖入线性回归,预测,回归模型评估这三个组件,
【1】机器学习-回归-线性回归:用于建立因变量与多个自变量之间的线性关系
【2】机器学习-预测:用于模型预测
【3】机器学习-评估-回归模型评估:基于预测结果和原始结果,评价回归算法的优劣,
构建如下数据流:
image.png

在线性回归中,选择属性设置
字段设置-选择特征列:capture_rate
字段设置-选择标签列:base_total
image.png
参数设置:
image.png

在预测中进行属性设置
字段设置:特征列选择capture_rate,原样输出列选择择generation 和base_total
image.png
在回归模型评估进行属性设置
字段设置:原回归值选择base_total
image.png
右键点击回归模型评估组件,选择执行到此处
image.png
执行完成后,右击回归模型评估组件,选择“查看分析报告”,如下所示:
image.png
在弹出的窗口中可以看到,由于模型评估组件给出的是残差的直方图,不能用于
判断线性与否,所以之后我们将会单独生成一个残差图。

接着点击指标数据标签,可以看到对base_total和capture_rate线性回归出来的R2≈0.4438867655729208
image.png

关闭回归评估,拖入一个SQL脚本组件和一个散点图组件,工具-SQL脚本。
构建如下数据流:
image.png

将代码输入SQL脚本编辑器,然后点击“保存”按钮。右击“SQL脚本”,选择执行该节点,如下所示:
image.png

执行完成后,点击散点图组件,然后选择residual 和capture_rate 为特征列,如下所示:
image.png

右击散点图,选择“执行该节点”,执行完成后,右击散点图组件,然后选择“查看分析报告”,如下所示:
image.png

残差图中的点如果是随机分布,说明数据是线性的,否则是非线性。观察capture_rate的残差图,发现capture_rate的残差包含了斜向上的模式,说明base_total和capture_rate的线性关系不是很强。

目录
相关文章
|
5月前
|
SQL 存储 缓存
基于 StarRocks + Iceberg,TRM Labs 构建 PB 级数据分析平台实践
从 BigQuery 到开放数据湖,区块链情报公司 TRM Labs 的数据平台演进实践
|
9月前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
|
11月前
|
SQL 数据挖掘 Serverless
手把手进行数据分析,解锁游戏行为画像
本文介绍了一套利用阿里云E-MapReduce StarRocks版进行游戏玩家画像和行为分析的完整流程,旨在帮助开发者构建高性能、低成本的游戏数据分析平台。
429 11
|
SQL 存储 数据挖掘
快速入门:利用AnalyticDB构建实时数据分析平台
【10月更文挑战第22天】在大数据时代,实时数据分析成为了企业和开发者们关注的焦点。传统的数据仓库和分析工具往往无法满足实时性要求,而AnalyticDB(ADB)作为阿里巴巴推出的一款实时数据仓库服务,凭借其强大的实时处理能力和易用性,成为了众多企业的首选。作为一名数据分析师,我将在本文中分享如何快速入门AnalyticDB,帮助初学者在短时间内掌握使用AnalyticDB进行简单数据分析的能力。
541 2
|
Kubernetes 并行计算 数据挖掘
构建高可用的数据分析平台:Dask 集群管理与部署
【8月更文第29天】随着数据量的不断增长,传统的单机数据分析方法已无法满足大规模数据处理的需求。Dask 是一个灵活的并行计算库,它能够帮助开发者轻松地在多核 CPU 或分布式集群上运行 Python 代码。本文将详细介绍如何搭建和管理 Dask 集群,以确保数据分析流程的稳定性和可靠性。
1237 3
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
687 0
|
机器学习/深度学习 前端开发 数据挖掘
基于Python Django的房价数据分析平台,包括大屏和后台数据管理,有线性、向量机、梯度提升树、bp神经网络等模型
本文介绍了一个基于Python Django框架开发的房价数据分析平台,该平台集成了多种机器学习模型,包括线性回归、SVM、GBDT和BP神经网络,用于房价预测和市场分析,同时提供了前端大屏展示和后台数据管理功能。
383 9
|
自然语言处理 数据挖掘 BI
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
823 4
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
249 2

热门文章

最新文章

下一篇
oss云网关配置