基于阿里云平台进行游戏数据分析(三)

简介: 在本项目中,我们将基于阿里云平台进行游戏数据分析。本文是这个项目介绍的第三部分,主要介绍对游戏数据进行相关性分析和对比分析,并得出结论。

在对游戏数据完成了数据导入与预处理、绘制散点图,建立回归模型,检测变量之间的线性关系等环节以后,下面我们将对这些数据进行相关性分析和对比分析,并得出结论。

首先,在阿里云平台的操作界面中点击Dataworks在工作空间下的“进入数据开发”, 在DataWorks页面左侧的工具栏中点击“临时查询”,然后选择新建“ODPS SQL”,输入节点名称为“相关性分析”,选择目标文件夹为临时查询,点击提交,提交之后,在脚本文件中输入如下建表语句,点击“运行”按钮:
DROP TABLE IF EXISTS pokemon;
CREATE TABLE IF NOT EXISTS pokemon (
attack BIGINT ,
base_egg_steps DOUBLE ,
base_happiness DOUBLE ,
base_total DOUBLE ,
capture_rate DOUBLE ,
defense DOUBLE ,
experience_growth DOUBLE ,
height_m DOUBLE ,
hp DOUBLE ,
percentage_male DOUBLE ,
pokedex_number DOUBLE ,
sp_attack DOUBLE ,
sp_defense DOUBLE ,
weight_kg DOUBLE ,
generation DOUBLE );
image.png

然后运行这些SQL语句,如果出现log-END-EOF 说明运行成功。点击页面左侧的“表管理”,刷新后能看到创建好的pokemon表。
image.png

下一步,在临时查询“相关性分析”中输入下列代码:
create table pokemon1 (
generation string,
capture_rate string,
base_total double );

然后我们选中这些SQL语句后点击运行按钮,如下图所示:
image.png

然后我们分别导入这些表格的数据。导入成功以后,我们点击机器学习页面左侧的实验按钮,然后点击下方的新建实验,在名称一栏输入“对比分析”, 在左侧点击“数据源”, 绘制相关矩阵图,实验流程如下所示:
image.png

然后我们右键点击“相关系数矩阵”,选择“查看分析报告”,报告如下所示:
image.png

一般来说,取绝对值后,相关系数在(0,0.09)范围内为没有相关性,(0.1,0.3)范围内为弱相关,(0.3,0.5)范围内为中等相关,(0.5,1.0)范围内为强相关。

在这张图中我们关注base_total所在的一行:各个变量与base_total之间的相关系数。如果与产量(base_total)的相关系数超过0.3,即可认为其对于产量的贡献是显著的。本次试验中。大部分变量对于base_total 的相关系数都大于0.3。因此,可以认为所有变量对产量的影响是显著的。

目录
相关文章
|
20天前
|
SQL 存储 数据挖掘
快速入门:利用AnalyticDB构建实时数据分析平台
【10月更文挑战第22天】在大数据时代,实时数据分析成为了企业和开发者们关注的焦点。传统的数据仓库和分析工具往往无法满足实时性要求,而AnalyticDB(ADB)作为阿里巴巴推出的一款实时数据仓库服务,凭借其强大的实时处理能力和易用性,成为了众多企业的首选。作为一名数据分析师,我将在本文中分享如何快速入门AnalyticDB,帮助初学者在短时间内掌握使用AnalyticDB进行简单数据分析的能力。
32 2
|
1月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
155 0
|
3月前
|
Kubernetes 并行计算 数据挖掘
构建高可用的数据分析平台:Dask 集群管理与部署
【8月更文第29天】随着数据量的不断增长,传统的单机数据分析方法已无法满足大规模数据处理的需求。Dask 是一个灵活的并行计算库,它能够帮助开发者轻松地在多核 CPU 或分布式集群上运行 Python 代码。本文将详细介绍如何搭建和管理 Dask 集群,以确保数据分析流程的稳定性和可靠性。
232 3
|
3月前
|
自然语言处理 数据挖掘 BI
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
|
3月前
|
机器学习/深度学习 前端开发 数据挖掘
基于Python Django的房价数据分析平台,包括大屏和后台数据管理,有线性、向量机、梯度提升树、bp神经网络等模型
本文介绍了一个基于Python Django框架开发的房价数据分析平台,该平台集成了多种机器学习模型,包括线性回归、SVM、GBDT和BP神经网络,用于房价预测和市场分析,同时提供了前端大屏展示和后台数据管理功能。
100 9
|
4月前
|
存储 数据挖掘 OLAP
阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析
阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章对阿里云EMR Serverless StarRocks OLAP 数据分析场景进行解析、存算分离架构升级以及 Trino 兼容,无缝替换介绍。
19196 12
|
4月前
|
存储 Java 数据挖掘
构建基于Spring Boot的数据分析平台
构建基于Spring Boot的数据分析平台
|
4月前
|
运维 数据挖掘 Serverless
深度解析阿里云EMR Serverless StarRocks在OLAP数据分析中的应用场景
阿里云EMR Serverless StarRocks作为一款高性能、全场景覆盖、全托管免运维的OLAP分析引擎,在企业数据分析领域展现出了强大的竞争力和广泛的应用前景。通过其卓越的技术特点、丰富的应用场景以及完善的生态体系支持,EMR Serverless StarRocks正逐步成为企业数字化转型和智能化升级的重要推手。未来随着技术的不断进步和应用场景的不断拓展我们有理由相信EMR Serverless StarRocks将在更多领域发挥重要作用为企业创造更大的价值。
|
4月前
|
存储 NoSQL Java
使用Java实现高效的数据分析平台
使用Java实现高效的数据分析平台
|
4月前
|
存储 数据采集 数据挖掘
Java中的高效数据分析与处理平台设计
Java中的高效数据分析与处理平台设计