基于阿里云平台进行游戏数据分析(一)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 在本项目中,我们将基于阿里云平台进行游戏数据分析。本文是这个项目介绍的第一部分,主要介绍项目的背景,数据导入与预处理等环节。

最近,我们基于阿里云大数据平台进行了游戏数据的分析。项目利用精灵宝可梦数据,进行数据转换,然后分析水属性宝可梦的总数(base_total)X与捕捉几率(capture_rate)Y的关系。项目利用的平台是阿里云大数据平台Maxcompute、 DataWorks及机器学习PAI平台。

一、项目环境配置
进入阿里云平台,创建工作空间,选择使用Maxcompute和PAI Studio
image.png

然后填写实例名称,创建工作空间。最后检查是否已经开通两个引擎,否则需要在引擎配置里重新添加。
image.png

二、导入数据
查看数据文件,其中包含以下变量:
基础攻击属性、宝可梦孵化阶段、活跃指数、基本总数、捕捉几率、基础防御属性、成长经历、身高、血量、男性比率、图鉴ID、特殊攻击属性、特殊防御属性、宝可梦体重、第几代等。

点击“进入数据开发”,并选择DataWorks页面左侧的“临时查询”--新建ODPS SQL,如下所示:
image.png

在节点名称中输入“数据转换”,选择目标文件夹为“临时查询”,点击提交如下所示:
image.png

提交之后,在编辑器中输入如下建表语句,选中后点击运行按钮,如下所示:
DROP TABLE IF EXISTS pokemon;
CREATE TABLE IF NOT EXISTS pokemon (
attack BIGINT
,base_egg_steps DOUBLE
,base_happiness DOUBLE
,base_total DOUBLE
,capture_rate DOUBLE
,defense DOUBLE
,experience_growth DOUBLE
,height_m DOUBLE
,hp DOUBLE
,percentage_male DOUBLE
,pokedex_number DOUBLE
,sp_attack DOUBLE
,sp_defense DOUBLE
,weight_kg DOUBLE
,generation DOUBLE
);
等待运行,如果日志中出现log-END-EOF说明运行成功
image.png

在DataWorks页面左侧点击“数据开发”,然后点击“导入”按钮,选择从附件下载到本地的pokemon.csv,然后点击“打开”:
image.png

选择本地文件后会弹出如下对话框。原始字符集设为“UTF-8”,其他保持不变:
image.png

在导入至表的对话框中输入“pokemon”,观察目标字段与源字段是否一一对应,确认无误后点击导入:
如果右上角出现“文件上传成功”,则说明数据导入成功
image.png

点击页面左侧的“表管理”,刷新之后就能看到新建的数据表“pokemon”,如下图所示:
image.png

可以通过运行下列代码查询数据表“pokemon”中的数据,如下所示:
select *from pokemon;
查询结果如下:
image.png

三、查找缺失值&离散值
检查各个变量的缺失数:
在临时查询“数据质量的检验”中输入检查各个变量的缺失数代码,选中后点击运行按钮:
image.png

从运行结果可以看出:数据非常干净,变量不存在缺失值。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
SQL 存储 数据挖掘
快速入门:利用AnalyticDB构建实时数据分析平台
【10月更文挑战第22天】在大数据时代,实时数据分析成为了企业和开发者们关注的焦点。传统的数据仓库和分析工具往往无法满足实时性要求,而AnalyticDB(ADB)作为阿里巴巴推出的一款实时数据仓库服务,凭借其强大的实时处理能力和易用性,成为了众多企业的首选。作为一名数据分析师,我将在本文中分享如何快速入门AnalyticDB,帮助初学者在短时间内掌握使用AnalyticDB进行简单数据分析的能力。
54 2
|
2月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
257 0
|
4月前
|
Kubernetes 并行计算 数据挖掘
构建高可用的数据分析平台:Dask 集群管理与部署
【8月更文第29天】随着数据量的不断增长,传统的单机数据分析方法已无法满足大规模数据处理的需求。Dask 是一个灵活的并行计算库,它能够帮助开发者轻松地在多核 CPU 或分布式集群上运行 Python 代码。本文将详细介绍如何搭建和管理 Dask 集群,以确保数据分析流程的稳定性和可靠性。
338 3
|
4月前
|
机器学习/深度学习 前端开发 数据挖掘
基于Python Django的房价数据分析平台,包括大屏和后台数据管理,有线性、向量机、梯度提升树、bp神经网络等模型
本文介绍了一个基于Python Django框架开发的房价数据分析平台,该平台集成了多种机器学习模型,包括线性回归、SVM、GBDT和BP神经网络,用于房价预测和市场分析,同时提供了前端大屏展示和后台数据管理功能。
124 9
|
4月前
|
自然语言处理 数据挖掘 BI
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
|
5月前
|
存储 数据挖掘 OLAP
阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析
阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章对阿里云EMR Serverless StarRocks OLAP 数据分析场景进行解析、存算分离架构升级以及 Trino 兼容,无缝替换介绍。
19226 12
|
5月前
|
存储 Java 数据挖掘
构建基于Spring Boot的数据分析平台
构建基于Spring Boot的数据分析平台
|
5月前
|
存储 NoSQL Java
使用Java实现高效的数据分析平台
使用Java实现高效的数据分析平台
|
5月前
|
运维 数据挖掘 Serverless
深度解析阿里云EMR Serverless StarRocks在OLAP数据分析中的应用场景
阿里云EMR Serverless StarRocks作为一款高性能、全场景覆盖、全托管免运维的OLAP分析引擎,在企业数据分析领域展现出了强大的竞争力和广泛的应用前景。通过其卓越的技术特点、丰富的应用场景以及完善的生态体系支持,EMR Serverless StarRocks正逐步成为企业数字化转型和智能化升级的重要推手。未来随着技术的不断进步和应用场景的不断拓展我们有理由相信EMR Serverless StarRocks将在更多领域发挥重要作用为企业创造更大的价值。
|
5月前
|
存储 数据采集 数据挖掘
Java中的高效数据分析与处理平台设计
Java中的高效数据分析与处理平台设计