基于阿里云平台进行游戏数据分析(一)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 在本项目中,我们将基于阿里云平台进行游戏数据分析。本文是这个项目介绍的第一部分,主要介绍项目的背景,数据导入与预处理等环节。

最近,我们基于阿里云大数据平台进行了游戏数据的分析。项目利用精灵宝可梦数据,进行数据转换,然后分析水属性宝可梦的总数(base_total)X与捕捉几率(capture_rate)Y的关系。项目利用的平台是阿里云大数据平台Maxcompute、 DataWorks及机器学习PAI平台。

一、项目环境配置
进入阿里云平台,创建工作空间,选择使用Maxcompute和PAI Studio
image.png

然后填写实例名称,创建工作空间。最后检查是否已经开通两个引擎,否则需要在引擎配置里重新添加。
image.png

二、导入数据
查看数据文件,其中包含以下变量:
基础攻击属性、宝可梦孵化阶段、活跃指数、基本总数、捕捉几率、基础防御属性、成长经历、身高、血量、男性比率、图鉴ID、特殊攻击属性、特殊防御属性、宝可梦体重、第几代等。

点击“进入数据开发”,并选择DataWorks页面左侧的“临时查询”--新建ODPS SQL,如下所示:
image.png

在节点名称中输入“数据转换”,选择目标文件夹为“临时查询”,点击提交如下所示:
image.png

提交之后,在编辑器中输入如下建表语句,选中后点击运行按钮,如下所示:
DROP TABLE IF EXISTS pokemon;
CREATE TABLE IF NOT EXISTS pokemon (
attack BIGINT
,base_egg_steps DOUBLE
,base_happiness DOUBLE
,base_total DOUBLE
,capture_rate DOUBLE
,defense DOUBLE
,experience_growth DOUBLE
,height_m DOUBLE
,hp DOUBLE
,percentage_male DOUBLE
,pokedex_number DOUBLE
,sp_attack DOUBLE
,sp_defense DOUBLE
,weight_kg DOUBLE
,generation DOUBLE
);
等待运行,如果日志中出现log-END-EOF说明运行成功
image.png

在DataWorks页面左侧点击“数据开发”,然后点击“导入”按钮,选择从附件下载到本地的pokemon.csv,然后点击“打开”:
image.png

选择本地文件后会弹出如下对话框。原始字符集设为“UTF-8”,其他保持不变:
image.png

在导入至表的对话框中输入“pokemon”,观察目标字段与源字段是否一一对应,确认无误后点击导入:
如果右上角出现“文件上传成功”,则说明数据导入成功
image.png

点击页面左侧的“表管理”,刷新之后就能看到新建的数据表“pokemon”,如下图所示:
image.png

可以通过运行下列代码查询数据表“pokemon”中的数据,如下所示:
select *from pokemon;
查询结果如下:
image.png

三、查找缺失值&离散值
检查各个变量的缺失数:
在临时查询“数据质量的检验”中输入检查各个变量的缺失数代码,选中后点击运行按钮:
image.png

从运行结果可以看出:数据非常干净,变量不存在缺失值。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2天前
|
安全 API 持续交付
阿里云云效产品使用问题之如何从流水线访问内网平台的HTTP接口
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
5天前
|
存储 数据挖掘 机器人
淘客返利平台的数据分析与报表设计
淘客返利平台的数据分析与报表设计
|
5天前
|
弹性计算 数据可视化 安全
高效部署企业门户网站【阿里云云效平台详细指南】
使用阿里云云效部署企业网站涉及备案域名、ECS、VPC、云效代码仓库和流水线。一键部署通过ROS快速配置,手动部署则需详细配置流水线,包括代码源、构建、部署到ECS。整个流程约10分钟,但需注意网络问题可能导致的异常。一键部署适合快速启动,手动部署适合定制化。文档详细,但可增加常见问题解答和自动化脚本支持。
119 2
高效部署企业门户网站【阿里云云效平台详细指南】
|
1天前
|
Cloud Native 文件存储 数据库
《阿里云产品四月刊》—CPFS 智算版数据流动(1)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
1天前
|
存储 Cloud Native 文件存储
《阿里云产品四月刊》—CPFS 智算版数据流动(5)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
1天前
|
Cloud Native 数据库 对象存储
《阿里云产品四月刊》—CPFS 智算版数据流动(6)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
1天前
|
Web App开发 Cloud Native 文件存储
《阿里云产品四月刊》—CPFS 智算版数据流动(7)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
5天前
|
人工智能 自然语言处理 数据可视化
体验评测报告:阿里云百炼平台——大模型应用构建的全方位工具箱
体验评测报告:阿里云百炼平台——大模型应用构建的全方位工具箱
78 2
|
1天前
阿里云百炼大模型平台-自定义插件接口协议报错排查方案
阿里云百炼大模型平台-自定义插件接口协议报错排查方案
|
1天前
|
Cloud Native 数据库 对象存储
《阿里云产品四月刊》—CPFS 智算版数据流动(2)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代

热门文章

最新文章