【阿里云MVP月度分享】基于PAI平台和Pokemon数据集判断精灵是否为极品精灵

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: Pokemon《精灵宝可梦》,也叫《口袋妖怪》、《宠物小精灵》、《神奇宝贝》,是世界上第二热销的系列电子游戏,仅次于任天堂的超级马里奥系列。本文采用kaggle上Pokemon数据集,基于阿里云PAI平台进行实验,利用数据集中提供的精灵能力值来判断精灵是否为极品精灵。

一、背景

Pokemon精灵宝可梦》,也叫《口袋妖怪》、《宠物小精灵》、《神奇宝贝》,是由Game Freak和Creatures株式会社开发,任天堂发行的系列游戏。精灵宝可梦系列是世界上第二热销的系列电子游戏,仅次于任天堂的超级马里奥系列。

本文采用kaggle上Pokemon数据集,基于阿里云PAI平台进行实验,利用数据集中提供的精灵能力值来判断精灵是否为极品精灵。

数据集包含No, Name, Type1, Type2, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed, Generation, Legendary等信息。

二、数据集介绍

本数据集包含800个精灵的相关参数,每个参数字段含义如下:

 字段  含义  类型
 no  编号  bigint
 name  名称  string
 type1  属性  string
 type2  属性  string
 hp    bigint
 attack  攻击  bigint
 defense  防御  bigint
 atk  特攻  bigint
 def  特防  bigint
 speed  速度  bigint
 generation  第几代  bigint
 legendary  是否为极品  bigint

三、实验过程

首先https://www.aliyun.com/?spm=a2c1h.8280630.0.0.3569458dQ5hXYc进入阿里云,选择右上角的控制台进入

从左侧栏中选择DataWorks,进入工作区


新建脚本文件,并导入数据。

drop table if exists pokemon_data;

create table pokemon_data(
	no bigint,
	name string,
	type1 string,
	type2 string,
	hp bigint,
	attack bigint,
	defense bigint,
	atk bigint,
	def bigint,
	speed bigint,
	generation bigint,
	legendary bigint
)

执行完成后,点击右上角的“机器学习平台”

数据的具体结构如下:


首先,这个场景是希望利用精灵能力值来判断精灵是否为极品精灵。将legendary作为目标列时,因其取值为1或0两种,故此场景为一个二分类的监督学习。因数据质量很好,而不需要进行其他额外的处理。

实验流程如下,

(1)数据预处理:数据与处理主要通过"类型转换组件“将特征由bigint转化为double类型,以及用“归一化组件”对数据进行去量纲处理,把全部数值都归一化到0和1之间。


(2)模型训练:首先对数据集进行拆分,拆分比例为0.7,拆分原则按照随机采样的算法实现,70%的数据用来训练模型,30%的数据用来预测。

在模型选择的时候,为了对比不同模型之间的效果,故模型选取了PAI平台自带的四种模型:GBDT、PS-SMART、线性SVM和逻辑回归。

特征使用的是hp、attack、defense、atk、def、speed和generation,目标向量为legendary。

(3)预测。直接采用PAI平台自身的“预测组件”对数据进行预测。

(4)模型评估。因为本场景为二分类监督学习,故采用“二分类评估组件”对结果进行评估。

这个实验流程如下图所示:


四、实验结果


   GBDT  PS-SMART  线性SVM  逻辑回归
 AUC  0.5  0.8287  0.9857  0.9618
 KS  0  0.6549  0.9685  0.867
 F1 Score  0.0952  0.6316  0.85  0.6809
 evaluate_tsmpl  240  240  240  240
 evaluate_psmpl 12  25  18  22
 evaluate_nsmpl  228  215  222  218


五、总结

目前仅为数据的初步实验,因精灵的属性相值等特征之间的关系处理比较复杂,故会在后期慢慢进行更为细致的分析。

因为最近看到大家都开始对吃鸡游戏进行数据分析,便引发了自己对比较喜欢的游戏进行分析的想法。刚好看到Kaggle上有pokemon的数据集,便拿来一试。

我们目前更多看到的是人工智能在娱乐、电商、工业等大的行业带来的变革,其实,人工智能就在我们的身边,只要有数据,就可以利用阿里云机器学习PAI平台,随时随地进行数据分析。比如Pokemon、LOL、王者、吃鸡等游戏,比如基金、股票等理财方式,再比如图像识别、推荐系统等等。

大数据时代,数据无处不在,算法平台信手拈来,只要你想得到,都可以拿来分析,让工作更轻松,让生活充满乐趣。


相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
3月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2月前
|
机器学习/深度学习 存储 人工智能
【ACL2024】阿里云人工智能平台PAI多篇论文入选ACL2024
近期,阿里云人工智能平台PAI的多篇论文在ACL2024上入选。论文成果是阿里云与阿里集团安全部、华南理工大学金连文教授团队、华东师范大学何晓丰教授团队共同研发。ACL(国际计算语言学年会)是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台PAI在自然语言处理和多模态算法、算法框架能力方面研究获得了学术界认可。
|
2月前
|
UED 存储 数据管理
深度解析 Uno Platform 离线状态处理技巧:从网络检测到本地存储同步,全方位提升跨平台应用在无网环境下的用户体验与数据管理策略
【8月更文挑战第31天】处理离线状态下的用户体验是现代应用开发的关键。本文通过在线笔记应用案例,介绍如何使用 Uno Platform 优雅地应对离线状态。首先,利用 `NetworkInformation` 类检测网络状态;其次,使用 SQLite 实现离线存储;然后,在网络恢复时同步数据;最后,通过 UI 反馈提升用户体验。
47 0
|
3月前
|
数据采集 人工智能 自然语言处理
阿里云百炼平台深度体验:智能问答与模型训练的创新之旅
在人工智能的浪潮中,阿里云百炼平台以其强大的大模型开发能力,为企业和个人开发者提供了一站式的解决方案。本文将从知识检索应用搭建、模型训练调优以及流程管理功能三个角度,全面评测阿里云百炼平台的实际使用体验。
230 3
|
3月前
|
JSON Shell API
阿里云PAI-Stable Diffusion开源代码浅析之所有api的入参如何看
阿里云PAI-Stable Diffusion开源代码浅析之所有api的入参如何看
|
2月前
|
机器学习/深度学习 存储 缓存
Java本地高性能缓存实践问题之阿里云机器学习团队开源社区的问题如何解决
Java本地高性能缓存实践问题之阿里云机器学习团队开源社区的问题如何解决
|
2月前
|
机器学习/深度学习 算法 数据挖掘
scikit-learn.datasets 机器学习数据集
scikit-learn.datasets 机器学习数据集
23 0
|
2月前
|
机器学习/深度学习 存储 缓存
模型遇见知识图谱问题之参与阿里云机器学习团队的开源社区的问题如何解决
模型遇见知识图谱问题之参与阿里云机器学习团队的开源社区的问题如何解决
|
3月前
|
存储 人工智能 弹性计算
下一篇
无影云桌面