【阿里云MVP月度分享】基于PAI平台和Pokemon数据集判断精灵是否为极品精灵

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: Pokemon《精灵宝可梦》,也叫《口袋妖怪》、《宠物小精灵》、《神奇宝贝》,是世界上第二热销的系列电子游戏,仅次于任天堂的超级马里奥系列。本文采用kaggle上Pokemon数据集,基于阿里云PAI平台进行实验,利用数据集中提供的精灵能力值来判断精灵是否为极品精灵。

一、背景

Pokemon精灵宝可梦》,也叫《口袋妖怪》、《宠物小精灵》、《神奇宝贝》,是由Game Freak和Creatures株式会社开发,任天堂发行的系列游戏。精灵宝可梦系列是世界上第二热销的系列电子游戏,仅次于任天堂的超级马里奥系列。

本文采用kaggle上Pokemon数据集,基于阿里云PAI平台进行实验,利用数据集中提供的精灵能力值来判断精灵是否为极品精灵。

数据集包含No, Name, Type1, Type2, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed, Generation, Legendary等信息。

二、数据集介绍

本数据集包含800个精灵的相关参数,每个参数字段含义如下:

 字段  含义  类型
 no  编号  bigint
 name  名称  string
 type1  属性  string
 type2  属性  string
 hp    bigint
 attack  攻击  bigint
 defense  防御  bigint
 atk  特攻  bigint
 def  特防  bigint
 speed  速度  bigint
 generation  第几代  bigint
 legendary  是否为极品  bigint

三、实验过程

首先https://www.aliyun.com/?spm=a2c1h.8280630.0.0.3569458dQ5hXYc进入阿里云,选择右上角的控制台进入

从左侧栏中选择DataWorks,进入工作区


新建脚本文件,并导入数据。

drop table if exists pokemon_data;

create table pokemon_data(
	no bigint,
	name string,
	type1 string,
	type2 string,
	hp bigint,
	attack bigint,
	defense bigint,
	atk bigint,
	def bigint,
	speed bigint,
	generation bigint,
	legendary bigint
)
AI 代码解读

执行完成后,点击右上角的“机器学习平台”

数据的具体结构如下:


首先,这个场景是希望利用精灵能力值来判断精灵是否为极品精灵。将legendary作为目标列时,因其取值为1或0两种,故此场景为一个二分类的监督学习。因数据质量很好,而不需要进行其他额外的处理。

实验流程如下,

(1)数据预处理:数据与处理主要通过"类型转换组件“将特征由bigint转化为double类型,以及用“归一化组件”对数据进行去量纲处理,把全部数值都归一化到0和1之间。


(2)模型训练:首先对数据集进行拆分,拆分比例为0.7,拆分原则按照随机采样的算法实现,70%的数据用来训练模型,30%的数据用来预测。

在模型选择的时候,为了对比不同模型之间的效果,故模型选取了PAI平台自带的四种模型:GBDT、PS-SMART、线性SVM和逻辑回归。

特征使用的是hp、attack、defense、atk、def、speed和generation,目标向量为legendary。

(3)预测。直接采用PAI平台自身的“预测组件”对数据进行预测。

(4)模型评估。因为本场景为二分类监督学习,故采用“二分类评估组件”对结果进行评估。

这个实验流程如下图所示:


四、实验结果


   GBDT  PS-SMART  线性SVM  逻辑回归
 AUC  0.5  0.8287  0.9857  0.9618
 KS  0  0.6549  0.9685  0.867
 F1 Score  0.0952  0.6316  0.85  0.6809
 evaluate_tsmpl  240  240  240  240
 evaluate_psmpl 12  25  18  22
 evaluate_nsmpl  228  215  222  218


五、总结

目前仅为数据的初步实验,因精灵的属性相值等特征之间的关系处理比较复杂,故会在后期慢慢进行更为细致的分析。

因为最近看到大家都开始对吃鸡游戏进行数据分析,便引发了自己对比较喜欢的游戏进行分析的想法。刚好看到Kaggle上有pokemon的数据集,便拿来一试。

我们目前更多看到的是人工智能在娱乐、电商、工业等大的行业带来的变革,其实,人工智能就在我们的身边,只要有数据,就可以利用阿里云机器学习PAI平台,随时随地进行数据分析。比如Pokemon、LOL、王者、吃鸡等游戏,比如基金、股票等理财方式,再比如图像识别、推荐系统等等。

大数据时代,数据无处不在,算法平台信手拈来,只要你想得到,都可以拿来分析,让工作更轻松,让生活充满乐趣。


相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
打赏
0
0
0
1
507
分享
相关文章
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
DLC任务Pytorch launch_agent Socket Timeout问题源码分析与解决方案
78 18
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
178 11
Qwen3 全尺寸模型支持通过阿里云PAI-ModelGallery 一键部署
Qwen3 是 Qwen 系列最新一代的大语言模型,提供了一系列密集(Dense)和混合专家(MOE)模型。目前,PAI 已经支持 Qwen3 全系列模型一键部署,用户可以通过 PAI-Model Gallery 快速开箱!
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
基于阿里云 Milvus + DeepSeek + PAI LangStudio 的低成本高精度 RAG 实战
阿里云向量检索服务Milvus版是一款全托管向量检索引擎,并确保与开源Milvus的完全兼容性,支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。
DeepSeek服务器繁忙?拒绝稍后再试!基于阿里云PAI实现0代码一键部署DeepSeek-V3和DeepSeek-R1大模型
阿里云PAI平台支持零代码一键部署DeepSeek-V3和DeepSeek-R1大模型,用户可轻松实现从训练到部署再到推理的全流程。通过PAI Model Gallery,开发者只需简单几步即可完成模型部署,享受高效便捷的AI开发体验。具体步骤包括开通PAI服务、进入控制台选择模型、一键部署并获取调用信息。整个过程无需编写代码,极大简化了模型应用的门槛。
271 7
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成(RAG)系统
基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成(RAG)系统

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等