开发者学堂课程【场景实践 - 机器学习PAI实现精细化营销:阿里云机器学习平台PAI基本操作演示】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/521/detail/7048
阿里云机器学习平台PAI基本操作演示
具体操作
1.注册和登录
第一部登陆官网,如果之前用过就直接从登录界面登录,如果没有用过要进行免费的注册,注册过程比较简单,输入自己的用户名和密码,进行登记注册。
注册完成以后进行实名认证,这是必须的条件,如果不进行实名认证,那么阿里的产品将无法使用。
登陆界面是子用户登录,用户是由注册的主账号来进行分配的,如果进行阿里的实验,会自动分配一个子用户,子用户在登录的时候需要注意一下格式,点击使用主账号登录,就会进入以下界面。
输入自己注册的用户名进行登录
2.开通 max compute
登录之前也可以从主页面选择产品,开通相应服务,这里需要使用大数据基础服务 max compute,点击立即开通,会跳转到开通的界面。
根据自身的选择来进行区域选择,是华东还是华南。或者是立即购买,选择按量付费和预付费,这些主要信息,需要自行处理。模拟点击立刻购买,同样会跳转到登录界面,输入自己的注册账户,以及登录密码,登录完以后点击控制台,进入自己的操作界面,左侧都是阿里云提供的相关的大数据相关产品。选择大数据数加产品,数加产品有一些控制台概览。
对于初次用户来说这个过程是很有必要的,注册的用户已经使用的产品信息,大数据开发套件相当于进行程序开发,调度数据库管理,有关大数据开发的相关所有工具基本上都有。
3.机器学习
点击机器学习,进入机器学习的工作界面,如果是首次使用界面中是没有任何项目的,因为之前是演示过的所以图中是有项目的。
如果没有项目,点击右上角的创建项目,进行新的项目。PAI是建立在 max compute 之上的,所以他们的项目是一致的,它使用的是 max compute 里面的数据,重新创建项目,输入付费方式、项目名称、显示名和项目描述。
创建完项目以后刷新界面,在界面中就可以展现出来。回到机器学习界面,假如已经创建好了项目,点击进入机器学习,选择要进入的机器学习,需要选择项目,假如选择 lab_class 实验项目,下图就是机器学习的首页。
上面是一些功能菜单,例如新手引导教会新手如何使用pai,常见的一些问题,以及云栖社区,有什么相关的疑问可以去云溪社区里面寻找。下面一栏包括空白实验,如果想要新建实验,就点击新建空白实验,其他方面阿里提供了许多机器学习案例,可以模拟这些案例建立一些算法,来实现某些业务的场景,这是界面主体。
左侧是菜单栏,点击实验,里面包括了以前进行过的实验;数据源包括了用户所引入的数据源,组件就是数据处理的各种组件,模型就是已经生成的模型,或者是保存的实验模型,部署的模型都在里面。
点击首页进入新建空白实验,进入实验区输入实验的名称,实验存放的位置可以新建目录,下一步进入机器学习的工作界面。首先看一下数据源,如果数据源有具体的项目项目中有数据可以,也可以点击创建表,从本地直接将数据传入 PAI,也就是直接传入 max compute,假如说新建一个 test 表,点击确定输入建表的其他字段。
输入完以后将数据上传,选择本地的文件,这样就完成了新建表。
接下来,从新建一个空白实验开始,点击新建空白实验,名称设置为 shiyan1997,选择具体的项目,PAI是建立在max compute 之上的,所以项目和 max compute 项目是一样的,点击保存进入实验工作区。点击实验的名称可以切换实验,从左侧的菜单功能栏,常用的组件保存的分组。
源/目标相当于把 max compute 数据读到pai中来进行使用,先拉一个读数据表的工作部件。数据预处理是读到PAI中的数据进行归类、填充空白值、数据转换等等。
再下面是特征工程,对接下来进行数据源分析的特征,进行选择分析评定。
Pai 还提供了统计分析的功能,通过数据视图协方差等等,对数据进行简单的统计。
再下面就是机器学习的组件,后面还有时间序列分析文本分析,网络分析等等,根据情境进行选择。在工具里面有SQL 脚本处理,可以编写一些常用的脚本,比方说对数据进行加工汇总、聚类、聚合等等。
读数据以后,假如进行数据的预处理就要加入缺失值填充,上面读数据的输出就是下面缺失值填充的输入,用连线直接连接起来,相当于一个数据流,如果数据填充值完成以后,还需要进行类型转换,直接将类型转换拖到工作区里面,同样用连线连接起来,连线完数据相当于预处理完成,下一步进行机器学习,当然也可以进行统计分析,假设要进行数据聚类,同样用线条进行连接。这样一个简单的数据流处理图就完成了。
假设说配置读数据表的数据,选择一张创建完成的表,查看他的字段信息
数据处理的名称发生了变化,就证明数据是存在的,点击右键有以下几种操作
刷新一下字段,重新查看数据,数据包含了 ID、名称、年龄、性别。
性别中发现有空白值,接下来进行缺失值填充,点击选择字段,勾选 gender ID,原值如果为空,自定义值为0,缺失值填充填充完毕。
下面数据类型转换同样点击,进行字段设置,从数据源种选择要处理的字段,假如是 age ID。
均值聚类同样选择字段,特征列选择年龄和性别字段,附加列可以全选,也可以根据情况只选择客户相关的信息。参数设置纷组的组别可以选择三个或者四个,选择一种合适的度量方式,质心初始化方法选择 random,最大迭代数选择100,模型处理完,下一步选择机器学习评估组件,将聚类评估模型拖到页面,可以看到三种类型,一是输出结果表,二是输出模型,三是输出聚类统计表,选择第三种进行连接,数据输出表也可以使用写数据表写到一张数据表里面,分组同样写到一张表里,在连接过程中,有一个智能选择的过程,如果将输出的聚类中心点模型输出到数据表里面是不可行的,它只能输出结果,而评估可以将中心店模型进行输出。如果组件不匹配的话,数据中间的连线,是无法处理的,这就是简单的流程处理配置。
写数据表也可以进行简单的命名配置输入表名设置生命周期选择字段配置信息。
模型处理完成以后,可以查看模型,点击模型就是实验模型输出的结果,先来查看一个已经完成的模型。
上图是一个统计完成的结果,也是读数据填充缺失值,然后进行 SQL 脚本的处理,然后进行k均值聚类,查看第一个输出的结果表,点击右键查看数据,可以查看输出的每一组的数据。
输出的模型评估,点击右键查看聚类模型评估报告
同样可以查看运行的日志
输出表的查看,在整个使用过程中,非常简单,通过走的时候,根据业务选择,不同的组件,进行处理,拖拽配置参数,配置完参数进行运行,将整个实验完整运行一次,运行的实验可以进行部署,包括在线预览部署
在线模型部署选择部署的空间,也可以实验离线调度,也就是进入开发套件,进行配置调度,和原来的任务结合在一起,进行定时的后台处理,以上是 PAI 简单的使用说明。