开发者学堂课程【场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量:阿里云相关产品基本操作演示】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/523/detail/7070
阿里云相关产品基本操作演示
内容介绍:
一、基础操作
二、建表的入口
三、如何在 data studio 中去导入本地的数据
四、机器学习 PAI 产品的基本操作
一、基础操作
大数据开发环境 Dataworks 和机器学习 PAI 的简单操作。首先打开浏览器,在地址栏当中输入 www.aliyun.com 进入阿里云的官网的首页。进入官网之后点击导航栏中的控制台按钮。
上图就是阿里云官网的登录控制管理控制台,所有的阿里云公共云上的产品的服务都可以在控制台上去使用和管理。在左侧导航栏里面可看到以产品和服务,如果之前访问过产品,会在出现。本次演示要用到的是菜单中大数据数加中的 Dataworks 和机器学习 PAI。
鼠标移动之后可以把它加入收藏,这样它就会在左边列表当中出现方便下次去使用。
要说明一下,如果想要使用产品,首先要有管理员的账号,如果没有需要注册。注册之后要经过实名认证,看一下相关步骤。进入 dataworks,第2步要创建 accesskey,accesskey 是运行的密钥,和登录时填写的账号和密码是不一样的,它主要的用途是在阿里云各个产品之间互相认证的时候要去验证权限。点击创建 accesskey,要做手机的验证,验证之后就会新建 access key 成功。
回到管理控制台的页面,重新回到 dataworks,要选择一下地区和服务。一般可以选择华东二,选择计算引擎和dataworks 服务,在默认情况下,数据开发运维中心数据管理是默认都已经勾选。可以根据自己具体的需要去勾选max compute、机器学习 PAI 两个计算资源。如果是个人用户,选择按量付费,需要去进行购买。选择地区,选择标准版,立即购买、开通。包年包月一般除非数据量的计算量特别大,或者创建企业级的项目才会去考虑。开发者版本主要是适用于为企业提供一些零成本的选型适用或者让开发者去学习一些实验的时候不用再去担心费用,因为它会有一些作业并发或者作业资源上限的约束,这样做一些试验的时候就不会产生太多的费用。选择按量付费,机器学习PAI也进行开通。同样是按量付费,点击下一步。
这一步配置一下项目空间的基本信息和高级设置,只需要输入工作空间的名称,选择英文或者英文加数字,其他东西保持默认不变,点击创建工作空间。做简单的说明,前面三个步骤:实名认证、创建 accesskey、选择 region 及服务都是非实验环境下的演示。在做 cloud 的实验的时候,只需要点击实验中的创建资源按钮,系统就会自主创建子账号给每个实验的使用者。子账号当中就包含了实验所需要的所有计算资源和创建好的项目空间,如果做实验可以直接来到工作空间列表就会看到已经创建好的项目,直接点击进入数据开发就可以。
二、建表的入口
第入口是在左侧的列表当中把列表展开,注意现在在数据开发列表当中有新建按钮,新建下面有表,再输入表名。比如说输 transaction detail,点击提交,再点击选择ddl模式,也就是用代码的模式去创建表格。点击生成表结构,点击确认,ddl 解析成功之后就可以看到下面的表结构设计当中已经出现了所需要的字段,也可以用交互式的方式去添加一些字段。
比如再新建字段,可以选择字段类型、长度设置、描述等等,点击保存,也可以删除掉字段,如果认为表的结构已经完成,就要输入一下中文名或者英文名,比如说是交易表。虽然说前面是中文名,但是输入英文也是可以的,点击提交到生产环境,点击确认。
这样表格就处理好了,表创建完之后可以去左侧的表管理中看到表已经存在。在公共表中可以去阅览一下表的数据,可以点击一下,因为现在还没有导入数据,所以现在是空的。
第二个新建表的方法,可以在左侧列表当中选择临时查询,新建 ODPS SQL 查询,节点名称 create table,目标文件夹选择临时查询,把建表语句输入进去,因为刚才已经使用过这张表,所以如果在点击保存和运行之后,正常情况下应该是会出现报错的信息。
在运行之前会进行成本的估计,会弹出运行的日志,稍微等待一下,看到运行失败,表已经存在,就可以看到代码跑的情况。
第三个建表的方法,就是在表管理中去新建,后面的步骤和第一步里面的个建表步骤是一样的,所以就不再进行重复。
三、如何在 data studio 中去导入本地的数据
在数据开发标签中选择导入按钮,选择要上传的数据,进入到窗口,在这里可以选择文件当中的分隔符号,因为这是csv 文件,所以是逗号,它原始字符集就是 GBK,从第一行标题导入,所以勾也是保持默认的情况下,点击下一步。
在这里选择要导入的表名就是之前创建的表,选择这张表,这样表现的方式,匹配的方式有两种,按位置匹配和按名称匹配。一般来说如果没有表头、没有字段的名称可以用按位置匹配,有字段名称就用按名称匹配。如果是一一对应的关系,没有问题就可以直接选择导入,等一下就可以看到上传成功。总共上传了31300条数据。
来到公共表标签,公共表是用于查看主账号下面所有项目创建的表。如果是做实验用的子账号,可能会看到很多个不是自己创建的表。因为演示的账号是主账号,只有一张表,这张表可以去进行数据预览,看到数据的一部分,说明导入应该是成功的。如果还想确定,可以在临时查询当中即演示过的地方去做 count(*),查一下表里面有多少行数据,选择之后点击运行可以看到结果,结果显示是31,300条,以上就是在 dataworks 中的建表和导入数据的演示。
四、机器学习 PAI 产品的基本操作
机器学习 PAI 有两个办法,是利用鼠标引入进去,点击机器学习PAI。另外一种方法,就是在管理控制台中开始下面找到产品与服务下面的大数据数加下面有机器学习 PAI
这两种方法都是可以的。
来到机器学 PAI 的概览页面之后,需要点击可视化建模。选择项目对应的地区是华东二上海,就可以看到之前创建的项目。在这里有开启 GPU 的按钮,是用于深度学习的。实验是用不到的,所以保持默认状态就可以。
点击进入机器学习,在机器学习产品当中,会介绍一下案例的使用,如何搭建实验和调试参数。如果是新用户进入产品的时候,首先看到的就是机器学习的首页,在这里已经内置了一些基础的案例,包括像分类、回归、图像识别、图片分类,有推荐算法、文本处理,还有图算法。
在机械学学习中会涉及到的数据预处理特征工程的流程,每个实例都可以查看文档和从模板创建,如果点击查看文档,就可以看到案例里面具体的背景介绍。数据集的内容还有整个流程是怎么组成的,是关于一些重要节点的一些说明,包括代码等等。最后会有总结。
可以点击从模板创建,就会生成对应的逻辑出来。
默认情况下直接点创建。在右边可以看到一些功能介绍。
新手引导、常见问题的一些解决办法,还有可以互动交流的云栖社区,里面可以发表和浏览相关的技术文章,最底下还有一系列产品相关的视频,这些模块就是希望能够降低机器学习 PAI 的学习和使用的门槛,让使用者的体验更好。
进入创建好的案例的实践当中,可以看到左侧有实验按钮,就是已经创建好的时间列表,在底下可以去新建要建的实验,在这里输入名称就可以。
在实验当中功能的搭建,主要是依靠算法组件的拖拽拼、配置和拼接。可以看到有主键按钮,它提供了大概100多种分类的组件,这些组件使用的时候,需要去把它拖入到右边的画布当中,比如说拖入读数据表,选中组建在右边就可以看到组建的配置,既然是读数据表的组建,在需要输入的表名 Transaction details,它会去进行读取。因为它是读数据表,所以它不需要进行运行,配置完成之后就可以直接右键点击去查看配置的结果。
可以做一些数据的探查,比如说在统计分析当中拖入全表统计的组件,需要对全标统计进行连接,把表的输出连到输入上去,再对他进行配置。
想要看的字段是全部的列。在默认的情况下,默认的是全部列,也可以选择一些想要看的内容,比如说不想看datetime,点击确定。
配置完组件之后,可以在左上角点击运行按钮,所有的组件都会一次性的按照流程顺序去运行完,也可以选择右键点击某一个组件,选择执行到此处
它之前的组件和它相关的都会执行完,也可以从任何地方开始执行,也可以单单执行某个节点。点击一下运行,让整个流程运行一遍。像全表统计组件可以去查看数据,在这里展现了每一列里面的一些数据类型,数据有多少行、有没有一些缺失值、最小值、最大值、标准差等等同期的值。
像有些组件在案例当中做了逻辑回归二分类,用混淆矩阵去评价它分类的效果。这种组件就可以查看分析评估报告,可以看到混淆取证的结果。
还有一点要说明的就是如果组件运行成功之后,会出现绿色的勾,说明没有问题。
但是如果运行失败就会变成差,查看日志,组件和组件之间的输出和输入的连接也是非常重要的,特别像SQL脚本,因为在 SQL 脚本当中,它的配置就是代码。同时,他把之前联络的表格映射到 T1T2T3T4这4个表名区,比如表是project 表,要对这张表格进行一些 SQL 的查询。他这里写的输入数据自动映射到t1~t4,使用方法如select*from $(t1),也就是说如果两个组件之间连线连到的是 SQL 组件的第1个输入点,在映射的时候就要把表名映射成t1,如果连的是第2个节点,如下图所示
如果的 SQL 脚本当中还是写的t1,它就会报错。右键点击执行该节点,看到执行失败,查看日志就会出现报错的信息,就可以去进行排错。
在机器学习当中,也可以进行数据的上传和建表,是在数据源页面里面,在这里列出了已经内置的一些公共表,所有的注册用户都可以去使用这些表。
在这里也可以进行创建表,操作的方式和在 dataworks 里面区别不大,可以用命令行建表也可以用可视化建表,建完表之后点击下一步就可以上传数据,总体上操作和在 dataworks 里面是基本上没有什么太大的区别,以上就是 dataworks 和 PAI 的入门演示。