阿里云相关产品基本操作演示|学习笔记

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 快速学习阿里云相关产品基本操作演示

开发者学堂课程【场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量阿里云相关产品基本操作演示】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/523/detail/7070


阿里云相关产品基本操作演示


内容介绍:

一、基础操作

二、建表的入口

三、如何在 data studio 中去导入本地的数据

四、机器学习 PAI 产品的基本操作


一、基础操作

大数据开发环境 Dataworks 和机器学习 PAI 的简单操作。首先打开浏览器,在地址栏当中输入 www.aliyun.com 进入阿里云的官网的首页。进入官网之后点击导航栏中的控制台按钮。

image.png

上图就是阿里云官网的登录控制管理控制台,所有的阿里云公共云上的产品的服务都可以在控制台上去使用和管理。在左侧导航栏里面可看到以产品和服务,如果之前访问过产品,会在出现。本次演示要用到的是菜单中大数据数加中的 Dataworks 和机器学习 PAI。

image.png

鼠标移动之后可以把它加入收藏,这样它就会在左边列表当中出现方便下次去使用。

image.png

要说明一下,如果想要使用产品,首先要有管理员的账号,如果没有需要注册。注册之后要经过实名认证,看一下相关步骤。进入 dataworks,第2步要创建 accesskey,accesskey 是运行的密钥,和登录时填写的账号和密码是不一样的,它主要的用途是在阿里云各个产品之间互相认证的时候要去验证权限。点击创建 accesskey,要做手机的验证,验证之后就会新建 access key 成功。

回到管理控制台的页面,重新回到 dataworks,要选择一下地区和服务。一般可以选择华东二,选择计算引擎和dataworks 服务,在默认情况下,数据开发运维中心数据管理是默认都已经勾选。可以根据自己具体的需要去勾选max compute、机器学习 PAI 两个计算资源。如果是个人用户,选择按量付费,需要去进行购买。选择地区,选择标准版,立即购买、开通。包年包月一般除非数据量的计算量特别大,或者创建企业级的项目才会去考虑。开发者版本主要是适用于为企业提供一些零成本的选型适用或者让开发者去学习一些实验的时候不用再去担心费用,因为它会有一些作业并发或者作业资源上限的约束,这样做一些试验的时候就不会产生太多的费用。选择按量付费,机器学习PAI也进行开通。同样是按量付费,点击下一步。

这一步配置一下项目空间的基本信息和高级设置,只需要输入工作空间的名称,选择英文或者英文加数字,其他东西保持默认不变,点击创建工作空间。做简单的说明,前面三个步骤:实名认证、创建 accesskey、选择 region 及服务都是非实验环境下的演示。在做 cloud 的实验的时候,只需要点击实验中的创建资源按钮,系统就会自主创建子账号给每个实验的使用者。子账号当中就包含了实验所需要的所有计算资源和创建好的项目空间,如果做实验可以直接来到工作空间列表就会看到已经创建好的项目,直接点击进入数据开发就可以。


二、建表的入口

第入口是在左侧的列表当中把列表展开,注意现在在数据开发列表当中有新建按钮,新建下面有表,再输入表名。比如说输 transaction detail,点击提交,再点击选择ddl模式,也就是用代码的模式去创建表格。点击生成表结构,点击确认,ddl 解析成功之后就可以看到下面的表结构设计当中已经出现了所需要的字段,也可以用交互式的方式去添加一些字段。

image.png

比如再新建字段,可以选择字段类型、长度设置、描述等等,点击保存,也可以删除掉字段,如果认为表的结构已经完成,就要输入一下中文名或者英文名,比如说是交易表。虽然说前面是中文名,但是输入英文也是可以的,点击提交到生产环境,点击确认。

image.png

这样表格就处理好了,表创建完之后可以去左侧的表管理中看到表已经存在。在公共表中可以去阅览一下表的数据,可以点击一下,因为现在还没有导入数据,所以现在是空的。

image.png

第二个新建表的方法,可以在左侧列表当中选择临时查询,新建 ODPS SQL 查询,节点名称 create table,目标文件夹选择临时查询,把建表语句输入进去,因为刚才已经使用过这张表,所以如果在点击保存和运行之后,正常情况下应该是会出现报错的信息。

image.png

在运行之前会进行成本的估计,会弹出运行的日志,稍微等待一下,看到运行失败,表已经存在,就可以看到代码跑的情况。

第三个建表的方法,就是在表管理中去新建,后面的步骤和第一步里面的个建表步骤是一样的,所以就不再进行重复。


三、如何在 data studio 中去导入本地的数据

在数据开发标签中选择导入按钮,选择要上传的数据,进入到窗口,在这里可以选择文件当中的分隔符号,因为这是csv 文件,所以是逗号,它原始字符集就是 GBK,从第一行标题导入,所以勾也是保持默认的情况下,点击下一步。

image.png

在这里选择要导入的表名就是之前创建的表,选择这张表,这样表现的方式,匹配的方式有两种,按位置匹配和按名称匹配。一般来说如果没有表头、没有字段的名称可以用按位置匹配,有字段名称就用按名称匹配。如果是一一对应的关系,没有问题就可以直接选择导入,等一下就可以看到上传成功。总共上传了31300条数据。

image.png

来到公共表标签,公共表是用于查看主账号下面所有项目创建的表。如果是做实验用的子账号,可能会看到很多个不是自己创建的表。因为演示的账号是主账号,只有一张表,这张表可以去进行数据预览,看到数据的一部分,说明导入应该是成功的。如果还想确定,可以在临时查询当中即演示过的地方去做 count(*),查一下表里面有多少行数据,选择之后点击运行可以看到结果,结果显示是31,300条,以上就是在 dataworks 中的建表和导入数据的演示。


四、机器学习 PAI 产品的基本操作

机器学习 PAI 有两个办法,是利用鼠标引入进去,点击机器学习PAI。另外一种方法,就是在管理控制台中开始下面找到产品与服务下面的大数据数加下面有机器学习 PAI

image.png

这两种方法都是可以的。

来到机器学 PAI 的概览页面之后,需要点击可视化建模。选择项目对应的地区是华东二上海,就可以看到之前创建的项目。在这里有开启 GPU 的按钮,是用于深度学习的。实验是用不到的,所以保持默认状态就可以。

image.png

点击进入机器学习,在机器学习产品当中,会介绍一下案例的使用,如何搭建实验和调试参数。如果是新用户进入产品的时候,首先看到的就是机器学习的首页,在这里已经内置了一些基础的案例,包括像分类、回归、图像识别、图片分类,有推荐算法、文本处理,还有图算法。

image.png

在机械学学习中会涉及到的数据预处理特征工程的流程,每个实例都可以查看文档和从模板创建,如果点击查看文档,就可以看到案例里面具体的背景介绍。数据集的内容还有整个流程是怎么组成的,是关于一些重要节点的一些说明,包括代码等等。最后会有总结。

可以点击从模板创建,就会生成对应的逻辑出来。

image.png

默认情况下直接点创建。在右边可以看到一些功能介绍。

image.png

新手引导、常见问题的一些解决办法,还有可以互动交流的云栖社区,里面可以发表和浏览相关的技术文章,最底下还有一系列产品相关的视频,这些模块就是希望能够降低机器学习 PAI 的学习和使用的门槛,让使用者的体验更好。

进入创建好的案例的实践当中,可以看到左侧有实验按钮,就是已经创建好的时间列表,在底下可以去新建要建的实验,在这里输入名称就可以。

image.png

在实验当中功能的搭建,主要是依靠算法组件的拖拽拼、配置和拼接。可以看到有主键按钮,它提供了大概100多种分类的组件,这些组件使用的时候,需要去把它拖入到右边的画布当中,比如说拖入读数据表,选中组建在右边就可以看到组建的配置,既然是读数据表的组建,在需要输入的表名 Transaction details,它会去进行读取。因为它是读数据表,所以它不需要进行运行,配置完成之后就可以直接右键点击去查看配置的结果。

image.png

可以做一些数据的探查,比如说在统计分析当中拖入全表统计的组件,需要对全标统计进行连接,把表的输出连到输入上去,再对他进行配置。

image.png

想要看的字段是全部的列。在默认的情况下,默认的是全部列,也可以选择一些想要看的内容,比如说不想看datetime,点击确定。

image.png

配置完组件之后,可以在左上角点击运行按钮,所有的组件都会一次性的按照流程顺序去运行完,也可以选择右键点击某一个组件,选择执行到此处

image.png

它之前的组件和它相关的都会执行完,也可以从任何地方开始执行,也可以单单执行某个节点。点击一下运行,让整个流程运行一遍。像全表统计组件可以去查看数据,在这里展现了每一列里面的一些数据类型,数据有多少行、有没有一些缺失值、最小值、最大值、标准差等等同期的值。

image.png

像有些组件在案例当中做了逻辑回归二分类,用混淆矩阵去评价它分类的效果。这种组件就可以查看分析评估报告,可以看到混淆取证的结果。

image.png

还有一点要说明的就是如果组件运行成功之后,会出现绿色的勾,说明没有问题。

image.png

但是如果运行失败就会变成差,查看日志,组件和组件之间的输出和输入的连接也是非常重要的,特别像SQL脚本,因为在 SQL 脚本当中,它的配置就是代码。同时,他把之前联络的表格映射到 T1T2T3T4这4个表名区,比如表是project 表,要对这张表格进行一些 SQL 的查询。他这里写的输入数据自动映射到t1~t4,使用方法如select*from $(t1),也就是说如果两个组件之间连线连到的是 SQL 组件的第1个输入点,在映射的时候就要把表名映射成t1,如果连的是第2个节点,如下图所示

image.png

如果的 SQL 脚本当中还是写的t1,它就会报错。右键点击执行该节点,看到执行失败,查看日志就会出现报错的信息,就可以去进行排错。

image.png

在机器学习当中,也可以进行数据的上传和建表,是在数据源页面里面,在这里列出了已经内置的一些公共表,所有的注册用户都可以去使用这些表。

image.png

在这里也可以进行创建表,操作的方式和在 dataworks 里面区别不大,可以用命令行建表也可以用可视化建表,建完表之后点击下一步就可以上传数据,总体上操作和在 dataworks 里面是基本上没有什么太大的区别,以上就是 dataworks 和 PAI 的入门演示。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
SQL 数据采集 分布式计算
DataWorks 基本操作演示|学习笔记
快速学习 DataWorks 基本操作演示
4492 0
DataWorks 基本操作演示|学习笔记
|
4月前
|
前端开发 安全 编译器
C++进阶操作
C++进阶操作
|
编译器
C进阶:文件的基础操作(一)
C进阶:文件的基础操作
73 0
Axure快速入门(02) - 入门例子(登录案例)
Axure快速入门(02) - 入门例子(登录案例)
70 0
|
NoSQL 前端开发 分布式数据库
102 云笔记案例(功能列表)
102 云笔记案例(功能列表)
66 0
|
BI 定位技术 Python
SWMM从入门到实践教程 04 快速入门案例的模拟执行
在左侧双击Options中的Dates,即可弹出时间的设置。此处为了教学,建议仅模拟6个小时,加快结果的生成。实际项目中,可以根据需求对指定场次的降雨时常进行模拟,并注意这个时常一定不低于降雨时常(我们的雨量计设置了2小时降雨,所有66个小时的模拟也是合理的)。
|
C语言
C进阶:文件的基础操作(三)
C进阶:文件的基础操作(三)
75 0
|
监控 Dubbo Java
使用场景演示 | 学习笔记
快速学习使用场景演示,介绍了使用场景演示系统机制, 以及在实际应用过程中如何使用。
使用场景演示 | 学习笔记
|
SQL 运维 分布式计算
阿里云相关产品操作演示 | 学习笔记
快速学习阿里云相关产品操作演示。
阿里云相关产品操作演示  |  学习笔记
|
SQL 分布式计算 算法
推荐引擎RecEng基本操作演示|学习笔记
快速学习推荐引擎RecEng基本操作演示
199 0
推荐引擎RecEng基本操作演示|学习笔记