开发者学堂课程【场景实践-通过阿里云数据分析工具实现共享单车骑行分析:阿里云相关产品操作演示】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/527/detail/7097
阿里云相关产品操作演示
内容介绍:
一、dataworks
二、quickbi
一、dataworks
阿里云的两款工具 date works 和 quick bi 的使用。 首先登录阿里云的官网。如果已经有账号,可以点击右上角的登录。如果没有,则需要先进行注册,点击右上角的免费注册,输入用户名、密码以及手机号。 点击同意并注册。注册完成之后,启用帐户进行登录,输入用户名和密码。
在阿里云的主页面选择产品开通所需要的服务。在实验中会用到大数据基础服务 max computer、date works 以及大数据分析及展现下的 quick bi。
下面以 max computer 的开通为例。 点击然后点击立即购买。弹出的页面选择预付费和按量付费。选择按量付费。选择一个区域所属的,比如说华北、华东。然后点击立即购买。前往登录,点击右上角的控制台。建立自己的管理控制台操作界面。
在左侧的列表中选择大数据数加下的 data works 来进行程序的开发,sql调度以及数据管理等操作。
如果首次使用,这里没有任何项。 首先创建项目。点击下面的常用功能中的创建项目。然后输入项目名称 lab_class1。
付费方式选择后付费,点击确定。创建成功之后,点击全部项目可以查看刚创建的项目 lab class1。接下来的演示,以已经有的项目为例来介绍。
选择华东二的项目 level class。点击后面的进入工作区。
进入工作区域之后,主要用到数据开发和运维中心两个模块的内容。 数据开发页面在左侧的菜单栏中有任务开发脚本,开发资源管理、函数管理以及表查询。任务开发主要是做周期性的调度任务,比如每小时定时执行的实例。
脚本开发,主要是做一些临时性的任务。比如一次性建表。而表查询则列出了项目中的数据表,可以查看表的相关信息。点击一个表。下面列出了该表的字段、表的分区、表的数据预览。
回忆实验思路。实验分为三个步骤,数据准备、数据分析和数据展现。
在数据准备部分,需要先建表并上传数据集。
接下来先创建表,创建表有两种方式,一种是可视化建表,一种是脚本开发。在新建的下拉列表中选择新建表。可以输入建表语句。
也可以点击可视化建表页面。输入表名 stations。点击下一步。然后新增字段。最后提交。 点击确定,建表成功,来查看表的数据。搜索 Neighbor class。 点击数据预览,现在没有数据。建完表之后,来导入数据。
数据导入也有两种方式。一种是通过 data works 界面提供的导入接口。导入本地数据。选择 station。 要设置文件的分割符,选择逗号以及文件的字符集,还有文件导入的起始行是否为标题,这里要勾掉,然后点击下一步。输入表名 stations。匹配字段,点击导入。
导入成功,上传了582条数据,刷新后发现数据已经上传成功。 还有一种方法是通过工具导入,两种方法差别在于界面上导入的这种本地导入方式,导入本地数据文件大小是有限制的,不能超过10M。通过工具导入没有这方面的限制。
通过工具导入。首先在官网上下载压缩包,压缩包本地解压后会有四个文件夹。打开 conf 文件,右键编辑 odps _conflig.ini。 配置项目名称 lab class。
下面两个access id和access k是在开通资源的时候,提供的密钥。
配置完成之后,把数据集放在bin文件夹下面。有两个数据集,一个是 stations,一个是 trips。如果是 windows 的系统,然后双击运行 odps cmd.bat。
输入命令。然后回车。 导入成功。这是第二种的导入方式。
在数据准备阶段完成之后,接下来是数据分析阶段。先创建一个任务。在数据开发页面单击新建。选择新建任务。在弹出框中填写相关信息。
任务类型有工作流任务和节点任务。节点任务它是支持单个节点的类型。而工作流任务可以包含多个不同类型的节点,完成一个比较复杂的流程。
在这里选择任务类型为工作流任务。名称调度类型选择周期调度,点击创建。 创建成功后就跳转到工作流设计器的页面。 在页面中可以拖动节点组件来进行编辑。先拖动一个虚节点到右边的空白区域。 虚节点是控制节点,通常用于工作流的起始节点,不会产生任何数据。
再拖动 odps sql 节点进行数据加工。先创建一个专门线路。再拖一个热门站点。双击odps sql节点可以直接编辑和维护 sql 代码。这里采用的是类似 hive 的语法,与传统的 sql 语句有所不同。编辑 sql 语句,然后点击保存。
节点之间可以用连线连接起来。点击保存。 为了调度周期的运行,需要配置时间周期和参数,看节点的参数。双击节点进去后,点击右侧的参数配置。自定义参数可以是常量,也可以是变量。具体的参数的配置方法可以参考阿里云的官网。点击保存。
节点参数配置完之后,来配置调度。点击右上角的调度配置。这里需要配置调度的属性、依赖的属性以及跨周期依赖任务。
调度周期支持月、周、天、小时和分钟5种方式。配置调度周期为一天,具体的时间为凌晨三点。 然后是依赖属性,在调度配置中需要配置两个任务级别的依赖,依赖属性和跨周期依赖。一个周期运行的任务。它的依赖属性的优先级大于调度的时间属性。也就是在调度时间属性配置的某个时间点到达的时候,任务示例不会马上运行,而是先检查上游任务是否全部运行成功。当下游工作流需要依赖上游工作流产出的数据的时候,可以配置任务依赖。
默认是没有依赖上游任务。跨周期依赖选择默认,不依赖上一周期。即不依赖任何任务的上周期的实例。配置完之后点击保存。
代码和参数配置调试完毕之后,需要点击提交。 确认提交。一个任务只有提交成功之后,才会进入调度系统,按照配置的周期定时运行。而提交后的任务不可以再次编辑,需要解锁。 点击解锁,然后可以再次编辑。需要说明如果是当天的23点30分之前提交的任务,那么在第二天的实例中可以看到结果。23点30分之后提交的任务则需要在第三天的实例中才会看到。
任务提交以后,可以前往运维中心查看。点击右上角的前往运维中心的任务列表已经展示的已提交了任务,共享单车实验一。
选中这个任务,可以对任务进行测试运行、补数据以及添加报警、修改责任人、冻结任务等操作。其中,测试运行和补数据生成了实例,可以在任务运维中看到。举个例子,点击测试。
因为共享单车的数据集是2017年1月份到3月份,所以选择数据日期为3月30号。点击确认,现在实例力已经进入到了任务运维界面的测试实例当中。
刷新,时间需要说明,一个是业务日期,一个是定时时间。 定时时间是等于业务日期加上一天,再加上系统配置的调度的运行时间,就是凌晨三点。定时时间是3月31号的凌晨三点,点击实例。可以看到依赖关系和详细的信息。 点击节点。可以看到属性。运行日志以及操作日志和代码。
二、quickbi
在管理控制台界面的左侧菜单中,选择大数据数加 quickbi,点击进入 quick bi 标准版。打开 quick bi 产品首页后,可以看到流程共分为四步,添加数据源,创建数据集、制作报表以及创建门户。
第一步,添加数据源。
进入到数据源管理页面,在新弹出的窗口中,选择 max computer 填写相关的信息。 点击连接测试来检查数据源是否连接成功。如果数据源连接不正常,系统会给出相应的提示。联通成功后点击关闭,然后点击添加。 使用 max compute 数据源来做测试。点击编辑可以看到相关信息。添加完数据源之后,在数据源列表中有显示。
第二步,创建数据集,点击数据源名称。然后在页面的右侧会自动列出该数据源项所有的表。选其中一个表,然后单击后面的创建数据集。
数据集创建成功之后,会自动显示在数据集列表中,而且带有 new 标识,可以方便快速的定位。 数据集创建好之后,可以根据实际需求简单编辑数据集。点击右侧的编辑,比如切换字段类型或者新增计算字段等等。 在该页面中,系统会按照预设将数据集中的字段分别列在维度列表和度量列表中。在维度列表,然后鼠标右键单击某一字段,在下拉列表中可以选择删除等操作。也可以进行维度和度量的一个切换。比如把时间可以转化为度量,完成之后点击。 然后点击刷新,会自动将数据显示在表格中。
接下来进行第三步制作报表。 数据集编辑完成之后呢,就可以利用标本来创建报表。点击左侧菜单中的作品。进入作品列表的页面。然后单击新建,在下单列表中选择新建仪表板。
进入到仪表板的编辑页面。 首先需要添加数据集到仪表板。的数据集选择区域,单击数据集选择hot hour。 系统会按照数据的类型,将数据分别内在维度和度量的列表中。
然后开始制作数据图表。在仪表板的配置区选择一张需要的图表。选择线图。在数据标签页中,根据图表的要求,从维度和度量列表中选择需要的数据。
双击数据的名称,数据会自动填充到指定的区域。也可以进行拖动操作。数据选择完成之后,点击更新。
图表展示成了相应的数据。 在样式标签页中可以编辑图表显示的标题布局以及显示的图例,可以选择是否显示在图的左上角。布局可以选择是否显示XOY轴和轴标题。折线图可以让它变成曲线,也可以把它变成横向的图。如果想删除当前的图表,可以用鼠标指向图表的右上方,点击x。
图表制作完之后点击保存。
图表制作完之后,需要添加查询条件。在仪表板的配置区,选择查询条件,单击查询条件控件,可以打开编辑菜单。
在下拉菜单中,为查询条件控件选择个数据集hot hour查询条件,支持同源关联和非同源关联两种模式。选择同源关联。
在同源观点的列表中,选择一个需要作用的图表执行时刻趋势图。按钮选择右上。 鼠标指向查询字段,字段周围会浮现一个蓝色的虚线框。 单击虚线框内部,菜单的左侧会自动打开查询里的编辑菜单。选择枚举并决定是单选还是复选,这里选择单选。
在查询条件控件中单击下拉箭头可以选择需要查询的日期。 仪表板编辑完成后,可以通过预览查看图表的效果。
首先先把图表排序。拖动先点击保存仪表板。 然后点击预览按钮。可以选择一个日期,点击右上角的叉叉,关掉预览。仪表板编辑完成并保存之后,可以在作品-我的仪表板中查看。 点击右上角的编辑,再次进行编辑。 可以按照相似的步骤把其他几个图形做出来。