开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:2.E-MapReduce+DataWorks 最佳实践】与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/81/detail/1250
2.E-MapReduce+DataWorks 最佳实践(二)
15、建表语句做好之后,做一个数据开发的一个工作,那数据集成的内容已经做好了,把集成过来的数据源存放到这两张表里面,接下来做一个数据开发,数据开发的工作是把一个用户对网址的操作的日志和访问网址的用户的个人信息,把它们做一个关联,这样去形成一个网站的用户画像分析。数据开发分为三层,第一层是ods层,第二层次是dw层,第三层是rpt层,那首先看ods层,在里面是输入首先建立一个ods层的一个表格,这是定义的一个表里面的参数,也是同样的给jar包,
using jar'oss://dw-emr-demo/ ip2region/ ip2region-emr.jar' ;
可以看到它里面用到了一个jar包,也是要存储在oss管理文件夹的,给它单独设置一个文件管理的位置,那jar包现在是要在代理上传,如果是mer做jar包,找到给jar包新建的那个目录下面,选择上传文件把那个jar包上传上来。实验用到的jar包,它主要是做一个IP转换地域的操作,那把jar包上传到这之后,返回到dataworks数据开发的页面,这些是操作的一个内容。也是给它找一个地方来存储。那ods层做好之后,再去建立dw层的开发工作,也是创建一个dw层的表格,存放它的内容进行一个过滤。这些是这一层的运行的规则。第三层是做一个rpt层,也是首先创建一张表,接下来还是去挑出用户的信息。如果创建完表之后想要select,看数据是否把它已经集成过来了,那地方可以select一下,单独运行,去试一下它是否能够获取到想要的数据。
16、还有一点需要注意的是,点击某一个节点之后,右边有一个调度配置,调度配置里面可以去设置节点的调度的情况,包括调度的周期,调度的具体的时间,包括调度的依赖,那节点因为是虚节点,那它的上游节点,就默认选择了工作空间跟节点作为它的上游节点,可以看到它的下游节点是下面两层,因为在页面上已经手动把它们的关系对应起来了,所以它的调度配置里面也已经默认的给关联上了,那么其它也都是一样的,也可以在调度配置里面选择它的调度时间,正常来讲,下游节点的运行是依赖于上游节点运行完成,它才会开始的,那整个流程,可以清晰的看到是这样一个顺序,如果全部每一个节点都配置完之后,可以右键第一个节点,选择运行节点及下游,可以在页面上看页面这些流节点是否能够跑通。运行它可能需要一定的时间,如果每一个节点运行成功,后面是有一个绿色的对勾。之前已经跑过了一个,可以看到是每一个都可以跑通的,跑通之后证明它可能流程是没有问题的。
17、想看哪个 select 它的数据是否能够转过来了,那可以看它的具体的内容,比如ods层,首先看第一个数据表格,这些建表语句给它数据同步过来之后,如果要找一个地方存放,同步完之后可以看 select 的结果是包括用户的id,它的性别年龄星座以及它日期分区都已经展现出来了,如果有结果就说明数据同步的任务是成功的。再看另外一个数据同步节点,它的结果也可以看到网站的操作的日志,它的日志的IP地址,包括它的分区都可以展现出来,那说明同步任务做的也没有问题,数据同步过来之后,到最后可能也想看数据开发的结果是不是有用,也就是想要把这两张表里面的内容做一个融合,可以看到它每个都可以对应上,比如用户的ID,它的一个IP地址,它的地域是哪里,已经把IP地址转化成地域了,它用的方式是手游还是电脑端,包括它的性别年龄,星座都可以做一一的对应,那说明数据开发是一样的。
18、数据开发的节点工作页面可以完成之后,配置就结束了,配置结束之后怎么去调度它?那就是要把这些节点要点击提交。因为这些节点之前都已经提交过了,如果是没有提交过的节点,它会显示在这,全部点击提交就可以了。比如可以看到任务发布过程,如果提交之后,会跳转到任务发布的功能,它提示简单模式没有发布包功能,它发布是给标准模式创建的,如果是简单,只要一旦提交,工作流程中默认进入了一个生产环境,那就可以去运维中心找到对应的工作空间,点击它运维任务,可以看到这些节点,提交这些节点都可以在周期任务里面找到这些节点,如果调度过周期任务,可以在周期实例里面就可以看到之前调度的内容。显示还未运行,是因为它上个节点还没有结束,那如果为了快速看,可以进入到部署,可以看它的补数据操作。
快速看到一个调度,给它补数据,比如给虚节点去进行一个补数据,补数据当前节点和下游,可以看到需要补数据的所有的节点都在这,把它勾选上,点击确认。那这时它会跳转到补数据的实例页面上,它就会一直显示实例下面所有节点的音频状态。可以看到节点它的运行的结果,如果想要看更多详情,可以点击右下角,看到它的属性上下文,运行日志,包括操作日志,这些都可以看到,它运行可能需要一点时间。
19、dataworks 另外一个功能,肯定就是数据质量,因为对于数据表传上来之后,肯定会关注于数据质量是否有问题,表里的数据是不是有问题的数据,那就可以点击数据质量,进入到数据质量的模块,这里有一个做好的,如果是进入到数据质量的模块,可以看到。