2.E-MapReduce+DataWorks 最佳实践(二)|学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习2.E-MapReduce+DataWorks 最佳实践

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:2.E-MapReduce+DataWorks 最佳实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1250


2.E-MapReduce+DataWorks 最佳实践(二)


15、建表语句做好之后,做一个数据开发的一个工作,那数据集成的内容已经做好了,把集成过来的数据源存放到这两张表里面,接下来做一个数据开发,数据开发的工作是把一个用户对网址的操作的日志和访问网址的用户的个人信息,把它们做一个关联,这样去形成一个网站的用户画像分析。数据开发分为三层,第一层是ods层,第二层次是dw层,第三层是rpt层,那首先看ods层,在里面是输入首先建立一个ods层的一个表格,这是定义的一个表里面的参数,也是同样的给jar包,

using jar'oss://dw-emr-demo/ ip2region/ ip2region-emr.jar' ;

可以看到它里面用到了一个jar包,也是要存储在oss管理文件夹的,给它单独设置一个文件管理的位置,那jar包现在是要在代理上传,如果是mer做jar包,找到给jar包新建的那个目录下面,选择上传文件把那个jar包上传上来。实验用到的jar包,它主要是做一个IP转换地域的操作,那把jar包上传到这之后,返回到dataworks数据开发的页面,这些是操作的一个内容。也是给它找一个地方来存储。那ods层做好之后,再去建立dw层的开发工作,也是创建一个dw层的表格,存放它的内容进行一个过滤。这些是这一层的运行的规则。第三层是做一个rpt层,也是首先创建一张表,接下来还是去挑出用户的信息。如果创建完表之后想要select,看数据是否把它已经集成过来了,那地方可以select一下,单独运行,去试一下它是否能够获取到想要的数据。

16、还有一点需要注意的是,点击某一个节点之后,右边有一个调度配置,调度配置里面可以去设置节点的调度的情况,包括调度的周期,调度的具体的时间,包括调度的依赖,那节点因为是虚节点,那它的上游节点,就默认选择了工作空间跟节点作为它的上游节点,可以看到它的下游节点是下面两层,因为在页面上已经手动把它们的关系对应起来了,所以它的调度配置里面也已经默认的给关联上了,那么其它也都是一样的,也可以在调度配置里面选择它的调度时间,正常来讲,下游节点的运行是依赖于上游节点运行完成,它才会开始的,那整个流程,可以清晰的看到是这样一个顺序,如果全部每一个节点都配置完之后,可以右键第一个节点,选择运行节点及下游,可以在页面上看页面这些流节点是否能够跑通。运行它可能需要一定的时间,如果每一个节点运行成功,后面是有一个绿色的对勾。之前已经跑过了一个,可以看到是每一个都可以跑通的,跑通之后证明它可能流程是没有问题的。

image.png

17、想看哪个 select 它的数据是否能够转过来了,那可以看它的具体的内容,比如ods层,首先看第一个数据表格,这些建表语句给它数据同步过来之后,如果要找一个地方存放,同步完之后可以看 select 的结果是包括用户的id,它的性别年龄星座以及它日期分区都已经展现出来了,如果有结果就说明数据同步的任务是成功的。再看另外一个数据同步节点,它的结果也可以看到网站的操作的日志,它的日志的IP地址,包括它的分区都可以展现出来,那说明同步任务做的也没有问题,数据同步过来之后,到最后可能也想看数据开发的结果是不是有用,也就是想要把这两张表里面的内容做一个融合,可以看到它每个都可以对应上,比如用户的ID,它的一个IP地址,它的地域是哪里,已经把IP地址转化成地域了,它用的方式是手游还是电脑端,包括它的性别年龄,星座都可以做一一的对应,那说明数据开发是一样的。

18、数据开发的节点工作页面可以完成之后,配置就结束了,配置结束之后怎么去调度它?那就是要把这些节点要点击提交。因为这些节点之前都已经提交过了,如果是没有提交过的节点,它会显示在这,全部点击提交就可以了。比如可以看到任务发布过程,如果提交之后,会跳转到任务发布的功能,它提示简单模式没有发布包功能,它发布是给标准模式创建的,如果是简单,只要一旦提交,工作流程中默认进入了一个生产环境,那就可以去运维中心找到对应的工作空间,点击它运维任务,可以看到这些节点,提交这些节点都可以在周期任务里面找到这些节点,如果调度过周期任务,可以在周期实例里面就可以看到之前调度的内容。显示还未运行,是因为它上个节点还没有结束,那如果为了快速看,可以进入到部署,可以看它的补数据操作。

快速看到一个调度,给它补数据,比如给虚节点去进行一个补数据,补数据当前节点和下游,可以看到需要补数据的所有的节点都在这,把它勾选上,点击确认。那这时它会跳转到补数据的实例页面上,它就会一直显示实例下面所有节点的音频状态。可以看到节点它的运行的结果,如果想要看更多详情,可以点击右下角,看到它的属性上下文,运行日志,包括操作日志,这些都可以看到,它运行可能需要一点时间。

19、dataworks 另外一个功能,肯定就是数据质量,因为对于数据表传上来之后,肯定会关注于数据质量是否有问题,表里的数据是不是有问题的数据,那就可以点击数据质量,进入到数据质量的模块,这里有一个做好的,如果是进入到数据质量的模块,可以看到。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
SQL 分布式计算 并行计算
Hadoop学习笔记(三)之MapReduce
Hadoop学习笔记(三)之MapReduce
|
3月前
|
缓存 分布式计算 算法
优化Hadoop MapReduce性能的最佳实践
【8月更文第28天】Hadoop MapReduce是一个用于处理大规模数据集的软件框架,适用于分布式计算环境。虽然MapReduce框架本身具有很好的可扩展性和容错性,但在某些情况下,任务执行可能会因为各种原因导致性能瓶颈。本文将探讨如何通过调整配置参数和优化算法逻辑来提高MapReduce任务的效率。
406 0
|
6月前
|
数据采集 分布式计算 DataWorks
DataWorks产品使用合集之在DataWorks中,在MapReduce作业中指定两个表的所有分区如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
76 0
|
6月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
511 0
|
12月前
|
分布式计算 DataWorks
DataWorks想在mapreduce中指定两个表的所有分区
DataWorks想在mapreduce中指定两个表的所有分区,
44 1
|
SQL 存储 自然语言处理
阿里云 DataWorks 智能数据建模(二)| 学习笔记
快速学习阿里云 DataWorks 智能数据建模
1116 0
阿里云 DataWorks 智能数据建模(二)| 学习笔记
|
存储 SQL 弹性计算
视频-《 E-MapReduce 组件介绍》|学习笔记(四)
快速学习视频-《 E-MapReduce 组件介绍》
100 0
视频-《 E-MapReduce 组件介绍》|学习笔记(四)
|
存储 分布式计算 运维
视频-《E-MapReduce 组件介绍》|学习笔记(一)
快速学习视频-《E-MapReduce组件介绍》
121 0
视频-《E-MapReduce 组件介绍》|学习笔记(一)
|
SQL 弹性计算 分布式计算
视频-《E-MapReduce》|学习笔记(四)
快速学习视频-《E-MapReduce》
196 0
视频-《E-MapReduce》|学习笔记(四)
|
DataWorks 大数据 调度
《DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季》电子版地址
DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季
121 0
《DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季》电子版地址