2.E-MapReduce+DataWorks 最佳实践(二)|学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习2.E-MapReduce+DataWorks 最佳实践

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:2.E-MapReduce+DataWorks 最佳实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1250


2.E-MapReduce+DataWorks 最佳实践(二)


15、建表语句做好之后,做一个数据开发的一个工作,那数据集成的内容已经做好了,把集成过来的数据源存放到这两张表里面,接下来做一个数据开发,数据开发的工作是把一个用户对网址的操作的日志和访问网址的用户的个人信息,把它们做一个关联,这样去形成一个网站的用户画像分析。数据开发分为三层,第一层是ods层,第二层次是dw层,第三层是rpt层,那首先看ods层,在里面是输入首先建立一个ods层的一个表格,这是定义的一个表里面的参数,也是同样的给jar包,

using jar'oss://dw-emr-demo/ ip2region/ ip2region-emr.jar' ;

可以看到它里面用到了一个jar包,也是要存储在oss管理文件夹的,给它单独设置一个文件管理的位置,那jar包现在是要在代理上传,如果是mer做jar包,找到给jar包新建的那个目录下面,选择上传文件把那个jar包上传上来。实验用到的jar包,它主要是做一个IP转换地域的操作,那把jar包上传到这之后,返回到dataworks数据开发的页面,这些是操作的一个内容。也是给它找一个地方来存储。那ods层做好之后,再去建立dw层的开发工作,也是创建一个dw层的表格,存放它的内容进行一个过滤。这些是这一层的运行的规则。第三层是做一个rpt层,也是首先创建一张表,接下来还是去挑出用户的信息。如果创建完表之后想要select,看数据是否把它已经集成过来了,那地方可以select一下,单独运行,去试一下它是否能够获取到想要的数据。

16、还有一点需要注意的是,点击某一个节点之后,右边有一个调度配置,调度配置里面可以去设置节点的调度的情况,包括调度的周期,调度的具体的时间,包括调度的依赖,那节点因为是虚节点,那它的上游节点,就默认选择了工作空间跟节点作为它的上游节点,可以看到它的下游节点是下面两层,因为在页面上已经手动把它们的关系对应起来了,所以它的调度配置里面也已经默认的给关联上了,那么其它也都是一样的,也可以在调度配置里面选择它的调度时间,正常来讲,下游节点的运行是依赖于上游节点运行完成,它才会开始的,那整个流程,可以清晰的看到是这样一个顺序,如果全部每一个节点都配置完之后,可以右键第一个节点,选择运行节点及下游,可以在页面上看页面这些流节点是否能够跑通。运行它可能需要一定的时间,如果每一个节点运行成功,后面是有一个绿色的对勾。之前已经跑过了一个,可以看到是每一个都可以跑通的,跑通之后证明它可能流程是没有问题的。

image.png

17、想看哪个 select 它的数据是否能够转过来了,那可以看它的具体的内容,比如ods层,首先看第一个数据表格,这些建表语句给它数据同步过来之后,如果要找一个地方存放,同步完之后可以看 select 的结果是包括用户的id,它的性别年龄星座以及它日期分区都已经展现出来了,如果有结果就说明数据同步的任务是成功的。再看另外一个数据同步节点,它的结果也可以看到网站的操作的日志,它的日志的IP地址,包括它的分区都可以展现出来,那说明同步任务做的也没有问题,数据同步过来之后,到最后可能也想看数据开发的结果是不是有用,也就是想要把这两张表里面的内容做一个融合,可以看到它每个都可以对应上,比如用户的ID,它的一个IP地址,它的地域是哪里,已经把IP地址转化成地域了,它用的方式是手游还是电脑端,包括它的性别年龄,星座都可以做一一的对应,那说明数据开发是一样的。

18、数据开发的节点工作页面可以完成之后,配置就结束了,配置结束之后怎么去调度它?那就是要把这些节点要点击提交。因为这些节点之前都已经提交过了,如果是没有提交过的节点,它会显示在这,全部点击提交就可以了。比如可以看到任务发布过程,如果提交之后,会跳转到任务发布的功能,它提示简单模式没有发布包功能,它发布是给标准模式创建的,如果是简单,只要一旦提交,工作流程中默认进入了一个生产环境,那就可以去运维中心找到对应的工作空间,点击它运维任务,可以看到这些节点,提交这些节点都可以在周期任务里面找到这些节点,如果调度过周期任务,可以在周期实例里面就可以看到之前调度的内容。显示还未运行,是因为它上个节点还没有结束,那如果为了快速看,可以进入到部署,可以看它的补数据操作。

快速看到一个调度,给它补数据,比如给虚节点去进行一个补数据,补数据当前节点和下游,可以看到需要补数据的所有的节点都在这,把它勾选上,点击确认。那这时它会跳转到补数据的实例页面上,它就会一直显示实例下面所有节点的音频状态。可以看到节点它的运行的结果,如果想要看更多详情,可以点击右下角,看到它的属性上下文,运行日志,包括操作日志,这些都可以看到,它运行可能需要一点时间。

19、dataworks 另外一个功能,肯定就是数据质量,因为对于数据表传上来之后,肯定会关注于数据质量是否有问题,表里的数据是不是有问题的数据,那就可以点击数据质量,进入到数据质量的模块,这里有一个做好的,如果是进入到数据质量的模块,可以看到。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 产品官网 https://www.aliyun.com/product/bigdata/ide 大数据&AI体验馆 https://workbench.data.aliyun.com/experience.htm#/ 帮助文档https://help.aliyun.com/zh/dataworks 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
打赏
0
0
0
0
217
分享
相关文章
DataWorks 产品评测与最佳实践探索!
DataWorks 是阿里巴巴推出的一站式智能大数据开发治理平台,内置15年实践经验,集成多种大数据与AI服务。本文通过实际使用角度,探讨其优势、潜力及改进建议。评测涵盖用户画像分析、数据治理、功能表现等方面,适合数字化转型企业参考。
159 1
开发者评测:DataWorks — 数据处理与分析的最佳实践与体验
阿里云DataWorks是一款集成化的大数据开发治理平台,支持从数据导入、清洗、分析到报告生成的全流程自动化。通过用户画像分析实践,验证了其高效的数据处理能力。DataWorks在电商和广告数据处理中表现出色,提供了强大的任务调度、数据质量监控和团队协作功能。相比其他工具,DataWorks易用性高,与阿里云服务集成紧密,但在API支持和成本优化方面有待提升。总体而言,DataWorks为企业提供了强有力的数据开发和治理支持,尤其适合有阿里云生态需求的团队。
694 17
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
294 0
DataWorks产品评测与最佳实践分享
DataWorks产品评测与最佳实践分享
121 0
DataWorks产品最佳实践测评
DataWorks产品最佳实践测评
131 2
DataWorks产品评测与最佳实践体验报告
DataWorks是阿里巴巴云推出的一款高效数据处理平台,通过内置的数据集成工具和ETL功能,实现了多源数据的自动化处理与分析。本文介绍了DataWorks在用户画像分析中的应用实践,展示了其如何帮助企业高效管理数据资源,支持决策制定及营销优化。同时,文章还评测了DataWorks的产品体验,包括开通流程、功能满足度等方面,并与其它数据开发平台进行了比较,突出了DataWorks在易用性、性能和生态完整性上的优势。最后,对Data Studio新版本中的Notebook环境进行了初步探索,强调了其在提升开发效率方面的价值。
274 16
DataWorks产品评测:数据处理与分析的最佳实践
DataWorks是阿里巴巴推出的大数据开发治理平台,支持从数据采集、预处理、存储到分析的全流程操作。本文评测了其在用户画像分析中的应用,包括数据收集、清洗、特征工程、模型训练、结果评估及应用部署等步骤,展示了其在提高数据资产管理效率、支持多种编程语言和技术栈、集成丰富可视化工具等方面的优势。同时,文章也指出了DataWorks在使用过程中的一些不便与问题,并提出了改进建议。
246 17
DataWorks 产品评测:数据处理的最佳实践与体验
DataWorks是阿里巴巴云推出的一款综合型大数据开发治理平台,通过此次用户画像分析实践,展现了其在数据整合、分析及可视化方面的强大能力。该平台支持自动化ETL流程,优化了数据资产管理与决策支持,提升了跨部门协作效率,促进了业务创新。相比其他工具,DataWorks具备全面的服务生态、高性能计算能力和高智能化水平,尤其适用于处理大规模数据集。新版Data Studio进一步增强了用户体验,集成了Notebook环境与智能助手Copilot,大幅提高了开发效率。尽管存在一些小问题,但整体上,DataWorks是企业实现数字化转型的理想选择。
182 8
DataWorks产品评测:数据处理最佳实践与平台体验
DataWorks产品评测:数据处理最佳实践与平台体验
158 8

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问