【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-04-DataIDE基本操作(下)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-04-DataIDE基本操作(下)

5)查看同步结果


展开左侧菜单,点击“公共表”,搜索表名,点击“数据预览”可预览表的数据。

20200711131211409.png

2.3 新建ODPS SQL


本小节目的是创建目标表t_dml_result,用于存储数据分析后产生的结果。

进入数据开发页面,点击“临时查询”,右键新建节点ODPS SQL;

20200711131238274.png

输入节点名称,点击“提交”。

20200711131257239.png


双击节点,输入建表语句,点击“运行”。

20200711131316167.png


建表语句如下:


create table IF NOT EXISTS t_dml_result ( province string, product_id bigint, cnt bigint ) partitioned by (sale_date string);

创建表成功后,展开左侧菜单,点击“公共表”,搜索表名,查看表信息:

20200711131333413.png

2.4 新建业务流程


1)新建业务流程

进入数据开发页面,展开左侧菜单,点击“数据开发”,选择“新建业务流程”;


20200711131403949.png


输入业务名称,如图所示:

20200711131420358.png


2) 新建虚拟节点

打开业务流程,在“通用”中点击“虚拟节点”,输入节点名后点击“提交”。


20200711131437116.png

3) 新建数据节点


在“MaxCompute”中,点击“ODPS SQL”,输入节点名称后点击“提交”。

20200711131455778.png

2020071113151059.png

4) 编辑数据节点


双击数据节点,编辑SQL语句, 点击“保存”。

20200711131530452.png

本SQL实现按省份和产品维度,对每天的销售量进行汇总。代码如下:

INSERT OVERWRITE TABLE t_dml_result PARTITION(sale_date) SELECT province ,product_id ,SUM(cnt) AS cnt ,’s d a t e ′ a s s a l e d a t e F R O M t d m l d a t a W H E R E d s = ′ 201 7 ′ A N D S U B S T R ( s a l e d a t e , 1 , 10 ) = ′ {sdate}'as sale_date FROM t_dml_data WHERE ds = '2017' AND SUBSTR(sale_date,1,10) = 'sdate 
 assale 
d
 ateFROMt 
d
 ml 
d
 ataWHEREds= 
 2017 
 ANDSUBSTR(sale 
d
 ate,1,10)= 
 {sdate}’ GROUP BY product_id ,province;


打开右侧“调度配置”,点击参数配置,设置参数:sdate=$[yyyy-mm-dd-1],点击“保存”。

20200711131549144.png


5) 设置依赖关系


双击虚拟节点,展开右侧的“调度配置”,在“调度依赖”中选择依赖的上游节点,本示例中点击“使用工作空间根节点”。

20200711131607873.png

节点间通过拖拽连线形成上下游依赖关系。

20200711131624369.png


6)设置调度属性


双击数据节点,点击右侧“调度配置”,设置“时间属性”。此处可以配置调度的生效日期,调度周期,运行时间,是否依赖上一周期等,然后点击“保存”。

20200711131642272.png


本示例的任务是对每天的销售量进行汇总,故而设置成调度每天运行一次。

在跨周期依赖中,可以设置自依赖。本示例选择“不依赖上一周期”,即无论上一周期任务是否完成,本周期都会正常运行。


7) 提交业务流程


设置完成后,点击“提交”业务流程。

20200711131659896.png

弹出提交选项卡,选择需要提交的节点,输入备注信息,然后点击“提交”。

20200711131719356.png

8) 测试业务流程


点击“运行”业务流程,如果有报错,需要对代码进行调试。


2020071113174240.png

运行成功后如图所示:右键单击节点,可查看节点运行日志。

20200711131806363.png

运行日志如图所示:

20200711131823644.png

2.5 任务运维


2.4.1 打开运维中心


运维中心是对任务和实例展示/操作的地方。有两种方式可进入运维中心。

方式一:在数据开发页面,点击上方的“前往运维”按钮进入运维中心。

20200711131855140.png

方式二:点击左上角的“DataWorks”图标,在下拉列表中选择“运维中心”。

20200711131912834.png

运维中心包括运维大屏、任务列表、任务运维和智能监控四大模块。

20200711131929989.png

2.4.2 任务列表


任务列表分周期任务和手动任务。


周期任务:调度系统按照调度配置自动定时执行的任务。


手动任务:新建任务时,调度类型选择手动任务后,提交到调度系统的任务。


选择左侧菜单栏中的“周期任务”,查看已提交的周期任务。选中任务,点击鼠标右键,可执行相应操作。


如下图所示,展开子节点


20200711131948216.png



点击“查看更多详情”,即可弹出任务属性、运行日志、操作日志、代码等。

2020071113200842.png


详情说明:


属性:此节点的属性介绍,包括调度类型、状态、时间等信息。

运行日志:此节点在运行后或运行中的日志信息。

操作日志:对节点的操作日志,包括节点变更、补数据等操作的记录。

代码:节点编辑的代码。

20200711132026473.png


选择“补数据”,即可对当前节点补历史数据,可选择包含本节点、包含本节点和下游节点。


20200711132045792.png


注意:源表t_dml_data中数据时间为2015年5月,此处的业务日期请选择该时间段方可运行出结果。如图所示,设置业务日期为2015-05-01至2015-05-03.然后点击“确定”,则会按天生成3个实例。

20200711132103669.png

2020071113211699.png


说明:实例越多,消耗资源越多,花费时间越长,建议实验中此处周期选择短一点。在实际生产环境中,依项目具体情况而定。


2.4.3 任务运维

补数据实例创建成功后,在“任务运维”列表下的“补数据实例”中可查看。


补数据实例是对周期任务进行补数据时产生的实例,可对补数据任务实例进行运维管理,如查看运行状态,对任务实例进行终止、重跑、解冻等操作。


20200711132133980.png


任务正在运行时,点击刷新按钮可刷新任务运行状态。直到所有实例都运行成功。

实例状态说明:运行成功image.png 、未运行image.png 、运行失败image.png 、正在运行image.png 、等待image.png 、冻结image.png


20200711132151798.png


任意点击某个实例,右侧显示节点信息。

右键单击节点,可查看更多操作。


操作说明:


展开父节点/子节点:当一个工作流有3个节点及以上时,运维中心展示任务时会自动隐藏节点,用户可通过展开父子层级,来看到更多的节点依赖关系,层级越大,展示越全面。


查看运行日志:进入运维日志界面,可以在运维日志中看到logview等信息。


查看代码:查看当前节点的代码。


编辑节点:单击后可进入节点编辑页面,对节点内容进行修改。


查看血缘:查看此节点的血缘关系图。


终止运行:如果实例在运行中,可单击终止运行,停止任务,只对本次实例有效。


重跑:重新调度此实例。


重跑下游:当前节点的下游重跑实例,如果存在多个下游实例,将会全部重跑。


置成功:将当前节点状态改为成功。


暂停(冻结):将当前节点置为暂停(冻结)状态,并停止调度。当节点状态为暂停时,在节点名称后会出现 图标。


恢复(解冻): 将暂停(冻结)的节点恢复调度。

20200711132215589.png


如图所示,点击“查看运行日志”:

20200711132231249.png


2.4.4 智能监控


智能监控是DataWorks(数据工场)任务运行的监控及分析系统。根据监控规则和任务运行情况,智能监控决策是否报警、何时报警、如何报警以及给谁报警。

下面将演示如何在规则管理页面自定义报警规则。

1) 单击“规则管理”页面右侧的“新建自定义规则”。

20200711132250381.png


2) 在新建自定义规则弹窗内,输入规则名称、规则对象、触发方式、报警行为等参数,并单击确认生成规则。


各配置项说明如下:


对象类型:控制监控的粒度,可以选择以基线、项目或任务节点作为监控对象。


触发条件:可设置为完成、未完成、出错或超时。


最小报警间隔:两次报警之间的时间间隔。


最大报警次数:报警的最大次数,超过这个次数后无论监控对象状态如何,都不再产生报警。


接收人:报警的对象,可设置为责任人、值班表或其他接收人。


免打扰时间:在该时间段内不会发送报警

2020071113231190.png


3)完成上述设置后,单击规则管理页面,点击详情可查看规则的具体内容

20200711132330262.png

触发条件说明:


出错:任务一旦出错,则报警给设置的报警对象。同时推送详细的任务出错信息。


完成:一旦设置的对象上所有的任务完成,则会发送报警。


未完成:例如设置某条基线在10:00完成,则10点只要基线上有一个任务没有完成,则会发送报警,同时推送没有完成的任务列表给您。


超时:一旦设置的对象上有被监控的任务在指定时间内未完成,则会发送报警。


4)查询报警信息


点击左侧菜单列表的“报警信息”,通过规则ID/名称或报警时间、接收人,可搜索查询到具体的报警信息。

20200711132348569.png


2.6 数据管理


数据管理模块可进行组织内全局数据视图的查看、分权管理、元数据信息详情、数据生命周期管理、数据表/资源/函数权限管理审批等操作。

点击左上方图标DataWorks,切换到 数据管理页面。

20200711132411708.png


数据表管理模块对数据表进行分类,并为各分类提供不同的表信息以及表操作管理功能,以便管理自己的数据表。


如下图所示,点击“我管理的表”,即可查看实验中生成的表。


20200711132433791.png


在数据表管理中,可对表进行生命周期设置、表管理(包括修改表的类目、描述、字段、分区等)、表隐藏/取消隐藏和表删除等操作。

如下图所示,查看表的字段信息:

20200711132451874.png


如下图所示,查看表的分区信息:

20200711132508493.png


如下图所示,预览表中数据:


第 3 章:思考与讨论


3.1 思考与讨论


在实际场景中,作为生产系统,数据是源源不断产生的。


那么在本实验中,要把新产生的数据从RDS同步到ODPS进行大数据处理,需如何改进呢?


参考答案如下:


1、“IDE同步”业务流程配置调度信息;


2、源表数据抽取时,根据时间设置“数据过滤”条件;


3、目标表的分区,由常量改为变量;


4、“IDE开发”中where条件加分区,避免全表扫描。


4.1 课后任务


1、创建一个按天调度的同步任务;

2、将ODPS中生成的结果表同步到RDS中。

目录
相关文章
|
4天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
4天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
24 2
|
1月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据生态圈体系
阿里云大数据计算服务MaxCompute(原ODPS)提供大规模数据存储与计算,支持离线批处理。针对实时计算需求,阿里云推出Flink版。此外,阿里云还提供数据存储服务如OSS、Table Store、RDS和DRDS,以及数据分析平台DataWorks、Quick BI和机器学习平台PAI,构建全面的大数据生态系统。
68 18
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
3月前
|
人工智能 分布式计算 DataWorks
连续四年!阿里云领跑中国公有云大数据平台
近日,国际数据公司(IDC)发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》报告——2023年中国大数据平台公有云服务市场规模达72.2亿元人民币,其中阿里巴巴市场份额保持领先,占比达40.2%,连续四年排名第一。
257 12
|
3月前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
487 17
|
3月前
|
SQL 人工智能 大数据
阿里云牵头起草!首个大数据批流融合国家标准发布
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
105 7
|
3月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
3月前
|
存储 SQL 分布式计算
Java连接阿里云MaxCompute例
要使用Java连接阿里云MaxCompute数据库,首先需在项目中添加MaxCompute JDBC驱动依赖,推荐通过Maven管理。避免在代码中直接写入AccessKey,应使用环境变量或配置文件安全存储。示例代码展示了如何注册驱动、建立连接及执行SQL查询。建议使用RAM用户提升安全性,并根据需要配置时区和公网访问权限。具体步骤和注意事项请参考阿里云官方文档。
395 10
|
3月前
|
机器学习/深度学习 数据可视化 大数据
阿里云大数据的应用示例
阿里云大数据应用平台为企业提供高效数据处理与业务洞察工具,涵盖Quick BI、DataV及PAI等核心产品。DT203课程通过实践教学,帮助学员掌握数据可视化、报表设计及机器学习分析技能,提升数据驱动决策能力。Quick BI简化复杂数据分析,DataV打造震撼可视化大屏,PAI支持全面的数据挖掘与算法应用。课程面向CSP、ISV及数据工程师等专业人士,为期两天,结合面授与实验,助力企业加速数字化转型。完成课程后,学员将熟练使用阿里云工具进行数据处理与分析。[了解更多](https://edu.aliyun.com/training/DT203)