EMR数据湖开发治理之用户画像分析--5

简介: EMR数据湖开发治理之用户画像分析--5

6. 配置数据质量监控

本步骤将指导您如何监控数据质量。

1. 进入表ods_raw_log_d的监控规则页面。

  1. 单击左上方的图标,选择全部产品>数据治理>数据质量

  1. 在左侧导航栏中,选择规则配置>按表配置

  1. 按表配置页面,单击ods_raw_log_d表后的配置监控规则

2. 配置表ods_raw_log_d的监控规则。

  1. 分区表达式模块,单击+

  1. 添加分区对话框中,分区表达式选择dt=$[yyyymmdd-1],数据质量插件选择“dqc_emr_plugin_datalake”,单击确认

  1. 在表ods_raw_log_d的监控规则页面,单击创建规则

  1. 创建规则面板中,选择模板规则>添加监控规则

  1. 创建规则面板中,根据如下配置相关参数,其他配置保持默认,单击批量添加

说明 :该规则主要是为了避免分区中没有数据,导致下游任务的数据来源为空的问题。

参数说明:

  • 规则名称:输入ods_raw_log_d表规则。
  • 强弱:选择强。
  • 规则模板:选择表行数,固定值。
  • 比较方式:选择大于。

3. 规则试跑

  1. 在配置表ods_raw_log_d的监控规则页面,单击试跑

  1. 试跑对话框中,单击试跑

返回试跑成功!

4. 关联调度

  1. ods_raw_log_d表的监控规则页面,单击关联调度
  2. 关联调度对话框中,输入节点ID或节点名称,单击添加

  1. 添加完成后,即可完成与调度节点任务的绑定,则任务实例运行完成都会触发数据质量的检查。

5. 配置任务订阅

  1. ods_log_info_d表的监控规则页面,单击订阅管理
  2. 订阅管理对话框中,设置订阅方式接受对象。目前支持的订阅方式包括邮件通知邮件和短信通知钉钉群机器人钉钉群机器人@ALL
  3. 设置完成后,单击保存,您可以进入我的订阅页面进行查看和修改。
目录
相关文章
|
2月前
|
存储 缓存 安全
阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS
本文作者详细地介绍了阿里云EMR数据湖文件系统JindoFS的起源、发展迭代以及性能。
72361 79
|
2月前
|
存储 消息中间件 SQL
基于 Apache Hudi 构建分析型数据湖
基于 Apache Hudi 构建分析型数据湖
40 4
|
2月前
|
存储 SQL 算法
图加速数据湖分析-GeaFlow和Apache Hudi集成
图加速数据湖分析-GeaFlow和Apache Hudi集成
36 3
|
8月前
|
存储 数据采集 安全
什么是数据管理,数据治理,数据中心,数据中台,数据湖?
什么是数据管理,数据治理,数据中心,数据中台,数据湖?
207 0
|
10月前
|
存储 分布式计算 OLAP
深度干货|谈谈阿里云AnalyticDB Spark如何构建低成本数据湖分析
本文将分享AnalyticDB MySQL Spark助力构建低成本数据湖分析的最佳实践。
|
11月前
|
分布式计算 DataWorks 对象存储
全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力
阿里云全链路数据湖开发治理解决方案能力持续升级,发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) , 一站式大数据数据开发治理平台DataWorks ,数据湖构建DLF,对象存储OSS等核心产品。支持EMR新版数据湖DataLake集群(on ECS)、自定义集群(on ECS)、Spark集群(on ACK)三种形态,对接阿里云一站式大数据开发治理平台DataWorks,沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。
1361 1
|
10月前
|
SQL 弹性计算 分布式计算
使用EMR+DLF+OSS-HDFS进行数据湖分析
本实验通过使用EMR,搭建EMR集群,对OSS-HDFS进行数据湖分析
624 0
|
12月前
|
存储 SQL 分布式计算
图加速数据湖分析-GeaFlow和Hudi集成
本文主要分析了表模型的现状和问题,然后介绍了图模型在处理关系运算上的优势,接着介绍了图计算引擎GeaFlow和数据湖格式hudi的整合,利用图计算引擎加速数据湖上的关系运算.
图加速数据湖分析-GeaFlow和Hudi集成
|
12月前
|
SQL 机器学习/深度学习 存储
阿里云数据湖分析简介和购买流程
云原生数据湖分析(简称DLA)是新一代大数据解决方案,采取计算与存储完全分离的架构,支持数据库(RDS\PolarDB\NoSQL)与消息实时归档建仓,提供弹性的Spark与Presto,满足在线交互式查询、流处理、批处理、机器学习等诉求,也是传统Hadoop方案上云的有竞争力的解决方案。
|
存储 数据采集 分布式计算
数据湖架构的优势与挑战:数据存储和分析策略
随着大数据时代的到来,数据湖架构逐渐成为许多企业进行数据存储和分析的首选方案。数据湖是一种用于存储大量原始和结构化数据的中心化存储库。在本文中,我们将深入探讨数据湖架构的优势和挑战,并介绍一些常见的数据存储和分析策略。
375 0