EMR数据湖开发治理之用户画像分析--5

简介: EMR数据湖开发治理之用户画像分析--5

6. 配置数据质量监控

本步骤将指导您如何监控数据质量。

1. 进入表ods_raw_log_d的监控规则页面。

  1. 单击左上方的图标,选择全部产品>数据治理>数据质量

  1. 在左侧导航栏中,选择规则配置>按表配置

  1. 按表配置页面,单击ods_raw_log_d表后的配置监控规则

2. 配置表ods_raw_log_d的监控规则。

  1. 分区表达式模块,单击+

  1. 添加分区对话框中,分区表达式选择dt=$[yyyymmdd-1],数据质量插件选择“dqc_emr_plugin_datalake”,单击确认

  1. 在表ods_raw_log_d的监控规则页面,单击创建规则

  1. 创建规则面板中,选择模板规则>添加监控规则

  1. 创建规则面板中,根据如下配置相关参数,其他配置保持默认,单击批量添加

说明 :该规则主要是为了避免分区中没有数据,导致下游任务的数据来源为空的问题。

参数说明:

  • 规则名称:输入ods_raw_log_d表规则。
  • 强弱:选择强。
  • 规则模板:选择表行数,固定值。
  • 比较方式:选择大于。

3. 规则试跑

  1. 在配置表ods_raw_log_d的监控规则页面,单击试跑

  1. 试跑对话框中,单击试跑

返回试跑成功!

4. 关联调度

  1. ods_raw_log_d表的监控规则页面,单击关联调度
  2. 关联调度对话框中,输入节点ID或节点名称,单击添加

  1. 添加完成后,即可完成与调度节点任务的绑定,则任务实例运行完成都会触发数据质量的检查。

5. 配置任务订阅

  1. ods_log_info_d表的监控规则页面,单击订阅管理
  2. 订阅管理对话框中,设置订阅方式接受对象。目前支持的订阅方式包括邮件通知邮件和短信通知钉钉群机器人钉钉群机器人@ALL
  3. 设置完成后,单击保存,您可以进入我的订阅页面进行查看和修改。
目录
相关文章
|
16天前
|
SQL 分布式计算 关系型数据库
Dataphin x Paimon 开箱即用的数据湖治理解决方案
Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
111 2
|
SQL 分布式计算 Apache
Dataphin x Iceberg 开箱即用的数据湖治理解决方案
Apache Iceberg作为新一代开源数据湖表格式,具备ACID事务、时间旅行和高效Schema演化等能力。Dataphin已完成与Iceberg的深度集成,通过全链路适配与性能优化,为企业提供开箱即用的数据湖治理方案,涵盖数据源支持、离线与实时数据集成、数据研发等核心模块,助力构建现代化数据架构。
164 0
|
6月前
|
存储 分布式计算 OLAP
百观科技基于阿里云 EMR 的数据湖实践分享
百观科技为应对海量复杂数据处理的算力与成本挑战,基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度,实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度(资源利用率提升至70%)及倚天 ARM 机型搭配 EMR Trino 方案,兼顾性能与成本,支撑数据分析需求,降低算力成本。
409 59
|
8月前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
175 0
|
12月前
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
582 58
|
10月前
|
SQL 存储 缓存
EMR Serverless StarRocks 全面升级:重新定义实时湖仓分析
本文介绍了EMR Serverless StarRocks的发展路径及其架构演进。首先回顾了Serverless Spark在EMR中的发展,并指出2021年9月StarRocks开源后,OLAP引擎迅速向其靠拢。随后,EMR引入StarRocks并推出全托管产品,至2023年8月商业化,已有500家客户使用,覆盖20多个行业。 文章重点阐述了EMR Serverless StarRocks 1.0的存算一体架构,包括健康诊断、SQL调优和物化视图等核心功能。接着分析了存算一体架构的挑战,如湖访问不优雅、资源隔离不足及冷热数据分层困难等。
|
10月前
|
存储 SQL 大数据
从数据存储到分析:构建高效开源数据湖仓解决方案
今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。
|
11月前
|
SQL 流计算 关系型数据库
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上,提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据,提供湖仓数据表和文件的安全访问及IO加速,并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎,通过流式数据湖仓Paimon(使用DLF 2.0存储)和EMR StarRocks搭建流式湖仓。
986 5
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
|
存储 分布式计算 监控
揭秘阿里云EMR:如何巧妙降低你的数据湖成本,让大数据不再昂贵?
【8月更文挑战第26天】阿里云EMR是一种高效的大数据处理服务,助力企业优化数据湖的成本效益。它提供弹性计算资源,支持根据需求调整规模;兼容并优化了Hadoop、Spark等开源工具,提升性能同时降低资源消耗。借助DataWorks及Data Lake Formation等工具,EMR简化了数据湖构建与管理流程,实现了数据的统一化治理。此外,EMR还支持OSS、Table Store等多种存储选项,并配备监控优化工具,确保数据处理流程高效稳定。通过这些措施,EMR帮助企业显著降低了数据处理和存储成本。
450 3
|
安全 数据管理 大数据
数据湖的未来已来:EMR DeltaLake携手阿里云DLF,重塑企业级数据处理格局
【8月更文挑战第26天】在大数据处理领域,阿里云EMR与DeltaLake的集成增强了数据处理能力。进一步结合阿里云DLF服务,实现了数据湖的一站式管理,自动化处理元数据及权限控制,简化管理流程。集成后的方案提升了数据安全性、可靠性和性能优化水平,让用户更专注业务价值。这一集成标志着数据湖技术向着自动化、安全和高效的未来迈出重要一步。
268 2

热门文章

最新文章