开源大数据分析实验(3)——简单用户画像分析之配置数据质量监控

简介: 本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。

1.进入表ods_log_info_d的监控规则页面。

在Chromium网页浏览器中,切换至数据开发页签。单击左上方image.png图标,选择全部产品>数据治理>数据质量。

image.png

在左侧导航栏中,选择规则配置>按表配置。

image.png

在按表配置页面,单击ods_log_info_d表后的配置监控规则。

image.png

2.配置表ods_log_info_d的监控规则。

在分区表达式模块,单击如下图标。

image.png

在添加分区对话框中,分区表达式选择dt=$[yyyymmdd-1],单击确认。

image.png

在表ods_log_info_d的监控规则页面,单击创建规则。

image.png

在创建规则面板中,选择模板规则>添加监控规则。

image.png

在创建规则面板中,根据如下配置相关参数,其他配置保持默认,单击批量添加。

参数说明:

规则名称:输入ods_log_info_d表规则。
强弱:选择强。
规则模板:选择表行数,固定值。
比较方式:选择大于。

image.png

返回如下页面,您已成功为ods_log_info_d表添加表规则。

image.png

3. 测试正常调度试跑

在配置表ods_log_info_d的监控规则页面,单击试跑。

image.png

在试跑对话框中,单击试跑。

image.png

在试跑对话框中,单击试跑成功!点击查看试跑结果。

image.png

返回如下页面,您可查看到调度结果是正常的。由于调度数据同步正常,表行数大于0,所以试跑结果显示正常。

image.png

4.测试失败调度试跑

在Chromium网页浏览器中,切换至数据开发页面。在临时查询面板,右键单击临时查询,选择新建节点>ODPS SQL。

image.png

在SQL查询页签,输入如下SQL语句,删除ods_log_info_d表中数据。

truncate table ods_log_info_d partition(dt=${
   
   bdp.system.bizdate});

image.png

返回结果如下,表示您已成功删除删除ods_log_info_d表中数据。

image.png

在Chromium网页浏览器中,切换至数据质量页面,单击试跑。

image.png

在试跑对话框中,单击试跑。

image.png

在试跑对话框中,单击试跑成功!点击查看试跑结果。

image.png

返回如下页面,您可查看到调度结果是红色异常的。由于调度数据同步正常,表行数为0,所以试跑结果显示红色异常。

image.png

相关文章
|
2月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
165 2
|
22天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
114 15
|
28天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
27天前
|
分布式计算 DataWorks 搜索推荐
用户画像分析(MaxCompute简化版)
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析,并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。
|
2月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
112 4
|
2月前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
41 4
|
2月前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
285 5
|
3月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
2月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
502 7
|
2月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
65 2