学习笔记1 - 使用MaxCompute进行数据质量核查

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据Clouder:使用MaxCompute进行数据质量核查 数据,数据质量,数据质量管理MaxCompute,DataIDE监控,监控报告 对数据的改善和管理,直接提升数据质量;对组织的改善和管理,间接提升数据质量。

大数据Clouder:使用MaxCompute进行数据质量核查

数据,数据质量,数据质量管理
MaxCompute,DataIDE
监控,监控报告

对数据的改善和管理,直接提升数据质量;
对组织的改善和管理,间接提升数据质量。

数据质量影响因素:①需求过程引发,②数据源引发,③统计口径引发,④系统自身引发。
数据质量问题类型:①错误值,②重复值,③数据不一致,④数据完整性,⑤缺失值,⑥异常值。

MaxCompute,大数据开发工具:
①DataIDE:可视化形式。
②Studio客户端,③odpscmd客户端:都是命令行形式。

数据产生:阿里云的RDS。
数据收集与存储:DataIDE数据同步组件,从RDS中同步到MaxCompute中。
数据分析与处理:DataIDE中的任务ODPS_SQL和OPEN_MR。
数据提取:DataIDE。
数据展现与分享:Quick BI。

注意:将本地数据上传导入到MaxCompute,如果数据文件大于10M,DataIDE就上传不了了,这时就需要使用odpscmd客户端提供的Tunnel命令方式进行上传。
Tunnel命令操作 :https://help.aliyun.com/document_detail/27833.html?spm=5176.11065259.1996646101.searchclickresult.6de53dbcRY6DwC

DataIDE:数据开发(任务开发,脚本开发),运维中心(任务列表,任务运维,报警)。
任务开发:需要周期调度的,加工逻辑复杂的,需要多个步骤进行数据处理的。注意:任务开发中的调度任务生成实例的时间。
脚本开发:一次性的,临时数据操作,比如:建个表,插入个数据等 。

任务解决方案:开通MC服务并搭建开发环境,实验数据准备,配置数据质量核查规则,数据质量监控规则导入MC,通过MC实现数据质量监控,配置MC程序调度,配置程序调度邮件、短信告警。

查看监控报告。

1

2

对应的沙箱实验笔记

网址:https://edu.aliyun.com/lab/courses/1fb17df91d3648c781c30cd877bcaeb8/detail?purchaseRecordId=f0f34cd5a0fc48829231e8006960644b
实验环境:DataWorks->项目->进入工作区->IDE页面。
实验步骤:
1、数据准备上传到MC中:建表“ODS_EBUSI_xxx”->导入本地数据,上传数据到MaxCompute中。
注意:首行为标题,默认为是。
查询语句:
select * from ODS_EBUSI_xxx;
select count(*) from ODS_EBUSI_xxx;
2、编写数据监控规则:写入到excel或txt中。注意:要保证txt文件为utf8格式。
(1)规则模板对应的各类内容:
①核查规则类型名称:监控类别编码对应的监控规则名称(1:错误值;2:重复值;3:数据不一致;4:数据完整性;5:缺失值;6:异常值)。
②状态:1:本条监控规则有效;0:本条监控规则已失效,或不再进行监控。
(2)监控场景:
①订单表内订单时间格式出错。
②订单表同一客户同一时间下了多次订单。
③客户信息表省份信息异常。
④配送的订单在订单表中不存在。
⑤客户信息表性别信息缺失。
⑥同客户单月购买次数异常(当月购买次数大于10次)。
注意:在MaxCompute控制台中导入一个txt文件,要保证txt文件为utf8格式,如果不是,可以用记事本打开文件,单击另存为,将其保存为utf8格式。
https://help.aliyun.com/knowledge_detail/40360.html?spm=5176.11065259.1996646101.searchclickresult.242b49d5HssL3O
3、将监控规则导入到MC中:建表“ODS_DATA_CHECK_RULE”->导入监控规则excel或txt文件。注意:分隔符配置。查询语句:
select * from ODS_DATA_CHECK_RULE;
select count(*) from ODS_DATA_CHECK_RULE;
4、数据质量监控:
①建表“DWD_DATA_CHECK_REPORT”->用于保存最终的监控报告。
②新建任务->任务类型:工作流任务,名称:DATA_CHECK_数据质量监控,调度类型:周期调度。
③选择节点组件->在编辑页面写入sql,并配置好参数,保存后返回。
虚节点:从左侧节点组件中,拖取一个虚节点至右侧空白处,命名:程序开始,执行结束。
ODPS_SQL:将左侧ODPS_SQL控件,拖至右侧空白处,命名。双击该节点组件,进入编辑界面,写入建表sql语句,配置参数,保存后返回。注意:此时不需要点击运行。
④按照顺序,将各个执行空间连接起来。所有连接完成后,点击保存,点击提交,确定提交。
⑤测试运行->点击测试运行,填写实例名称和业务日期,点击运行,点击前往运维中心,进行监控。
⑥查看最终的监控报告内容,查看语句:注意:分区表查询。
set odps.sql.allow.fullscan=true;
select * from dwd_data_check_report;
set odps.sql.allow.fullscan=true;
select CHECK_RULE_ID,CHECK_RULE_NAME,CHECK_RULE_OWNER,WARNING_CONTENT from DWD_DATA_CHECK_REPORT;
5、配置MC调度:点击调度配置->基本属性,调度属性,依赖属性,跨周期依赖->配置完成。运维中心查看->周期任务,周期实例。
注意:配置完成后,第二天调度才会生效。在23:30之后提交成功的任务,从第三天开始才会生成实例。
6、配置邮件和短信告警:运维中心->报警设置->新建报警->选择任务、报警原因、报警方式、接收人。

3

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
154 1
|
数据采集 SQL 存储
DataWorks数据质量介绍及实践 | 《一站式大数据开发治理DataWorks使用宝典》
数据质量问题虽然从数据工程师的角度来看是个简单问题,但是从业务的角度来看是个很严重的问题。所以数据质量是数据开发和治理全生命周期中,非常重要的一个环节。在DataWorks产品版图里,数据质量也是非常重要的模块之一。
4491 0
DataWorks数据质量介绍及实践 | 《一站式大数据开发治理DataWorks使用宝典》
|
8月前
|
数据采集 监控 大数据
大数据时代的数据质量与数据治理策略
在大数据时代,高质量数据对驱动企业决策和创新至关重要。然而,数据量的爆炸式增长带来了数据质量挑战,如准确性、完整性和时效性问题。本文探讨了数据质量的定义、重要性及评估方法,并提出数据治理策略,包括建立治理体系、数据质量管理流程和生命周期管理。通过使用Apache Nifi等工具进行数据质量监控和问题修复,结合元数据管理和数据集成工具,企业可以提升数据质量,释放数据价值。数据治理需要全员参与和持续优化,以应对数据质量挑战并推动企业发展。
2034 3
|
3月前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
208 2
|
8月前
|
数据采集 分布式计算 监控
MaxCompute产品使用问题之如何配置数据质量监控
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7月前
|
数据采集 监控 关系型数据库
大数据运维之数据质量管理
大数据运维之数据质量管理
141 0
|
9月前
|
数据采集 存储 监控
大数据治理:确保数据质量和合规性
【5月更文挑战第30天】大数据治理涉及数据分类、访问控制和质量监控,以确保数据安全和合规性。企业需保护个人隐私,防止数据泄露,并遵守各地法规,如GDPR和CCPA。技术实践包括数据加密、匿名化和严格访问控制。管理策略则强调制定政策、员工培训和法律合作。全面的数据治理能保障数据质量,驱动组织的创新和价值增长。
382 0
|
数据采集 SQL 监控
开源大数据分析实验(3)——简单用户画像分析之配置数据质量监控
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
|
数据采集 DataWorks 大数据
《DataWorks全链路数据质量解决方案-2020飞天大数据平台实战应用第一季》电子版地址
DataWorks全链路数据质量解决方案-2020飞天大数据平台实战应用第一季
155 0
《DataWorks全链路数据质量解决方案-2020飞天大数据平台实战应用第一季》电子版地址
|
SQL 数据采集 监控