电商分析平台数据质量核查| 学习笔记

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习电商分析平台数据质量核查

开发者学堂课程【场景实践 - 使用 MaxCompute 进行数据质量核查电商分析平台数据质量核查】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/520/detail/7042


电商分析平台数据质量核查


内容介绍:

一、任务背景

二、任务涉及业务数据

三、任务目标

四、任务解决方案

五、效果-监控报告

六、任务&思考

 

一、任务背景

ABC 是一家销售公司,其客户可以通过网站下单订购该公司经营范围内的商品,并使用信用卡、银行卡、转账等方式付费。付费成功后,ABC公司会根据客户地址依据就近原则选择自己的货仓,指派合适的快递人员配送商品。

经过几年的经营,该公司积累了一批经营数据,他们依托于阿里云大数据计算服务、大数据开发套件等搭建了一个企业级的数据平台,将历史数据以及每天产生的数据都同步到该平台上去。由于种种遗留问题,造成这些数据中存在一定的数据质量问题,为了能得到更准确的数据分析结果,数据分析师希望你这个刚入职的助理大数据工程师能合理的使用你掌握的MaxCompute的技术,去帮他们发现数据中的质量问题。


二、任务涉及业务数据

此次的数据质量监控实验,主要涉及如下业务表。

1、订单表:保存客户订购产品所产生的订单信息;

2、客户表:保存客户的姓名、地址信息;

3、配送表:保存配送员与订单的对应信息;

4、产品表:保存产品相关信息;

5、省份表:保存省份信息;

6、城市表:保存城市信息。

image.png

图中,能看出来订单表和配送表之间由相关的订单号关联,订单表与产品表之间是由产品编码关联,订单表与客户表之间通过客户编码关联,客户表和省份表通过省份编码关联,客户表与城市表通过城市编码来关联。

 

三、任务目标

此次数据质量监控,主要对相关业务数据实现如下几种监控规则,并输出数据质量监控报告。

错误值:订单表某些时间格式存在问题,导致数据库人员将部分时间字段设置成了字符串型

重复值:订单系统中部分记录关键信息重复(同样的人在同样的时间下了不同的订单),导致客户投诉

数据不一致:地市信息名称未标准化,导致在数据分析时,未能把相同地域的数值汇总在一起

数据完整性:配送的订单在订单表中不存在,导致物流人员空跑,效率下降

缺失值:部分客户性别信息缺失,影响后续使用

异常值:单月购买次数异常(当月购买次数大于10次)


四、任务解决方案

1、开通 MaxCompute 服务并搭建开发环境

这个主要是针对第一次使用阿里云产品的新用户,如果是老用户,已经开通了相关的服务,直接登录系统进入相关的项目,然后进行后续的操作就行。

2、实验数据准备

需要把相关的实验数据在各个项目里建表,然后把数据导到库表里,做好数据质量准备。

3、配置数据质量核查规则

可以找一个比较普通的数据质量核查规则模板。例如,本次实验准备的是一个简单的模板,配置核查规则、编码名称、负责人联系方式、告警内容等。有了核查规则模板之后,根据数据质量问题相关概念,以及本次实验的相关目的,把实验的数据质量核查规则配置导到模板里面。

4、数据质量监控规则导入 MaxCompute

通过 Data IDE 工具导入到 odps 里。

5、通过 MaxCompute 实现数据质量监控

这一步就是将上面梳理好的数据质量监控规则,用代码的方式来实现,主要通过对Data IDE任务开发、脚本开发这两个模块来实现的。

6、配置 MaxCompute 程序调度

这里是将前面内部完成的任务配置成周期性的任务,这样就能周期性的、持续性的进行数据量监控。

7、配置程序调度邮件、短信告警

这里的邮件短信告警主要就是针对程序级别的,就是配置。如果程序在运行的过程中出现了错误,再进行告警,指定相关负责人,让其对程序进行修改,然后重新调入程序。

 

五、效果-监控报告

最终我们可以捕获到的数据质量监控信息如下

image.png

比如,哪条监控规则告警、告警的负责人、具体的告警内容等。

 

六、任务&思考

1、任务:根据新提供的数据集及实体关系。分析如下场景中可能出现的数据质量问题,并使用 MaxCompute 技术完成相关场景的数据质量核查:

用户通过业务平台系统进行商品购买,允许用户在同一个订单内购买多种商品,用户每下一次订单就在订单表中增加一条记录,由于网络延迟或系统界面操作有误,可能会在系统内产生多条记录。用户下单后1小时之内,仍未进行付款操作,订单状态变更为取消,由于系统bug可能存在以及付款但是订单状态是取消的相关记录。用户进行付款的同时,可能参加某种抽奖或者优惠活动,减免部分费用。用户支付完成后,生成配送单,结果发现配送员小张和小李分配了同一个订单,而且订单配送商品信息一致,偶尔由于系统原因会出现用户下完单、付完款后没有安排配送的情况。

2、思考:思考并实现如何实现数据质量邮件、短信告警?

目前我们已实现了程序的调度配置,并对周期性执行的程序调度,增加了邮件、短信告警,此种告警主要是针对程序执行的一种监控,考虑是否可增加数据质量监控的邮件、短信告警,即如果发现数据质量监控规则报错,则进行邮件、短信告警,请思考此种告警是否可通过 MaxComputeDatalDE)来实现,如何实现。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
SQL 关系型数据库 数据管理
Datahub实践——Sqllineage解析Sql实现端到端数据血缘
Datahub实践——Sqllineage解析Sql实现端到端数据血缘
2560 1
|
Kubernetes 应用服务中间件 nginx
k8s ingress不生效的bug 解决了。
k8s ingress不生效的bug 解决了。
585 0
|
存储 算法 关系型数据库
InnoDb行格式、数据页结构、索引底层原理和如何建立索引
InnoDb行格式、数据页结构、索引底层原理和如何建立索引
278 0
|
Linux Android开发 编解码
VLC播放RTSP视频延迟问题
之前写过一篇关于在Linux平台上编译Android平台上VLC播放器源代码的文章,vlc这款播放器非常优秀而且是开源的,它的核心是开源视频编解码库ffmpeg。而且这款播放器还支持RTSP协议,这个主要是用开源的live555来实现的,live555这个库以后还需要认真研习。
5402 0
|
分布式计算 DataWorks MaxCompute
DataWorks操作报错合集之spark操作odps,写入时报错,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
8月前
|
开发工具 开发者 容器
【HarmonyOS NEXT开发——ArkTS语言】欢迎界面(启动加载页)的实现【合集】
从ArkTS代码架构层面而言,@Entry指明入口、@Component助力复用、@Preview便于预览,只是初窥门径,为开发流程带来些许便利。尤其动画回调与Blank组件,细节粗糙,后续定当潜心钻研,力求精进。”,字体颜色为白色,字体大小等设置与之前类似,不过动画配置有所不同,时长为。,不过这里没有看到额外的动画效果添加到这个特定的图片元素上(与前面带动画的元素对比而言)。这是一个显示文本的视图,文本内容为“奇怪的知识”,设置了字体颜色为灰色(的结构体,它代表了整个界面组件的逻辑和视图结构。
220 1
|
机器学习/深度学习 PyTorch 算法框架/工具
数据平衡与采样:使用 DataLoader 解决类别不平衡问题
【8月更文第29天】在机器学习项目中,类别不平衡问题非常常见,特别是在二分类或多分类任务中。当数据集中某个类别的样本远少于其他类别时,模型可能会偏向于预测样本数较多的类别,导致少数类别的预测性能较差。为了解决这个问题,可以采用不同的策略来平衡数据集,包括过采样(oversampling)、欠采样(undersampling)以及合成样本生成等方法。本文将介绍如何利用 PyTorch 的 `DataLoader` 来处理类别不平衡问题,并给出具体的代码示例。
2420 2
|
人工智能 供应链 安全
探索区块链技术在智能合约中的应用
本文将深入探讨区块链技术与智能合约的融合,解析其如何革新传统合约执行方式,提高交易效率和安全性。文章首先介绍区块链和智能合约的基本概念,随后详细分析智能合约的技术优势以及面临的挑战,并通过案例分析展示其在多个行业中的应用实践,最后展望智能合约的未来发展趋势。
el-table 取消鼠标移入时变色
el-table 取消鼠标移入时变色
275 0
|
Python
在Python中实现图片转字符画灰度处理或灰色量化
在Python中实现图片转字符画灰度处理或灰色量化
241 1