开发者学堂课程【新电商大数据平台2020最新课程:电商项目之数据治理流程分析】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/640/detail/10519
电商项目之数据治理流程分析
数据来源介绍
1、业务数据
业务数据往往产生于事务型过程处理,所以一般存储在关系型数据库中,如 mysql. Oracle
业务数据源:
用户基本信息商品分类信息商品信息、店铺信息、订单数据、订单支付信息、活动信息、物流信息等。
2、埋点日志
理点日志相对业务数据是用于数据分析、挖掘需求,一般以日志形式存储于日志文件中,随后通过采集落地分布式存
储质中如 hdfs、 hbase
用户行为日志:
用户浏览、用户点评、用户关注、用户搜索、用户投诉用户咨询
3、外部数据
当前一般公司都会通过线上广告来进行获客,与三方公司合作更多的提取相关数据来进行深度刻画用户及用户群体,另外爬取公共公开数据也是分析运营的常用方式。
广告投放数据、爬虫数据、三方业务接口数据、微信小程序
数据到达之后如何流转,看一下数仓的数据治理图。
4、数仓结构图:
首先看到数据客户端,进行访问产生,访问当前的 npc 的网站,小程序获取到。数据是客户端用户的数据,还有三方的数据。
用服务器进行对接,用n个服务器进行负载均衡,比如说客户端的数据通过负载均衡,通过外部的程序,讲这个数据刷入到本地磁盘,进行数据采集,用 flume 来监控本地磁盘的,这是用户行为数据。
然后flume也是一个集群,这里进行收集,有数据过来进行实时收集,实时采集。数据是一般会分为半小时或者是20分钟,监控本地磁盘文件就可以了,监控的是一个文件夹,这个文件将以时间戳的形式到本地,命名即可。
在这个地方可以有实时采集的过程,但是没有做实时采集,过实际情况的话,会在 flume 这里做一个复制选择器,数据复制到 Kafka 一份,进行数据处理,可以做数仓,剩下的做实时的统计就可以。
三方数据是通过负载均衡落地到机房,通过 web 服务器进行数据采集 Flume,这一部分数据是外部数据,和本地数据不一样,只需要调用第三方的接口,然后实现数据的采集。
有一个数据是业务数据,需要通过 School 进行同步,同步的过程都是全部导入,我们的业务数据也有表,通用字典表,有一个通用维度字典表,时间维度表,地区维度表,这三个是我们的维表,导入到我们的ops当中。
My 数据当中有产品店铺表,用户关注信息表,用户基本信息表等,会把数据刷入到 ODS,生成 ODS 贴源层,可以看到用户行为数据 三分数据,业务数据。
在这个地方可能会做一些操作,比如有一些数据可能需要清洗后再入仓 ,那这个时候能进行驱虫或者驱散,去除一些重复数据,然后在这地方做一条然后建立明细表号,现在整体的过程已经完成。
现在已经做到这个 ODS 层和数据贴源层,数据已经都导入,接下来就有实现 DW 主题层,主题层实现的时候里面同样建立的主题表,比如说用户主题可以根据身体行为分发数据,比如说用户有点击浏览等用户行为,根据用户行为产生不同的用户数据,产生不同的主题表,包括应用活动,教育主题都可以进行划分。
根据不同的行为事件划分不同的主题,再去分析的时候 就已经是统计指标,做一些后期。比如说用 DWS 做一些轻度聚合,最后实现的时候都是集市,这个集市就是所说的 DWS 数据应用层,为统一各种的报表指标,前提是从主题层刷入到的数据,进行到 dm 数据集市层,这个数据层会统计出我们每天的报表,有些报表可以做一些可视化的操作,有一些做一些用户标签,群体的画像等。
通过集市统计出各种的指标,包括销量、订单、流量等等,今天的新增用户,今天的复活率,这些指标都是通过数层统计出来的。
数仓总共有三个数据源,建立三个不同的表,这里面所需要的业务,进行建模,进行数据分析,统计报表,整个过程会有数据质量的一个监控,包括一些质量检测等等,比如说ETL有没有问题,都可以做一些运营监控,数据质量检测。比如说刷进来的数据,运行一些数据测试,判断是否正确,有一些数据校验,这个就是数据治理的全图,也包括数据流转的全图。讲了一下数据处理的过程,还有某个部分做一些数据的质量检测。