开发者学堂课程【新电商大数据平台2020最新课程:电商项目之数据同步采集总结】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/640/detail/10516
电商项目之数据同步采集总结
目录:
一、数据导入回顾
二、外部数据
三、业务数据
一、数据导入回顾
用户行为日志进行了讲解,用户行为日志我们需要导入一个 zar 包,使用 zar 包才能开启机制,这样才能保证数据。
二、外部数据
外部数据来源主要有:
(1)企业间的接口调用(如其他企业平台上的广告投放营销)
(2)公共数据的爬虫数据(公共数据、友商数据、社区社交平台公开数据)
在这里选用的是广告投放数据,把数据存储到 ads 最后在映射到 hive 表。建立成 ads 层。
三、业务数据
业务数据在后期还会进行扩展,现在数仓为主,主要首选 sqoop。在做业务数据导入时都是全量数据导入,因为不是实时产生的就不用作用增量,这样也减少麻烦。我们需要知道增量和全量怎么去导。
全量是不依赖任何东西,每次将上一次的结果进行覆盖。而使用增量的话就要设置一个节点,这个节点可以是时间、主键,以时间节点进行导入。我们在导入数据时使用的是 azkaban 业务进行调度。
Azkaban 本身是个轻量型组件,相对来说在处理数据的时候效率要高一些,并且脚本比较简单。在这之前我们讲解了azkaban,同时讲解了一下 azkaban 内部的参数。
同时还讲解 azkaban 的案例,这个案例分两个方面给大家说的,第一方面是我们的二版本第二方面是三版本尽量使用也是最新版,二版本调度方式是.job,三版本是.flow。
会把 sqoop 命令写在脚本中进行运行。用户行为数据,外部数据也是这样。
其实有些数据是需要进行一个清洗的操作,需要把他导入 h.s,然后再通过 h.s 使用 mr 进行数据清洗过滤,然后在映射到 hive 表。它是有一个多级操作,是一步步导入的。其实他是可以直接导入的,但是为了后面任务需求清洗时留一点空间。
最后把工作领导环境调度的执行顺序要知道,ods 肯定是第一个顺序,下面是 dwd、Dws、ads 等等依次往下排序。然后进行任务调度,之后我们下一块就需要讲解明细层,像形成的各种主题,比如说用户主题域,商品主题域,营销活动主题等等,那我们去创建这些主题的时候,其实就是咱们建模的一个过程。