电商项目之数据同步采集总结|学习笔记

简介: 快速学习电商项目之数据同步采集总结

开发者学堂课程【新电商大数据平台2020最新课程电商项目之数据同步采集总结】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/640/detail/10516


电商项目之数据同步采集总结

 

目录:

一、数据导入回顾

二、外部数据

三、业务数据

 

一、数据导入回顾

用户行为日志进行了讲解,用户行为日志我们需要导入一个 zar 包,使用 zar 包才能开启机制,这样才能保证数据。

image.png


二、外部数据

外部数据来源主要有:

(1)企业间的接口调用(如其他企业平台上的广告投放营销)

(2)公共数据的爬虫数据(公共数据、友商数据、社区社交平台公开数据)

在这里选用的是广告投放数据,把数据存储到 ads 最后在映射到 hive 表。建立成 ads 层。

image.png

 

三、业务数据

业务数据在后期还会进行扩展,现在数仓为主,主要首选 sqoop。在做业务数据导入时都是全量数据导入,因为不是实时产生的就不用作用增量,这样也减少麻烦。我们需要知道增量和全量怎么去导。

全量是不依赖任何东西,每次将上一次的结果进行覆盖。而使用增量的话就要设置一个节点,这个节点可以是时间、主键,以时间节点进行导入。我们在导入数据时使用的是 azkaban 业务进行调度。

Azkaban 本身是个轻量型组件,相对来说在处理数据的时候效率要高一些,并且脚本比较简单。在这之前我们讲解了azkaban,同时讲解了一下 azkaban 内部的参数。

同时还讲解 azkaban 的案例,这个案例分两个方面给大家说的,第一方面是我们的二版本第二方面是三版本尽量使用也是最新版,二版本调度方式是.job,三版本是.flow。

会把 sqoop 命令写在脚本中进行运行。用户行为数据,外部数据也是这样。

其实有些数据是需要进行一个清洗的操作,需要把他导入 h.s,然后再通过 h.s 使用 mr 进行数据清洗过滤,然后在映射到 hive 表。它是有一个多级操作,是一步步导入的。其实他是可以直接导入的,但是为了后面任务需求清洗时留一点空间。

最后把工作领导环境调度的执行顺序要知道,ods 肯定是第一个顺序,下面是 dwd、Dws、ads 等等依次往下排序。然后进行任务调度,之后我们下一块就需要讲解明细层,像形成的各种主题,比如说用户主题域,商品主题域,营销活动主题等等,那我们去创建这些主题的时候,其实就是咱们建模的一个过程。

相关文章
|
7月前
|
消息中间件 NoSQL Java
【Redis系列】我看你们项目用的Redis主从,数据同步了解吗
面试官:说说Redis数据同步。是这样的,Redis有一个叫命令传播的概念,如果像面试官说的这种场景,再使用上面我提到的AOF缓冲区就有点浪费内存空间了。所以Redis会将主服务器的这条Del删除命令
【Redis系列】我看你们项目用的Redis主从,数据同步了解吗
|
消息中间件 存储 关系型数据库
PostqreSQL 表级复制-Londiste3多节点数据同步合 并到单节点|学习笔记
快速学习 PostqreSQL 表级复制-Londiste3多节点数据同步合并到单节点
PostqreSQL 表级复制-Londiste3多节点数据同步合 并到单节点|学习笔记
|
canal NoSQL 关系型数据库
淘东电商项目(22) -Canal数据同步框架
淘东电商项目(22) -Canal数据同步框架
103 0
|
SQL 消息中间件 JSON
4、离线数仓数据同步策略(全量表数据同步、增量表数据同步、首日同步、采集通道脚本)(二)
4、离线数仓数据同步策略(全量表数据同步、增量表数据同步、首日同步、采集通道脚本)(二)
|
消息中间件 canal SQL
4、离线数仓数据同步策略(全量表数据同步、增量表数据同步、首日同步、采集通道脚本)(一)
4、离线数仓数据同步策略(全量表数据同步、增量表数据同步、首日同步、采集通道脚本)(一)
|
SQL 数据采集 监控
电商项目之 Flume 数据同步操作|学习笔记
快速学习电商项目之 Flume 数据同步操作
电商项目之 Flume 数据同步操作|学习笔记
|
弹性计算 网络安全 数据库
3.数据同步网络连通实践 | 学习笔记
快速学习3.数据同步网络连通实践
|
数据采集 存储 运维
数据同步场景下的技术选型 | 学习笔记
快速学习数据同步场景下的技术选型
|
数据采集 缓存 Java
电商项目之 flume 数据同步总结|学习笔记
快速学习电商项目之 flume 数据同步总结
|
4月前
|
SQL DataWorks 关系型数据库
DataWorks操作报错合集之如何处理数据同步时(mysql->hive)报:Render instance failed
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

热门文章

最新文章