电商项目之数仓的环境准备|学习笔记

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 快速学习电商项目之数仓的环境准备

开发者学堂课程【新电商大数据平台2020最新课程电商项目之数仓的环境准备】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/640/detail/10493


电商项目之数仓的环境准备


内容介绍:

一、建模概念分析

二、建模环境准备


一、建模概念分析

根据实际生产情况,建议将数据仓库分为三层,自上而下为:

数据引入层(ODS, Operation Data Store)

数据公共层(CDM,Common Data Model)

数据应用层 (ADS,  Application Data Service)

 

二、建模环境准备

上节我们说到有三方数据源,即外部数据、内部数据、业务数据。本次项目通过这三方数据,我们会介绍技术选型,将介绍七个点。

1、Hadoop-2.7.6

数仓的基本环境,在做数据仓库、数据存储的时候必然选择 Hadoop 作为 hdms。

image.png

2、Hive-2.1.1

数仓的根本。

3、Sqoop-1.4.7

用于数据导入导出的工具,数据从 hive 导入 mysqal 数据库  ,从 mysqal 数据库导入 hive 中。本次项目中的业务数据将存在 mysqal   数据库中。通过业务数据,使用 Sqoop 导入到 Hive 即可。

4、DataX-3.0

也可做导入数据,且与 Sqoop 比更为灵活。

5、Spark-2.2.3

可以通过 Spark circle  来操作hive,将 hapa 语句运行在 Spark 上面,使用 Spark 代码去操作数仓写 circle。

本次项目将给大家编写 Spark DSL 风格,用 DSL 风格来去处理数仓的 hbase 语句。与 Hive 相比,运行效率要高很多。因为 Spark 本质是基于内存计算。

6、Azkaban-3.5.6

用来做任务调度,本次任务调度的时候,我们都会用用 share 脚本的方式,将所有的 circle 或 Sqoop 脚本写的 circle脚本中,然后进行运行,通过 Azkaban 创建一个 Flume 任务去执行。

7、Flume-1.8

主要用于数据采集,本次项目中将会采集 log 数据和外部数据,它们都是日志文件。

采集出一个即可,另一个直接映射即可。Flume 做数据采集,会使用一个新增性,来去采集一个文件夹,采集的文件夹要求名字不能重复,采集出来的数据都是时间戳的数据,保证不会重复,使用 Flume 进行一个监控,监控本地磁盘文件夹,然后将数据采集到 hdms,映射成 hbase 表,下载到 ods 即可。

以上为我们这次项目所用到的技术点及其版本,与上次相比添加了 Spark。

我们将使用 Spark circle 里面 DSL 风格来操作 Hive 数仓,实现 Spark 任务的代码编写。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
14天前
|
消息中间件 数据采集 SQL
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(一)
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(一)
|
5月前
|
数据采集 大数据
大数据实战项目之电商数仓(二)
大数据实战项目之电商数仓(二)
128 0
|
3月前
|
BI
数仓项目总结--持续更新中
数仓项目总结--持续更新中
54 2
|
3月前
|
容器
实时数仓Hologres构建环境问题之Dockerfile描述如何解决
在制品构建时明确依赖版本可避免因版本变动引起的构建差异,确保一致性与可预测性。通过Dockerfile指定确切版本的依赖与环境,能够跨平台重现相同的构建环境。为保证构建脚本一致性,应采用与业务代码解耦的构建脚本,并严格控制环境变量。构建准确性和速度都很重要,但通常准确性优先,确保制品质量稳定可靠。
47 0
|
5月前
|
SQL 关系型数据库 MySQL
详尽分享音乐数据中心数仓综合项目
详尽分享音乐数据中心数仓综合项目
53 0
|
5月前
|
消息中间件 分布式计算 Hadoop
大数据实战项目之电商数仓(一)
大数据实战项目之电商数仓(一)
284 0
|
数据采集 存储 数据库
2、电商数仓(业务数据采集平台)电商业务流程、电商常识、电商系统表结构、业务数据模拟、业务数据采集模块(一)
2、电商数仓(业务数据采集平台)电商业务流程、电商常识、电商系统表结构、业务数据模拟、业务数据采集模块(一)
|
6月前
|
SQL 分布式计算 Java
数仓学习---7、数据仓库设计、数据仓库环境准备、模拟数据生成
数仓学习---7、数据仓库设计、数据仓库环境准备
271 2
|
6月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
529 0

热门文章

最新文章