云上数据仓库的架构方案|学习笔记(一)

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: 快速学习云上数据仓库的架构方案

开发者学堂课程【数据仓库 ACP 认证课程云上数据仓库的架构方案】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/928/detail/14629


云上数据仓库的架构方案

 

内容介绍:

一、AnalyticDB 助力客户行为日志实时分析

二、AnalyticDB 快速实现BI报表分析加速

三、AnalyticDB 高效分析实时人群画像

四、基于 AnalyticDB 构建实时数据仓库

五、GIS 地理数据分析的最佳实践

六、回顾与总结

七、试题解析


一、AnalyticDB 助力客户行为日志实时分析

1.用户行为日志基本流程简介

image.png在大数据分析领域,用户行为日志是个高频的热词。

用户行为日志常见场景——买家登录一个APP,在APP里进行点击、浏览、购买等行为,这都是由一系列埋点事件组成,这些事件就会通过日志的形式进行存储、采集以及后续的加工处理。

用户行为分析∶是指在获得网站或APP等平台访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站或APP等平台的规律,并将这些规律与网络营销策略等相结合,从而发现网络营销活动中可能存在的问题,并为进一步修正或重新制定相关策略提供依据。

2. 用户行为日志分析解决方案与收益

image.png基于刚刚讲的用户行为日志,这些日志是通过事件形式存储在ECS,推荐使用阿里云的一款日志服务产品叫Log Service,通过Log Service在ECS上部署Logtail进行自动日志采集,因为日志量非常大,所以ECS有一个自动投递功能。

OSS数据投递将OSS日志数据“T+1”投递到AnalyticDB弹性集群进行海量热数据分析

OSS数据分析将OSS日志数据进行清洗加工

关键点:①日志采集投递出的数据有明显的冷热属性,因为日志数据的价值密度会随着时间推移锐减

②LIS数据是一个低频的解锁和分析的属性,会有一个冷热分离的属性,所以我们可以把冷数据投递到OSS上面,也可以在 AnalyticDB里面进行冷热数据的分离

刚刚讲到数据在OSS里要进行清洗,这就非常依赖于一个调度能力,这里就推荐DMS数据管理服务,基于DMS实现一站式全链路数据管理与服务,还会涉及一些实时数据分析与流处理,可以通过ADB内置引擎处理。

 

二、AnalyticDB 快速实现BI报表分析加速

1.案例背景:业务对BI报表的加速分析需求

一般BI报表这样加速分析的场景会涉及到多部门的协作

业务部门∶商户数提升30%、销售额提升50%

运营部:要求看到实时运营数据,通过及时补充热门产品库存提升销售额,支撑商户拓展,把需求提给后台BI报表数据延迟不能超过10分钟

image.png技术部门︰BI业务系统能够实时查询到最新的业务数据,并且满足BI分析报表的查询性能需求

我们举一个淘宝的例子,淘宝双11每个5分钟就要刷新商户报表,核心就是通过AnalyticDB数据库实现运营数据实时分析

2.AnalyticDB 采用数据同步获取最新业务数据

image.png我们在设计解决方案时,一定要通过把业务数据库和分析数据库进行结合,这样才不会影响业务数据库。

也可以利用分析数据库在OLAP上快速分析的能力将整个链路变得更实时化,所以在实施AnalyticDB实时方案之后,首先数据是端到端实施的,订单数据进入RDS数据库,通过DTS可以将关系型数据库里的数据同步到AnalyticDB里面。

这是数据端到端的实施,保证了数据的新鲜度。第二,复杂的查询、报表会放在AnalyticDB里面,它可以支持快速的实时分析。在这里我们会做一个拆解,会把关系型数据库和分析性数据库分开,中间是通过DTS工具来解决端到端的数据同步。

3. AnalyticDB 的实时数据分析引擎加快实时查询

AnalyticDB在全球权威评测TPC-DS排名第一,这里还有跟ES以及其他产品的对比

image.png

4.AnalyticDB 如何支撑 BI 实时数据

传统数仓/大数据方案:

image.png

常规报表隔天输出、新运营需求数周才能满足

AnalyticDB方案:image.png报表/运营分析即刻完成

传统数仓和大数据方案∶数据处理链路长,需要提前定义数据分析维度

AnalyticDB方案︰数据处理链路短,对于业务决策者/运营者的强需求可以实时做出快速响应

使用AnalyticDB方案,在数据端到端延时问题上可以变成实时的,相当于数据同步。

第二,数据的分析可以借用AnalyticDB的olap产品去进行快速的复杂seek的查询,通过它来表达整个BI运营部门的一些业务要求,从而对业务决策、运营做到快速响应。

 

三、AnalyticDB 高效分析实时人群画像

1.用户画像基本流程与方法

image.png用户画像的第一步就是归一化,第二步就是标签化,构建标签体系,第三是实时圈人,第四就是实时洞察,最后就是触达。触达之后又会出现一系列的事件,这本质就是一个环形。

2.实时人群画像解决方案与收益

image.png会员的数据先汇集到AnalyticDB里面,在这里面进行归一化,标签体系的建立,基于这些就可以进行人群的画像和人群的洞察。接下来,再通过一些第三方工具将画像与洞察的结果进行触达。在这里进行归一化与标签体系的建立就要依赖于DMS调度。

基于以AnalyticDB为核心,包括DMS、DTS的产品组成,就形成了一个实时人群画像的解决方案。

3.用户画像常见算法举例—RFM

R( Recency )最近一次消费时间

F ( Frequency )消费频率

M (Monetary )消费金额

根据RFM可以进行划分。比如,一个人他消费频率很高,消费金额大,最近一次消费的时间很近,那么这个人就是一个重要价值客户。

image.png

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
30天前
|
SpringCloudAlibaba Java 网络架构
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(七)Spring Cloud Gateway服务网关
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(七)Spring Cloud Gateway服务网关
81 0
|
21天前
|
存储 Java 应用服务中间件
【分布式技术专题】「架构实践于案例分析」盘点互联网应用服务中常用分布式事务(刚性事务和柔性事务)的原理和方案
【分布式技术专题】「架构实践于案例分析」盘点互联网应用服务中常用分布式事务(刚性事务和柔性事务)的原理和方案
42 0
|
21天前
|
canal 消息中间件 关系型数据库
【分布式技术专题】「分布式技术架构」MySQL数据同步到Elasticsearch之N种方案解析,实现高效数据同步
【分布式技术专题】「分布式技术架构」MySQL数据同步到Elasticsearch之N种方案解析,实现高效数据同步
66 0
|
30天前
|
SpringCloudAlibaba 负载均衡 Java
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(目录大纲)
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(目录大纲)
61 1
|
30天前
|
消息中间件 SpringCloudAlibaba Java
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(八)Config服务配置+bus消息总线+stream消息驱动+Sleuth链路追踪
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(八)Config服务配置+bus消息总线+stream消息驱动+Sleuth链路追踪
778 0
|
30天前
|
SpringCloudAlibaba Java 测试技术
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(六)Hystrix(豪猪哥)的使用
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(六)Hystrix(豪猪哥)的使用
36 1
|
30天前
|
SpringCloudAlibaba 负载均衡 Java
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(五)OpenFeign的使用
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(五)OpenFeign的使用
36 0
|
30天前
|
负载均衡 算法 Java
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(四)Ribbon的使用
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(四)Ribbon的使用
23 0
|
3月前
|
SQL 关系型数据库 MySQL
在云数据仓库AnalyticDB MySQL版中,有几个参数可能影响SELECT查询的执行及其稳定性
在云数据仓库AnalyticDB MySQL版中,有几个参数可能影响SELECT查询的执行及其稳定性【1月更文挑战第16天】【1月更文挑战第80篇】
290 4
|
1月前
|
SQL Cloud Native 关系型数据库
AnalyticDB MySQL湖仓版是一个云原生数据仓库
【2月更文挑战第15天】AnalyticDB MySQL湖仓版是一个云原生数据仓库
22 2