云上数据仓库的架构方案|学习笔记(一)

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 快速学习云上数据仓库的架构方案

开发者学堂课程【数据仓库 ACP 认证课程云上数据仓库的架构方案】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/928/detail/14629


云上数据仓库的架构方案

 

内容介绍:

一、AnalyticDB 助力客户行为日志实时分析

二、AnalyticDB 快速实现BI报表分析加速

三、AnalyticDB 高效分析实时人群画像

四、基于 AnalyticDB 构建实时数据仓库

五、GIS 地理数据分析的最佳实践

六、回顾与总结

七、试题解析


一、AnalyticDB 助力客户行为日志实时分析

1.用户行为日志基本流程简介

image.png在大数据分析领域,用户行为日志是个高频的热词。

用户行为日志常见场景——买家登录一个APP,在APP里进行点击、浏览、购买等行为,这都是由一系列埋点事件组成,这些事件就会通过日志的形式进行存储、采集以及后续的加工处理。

用户行为分析∶是指在获得网站或APP等平台访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站或APP等平台的规律,并将这些规律与网络营销策略等相结合,从而发现网络营销活动中可能存在的问题,并为进一步修正或重新制定相关策略提供依据。

2. 用户行为日志分析解决方案与收益

image.png基于刚刚讲的用户行为日志,这些日志是通过事件形式存储在ECS,推荐使用阿里云的一款日志服务产品叫Log Service,通过Log Service在ECS上部署Logtail进行自动日志采集,因为日志量非常大,所以ECS有一个自动投递功能。

OSS数据投递将OSS日志数据“T+1”投递到AnalyticDB弹性集群进行海量热数据分析

OSS数据分析将OSS日志数据进行清洗加工

关键点:①日志采集投递出的数据有明显的冷热属性,因为日志数据的价值密度会随着时间推移锐减

②LIS数据是一个低频的解锁和分析的属性,会有一个冷热分离的属性,所以我们可以把冷数据投递到OSS上面,也可以在 AnalyticDB里面进行冷热数据的分离

刚刚讲到数据在OSS里要进行清洗,这就非常依赖于一个调度能力,这里就推荐DMS数据管理服务,基于DMS实现一站式全链路数据管理与服务,还会涉及一些实时数据分析与流处理,可以通过ADB内置引擎处理。

 

二、AnalyticDB 快速实现BI报表分析加速

1.案例背景:业务对BI报表的加速分析需求

一般BI报表这样加速分析的场景会涉及到多部门的协作

业务部门∶商户数提升30%、销售额提升50%

运营部:要求看到实时运营数据,通过及时补充热门产品库存提升销售额,支撑商户拓展,把需求提给后台BI报表数据延迟不能超过10分钟

image.png技术部门︰BI业务系统能够实时查询到最新的业务数据,并且满足BI分析报表的查询性能需求

我们举一个淘宝的例子,淘宝双11每个5分钟就要刷新商户报表,核心就是通过AnalyticDB数据库实现运营数据实时分析

2.AnalyticDB 采用数据同步获取最新业务数据

image.png我们在设计解决方案时,一定要通过把业务数据库和分析数据库进行结合,这样才不会影响业务数据库。

也可以利用分析数据库在OLAP上快速分析的能力将整个链路变得更实时化,所以在实施AnalyticDB实时方案之后,首先数据是端到端实施的,订单数据进入RDS数据库,通过DTS可以将关系型数据库里的数据同步到AnalyticDB里面。

这是数据端到端的实施,保证了数据的新鲜度。第二,复杂的查询、报表会放在AnalyticDB里面,它可以支持快速的实时分析。在这里我们会做一个拆解,会把关系型数据库和分析性数据库分开,中间是通过DTS工具来解决端到端的数据同步。

3. AnalyticDB 的实时数据分析引擎加快实时查询

AnalyticDB在全球权威评测TPC-DS排名第一,这里还有跟ES以及其他产品的对比

image.png

4.AnalyticDB 如何支撑 BI 实时数据

传统数仓/大数据方案:

image.png

常规报表隔天输出、新运营需求数周才能满足

AnalyticDB方案:image.png报表/运营分析即刻完成

传统数仓和大数据方案∶数据处理链路长,需要提前定义数据分析维度

AnalyticDB方案︰数据处理链路短,对于业务决策者/运营者的强需求可以实时做出快速响应

使用AnalyticDB方案,在数据端到端延时问题上可以变成实时的,相当于数据同步。

第二,数据的分析可以借用AnalyticDB的olap产品去进行快速的复杂seek的查询,通过它来表达整个BI运营部门的一些业务要求,从而对业务决策、运营做到快速响应。

 

三、AnalyticDB 高效分析实时人群画像

1.用户画像基本流程与方法

image.png用户画像的第一步就是归一化,第二步就是标签化,构建标签体系,第三是实时圈人,第四就是实时洞察,最后就是触达。触达之后又会出现一系列的事件,这本质就是一个环形。

2.实时人群画像解决方案与收益

image.png会员的数据先汇集到AnalyticDB里面,在这里面进行归一化,标签体系的建立,基于这些就可以进行人群的画像和人群的洞察。接下来,再通过一些第三方工具将画像与洞察的结果进行触达。在这里进行归一化与标签体系的建立就要依赖于DMS调度。

基于以AnalyticDB为核心,包括DMS、DTS的产品组成,就形成了一个实时人群画像的解决方案。

3.用户画像常见算法举例—RFM

R( Recency )最近一次消费时间

F ( Frequency )消费频率

M (Monetary )消费金额

根据RFM可以进行划分。比如,一个人他消费频率很高,消费金额大,最近一次消费的时间很近,那么这个人就是一个重要价值客户。

image.png

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
5月前
|
网络协议 NoSQL API
转转客服IM系统的WebSocket集群架构设计和部署方案
客服IM系统是转转自研的在线客服系统,是用户和转转客服沟通的重要工具,主要包括机器人客服、人工客服、会话分配、技能组管理等功能。在这套系统中,我们使用了很多开源框架和中间件,今天讲一下客服IM系统中WebSocket集群的的实践和应用。
519 141
|
10月前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
5月前
|
消息中间件 监控 Cloud Native
高效设计:支持亿级用户社交关系的100W QPS架构方案
面对亿级用户与百万QPS的高并发场景,性能测试成为系统稳定的关键。本文剖析真实业务痛点,详解从接口压测、全链路监控到瓶颈定位的完整性能体系,助你掌握大厂级性能优化能力,从容应对卡顿、宕机等线上挑战。
|
5月前
|
存储 监控 NoSQL
Redis高可用架构全解析:从主从复制到集群方案
Redis高可用确保服务持续稳定,避免单点故障导致数据丢失或业务中断。通过主从复制实现数据冗余,哨兵模式支持自动故障转移,Cluster集群则提供分布式数据分片与水平扩展,三者层层递进,保障读写分离、容灾切换与大规模数据存储,构建高性能、高可靠的Redis架构体系。
|
边缘计算 Kubernetes 物联网
Kubernetes 赋能边缘计算:架构解析、挑战突破与实践方案
在物联网和工业互联网快速发展的背景下,边缘计算凭借就近处理数据的优势,成为解决云计算延迟高、带宽成本高的关键技术。而 Kubernetes 凭借统一管理、容器化适配和强大生态扩展性,正逐步成为边缘计算的核心编排平台。本文系统解析 Kubernetes 适配边缘环境的架构分层、核心挑战与新兴解决方案,为企业落地边缘项目提供实践参考。
521 0
|
11月前
|
监控 Java Nacos
阿里二面:10亿级分库分表,如何丝滑扩容、如何双写灰度?阿里P8方案+ 架构图,看完直接上offer!
阿里二面:10亿级分库分表,如何丝滑扩容、如何双写灰度?阿里P8方案+ 架构图,看完直接上offer!
阿里二面:10亿级分库分表,如何丝滑扩容、如何双写灰度?阿里P8方案+ 架构图,看完直接上offer!
|
7月前
|
缓存 Java 数据库
Java 项目分层架构实操指南及长尾关键词优化方案
本指南详解基于Spring Boot与Spring Cloud的Java微服务分层架构,以用户管理系统为例,涵盖技术选型、核心代码实现、服务治理及部署实践,助力掌握现代化Java企业级开发方案。
351 2
|
7月前
|
数据采集 边缘计算 定位技术
ar景区导航导览开发方案:核心技术架构与功能设计
本方案针对传统景区导航吸引力弱、互动性差等问题,融合三维建模、多源定位与AR引擎技术,实现室内外精准导航与AR互动体验。支持AR寻宝等功能,提升游客体验与景区竞争力。
505 0
|
7月前
|
存储 消息中间件 NoSQL
跟着大厂学架构01:如何利用开源方案,复刻B站那套“永不崩溃”的评论系统?
本文基于B站技术团队分享的《B站评论系统的多级存储架构》,解析其在高并发场景下的设计精髓,并通过开源技术栈(MySQL、Redis、Java)复刻其实现。文章深入讲解了多级存储、数据同步、容灾降级等关键设计,并附有完整代码实现,助你掌握大厂架构设计之道。
322 0