云上数据仓库的架构方案|学习笔记(一)

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习云上数据仓库的架构方案

开发者学堂课程【数据仓库 ACP 认证课程云上数据仓库的架构方案】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/928/detail/14629


云上数据仓库的架构方案

 

内容介绍:

一、AnalyticDB 助力客户行为日志实时分析

二、AnalyticDB 快速实现BI报表分析加速

三、AnalyticDB 高效分析实时人群画像

四、基于 AnalyticDB 构建实时数据仓库

五、GIS 地理数据分析的最佳实践

六、回顾与总结

七、试题解析


一、AnalyticDB 助力客户行为日志实时分析

1.用户行为日志基本流程简介

image.png在大数据分析领域,用户行为日志是个高频的热词。

用户行为日志常见场景——买家登录一个APP,在APP里进行点击、浏览、购买等行为,这都是由一系列埋点事件组成,这些事件就会通过日志的形式进行存储、采集以及后续的加工处理。

用户行为分析∶是指在获得网站或APP等平台访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站或APP等平台的规律,并将这些规律与网络营销策略等相结合,从而发现网络营销活动中可能存在的问题,并为进一步修正或重新制定相关策略提供依据。

2. 用户行为日志分析解决方案与收益

image.png基于刚刚讲的用户行为日志,这些日志是通过事件形式存储在ECS,推荐使用阿里云的一款日志服务产品叫Log Service,通过Log Service在ECS上部署Logtail进行自动日志采集,因为日志量非常大,所以ECS有一个自动投递功能。

OSS数据投递将OSS日志数据“T+1”投递到AnalyticDB弹性集群进行海量热数据分析

OSS数据分析将OSS日志数据进行清洗加工

关键点:①日志采集投递出的数据有明显的冷热属性,因为日志数据的价值密度会随着时间推移锐减

②LIS数据是一个低频的解锁和分析的属性,会有一个冷热分离的属性,所以我们可以把冷数据投递到OSS上面,也可以在 AnalyticDB里面进行冷热数据的分离

刚刚讲到数据在OSS里要进行清洗,这就非常依赖于一个调度能力,这里就推荐DMS数据管理服务,基于DMS实现一站式全链路数据管理与服务,还会涉及一些实时数据分析与流处理,可以通过ADB内置引擎处理。

 

二、AnalyticDB 快速实现BI报表分析加速

1.案例背景:业务对BI报表的加速分析需求

一般BI报表这样加速分析的场景会涉及到多部门的协作

业务部门∶商户数提升30%、销售额提升50%

运营部:要求看到实时运营数据,通过及时补充热门产品库存提升销售额,支撑商户拓展,把需求提给后台BI报表数据延迟不能超过10分钟

image.png技术部门︰BI业务系统能够实时查询到最新的业务数据,并且满足BI分析报表的查询性能需求

我们举一个淘宝的例子,淘宝双11每个5分钟就要刷新商户报表,核心就是通过AnalyticDB数据库实现运营数据实时分析

2.AnalyticDB 采用数据同步获取最新业务数据

image.png我们在设计解决方案时,一定要通过把业务数据库和分析数据库进行结合,这样才不会影响业务数据库。

也可以利用分析数据库在OLAP上快速分析的能力将整个链路变得更实时化,所以在实施AnalyticDB实时方案之后,首先数据是端到端实施的,订单数据进入RDS数据库,通过DTS可以将关系型数据库里的数据同步到AnalyticDB里面。

这是数据端到端的实施,保证了数据的新鲜度。第二,复杂的查询、报表会放在AnalyticDB里面,它可以支持快速的实时分析。在这里我们会做一个拆解,会把关系型数据库和分析性数据库分开,中间是通过DTS工具来解决端到端的数据同步。

3. AnalyticDB 的实时数据分析引擎加快实时查询

AnalyticDB在全球权威评测TPC-DS排名第一,这里还有跟ES以及其他产品的对比

image.png

4.AnalyticDB 如何支撑 BI 实时数据

传统数仓/大数据方案:

image.png

常规报表隔天输出、新运营需求数周才能满足

AnalyticDB方案:image.png报表/运营分析即刻完成

传统数仓和大数据方案∶数据处理链路长,需要提前定义数据分析维度

AnalyticDB方案︰数据处理链路短,对于业务决策者/运营者的强需求可以实时做出快速响应

使用AnalyticDB方案,在数据端到端延时问题上可以变成实时的,相当于数据同步。

第二,数据的分析可以借用AnalyticDB的olap产品去进行快速的复杂seek的查询,通过它来表达整个BI运营部门的一些业务要求,从而对业务决策、运营做到快速响应。

 

三、AnalyticDB 高效分析实时人群画像

1.用户画像基本流程与方法

image.png用户画像的第一步就是归一化,第二步就是标签化,构建标签体系,第三是实时圈人,第四就是实时洞察,最后就是触达。触达之后又会出现一系列的事件,这本质就是一个环形。

2.实时人群画像解决方案与收益

image.png会员的数据先汇集到AnalyticDB里面,在这里面进行归一化,标签体系的建立,基于这些就可以进行人群的画像和人群的洞察。接下来,再通过一些第三方工具将画像与洞察的结果进行触达。在这里进行归一化与标签体系的建立就要依赖于DMS调度。

基于以AnalyticDB为核心,包括DMS、DTS的产品组成,就形成了一个实时人群画像的解决方案。

3.用户画像常见算法举例—RFM

R( Recency )最近一次消费时间

F ( Frequency )消费频率

M (Monetary )消费金额

根据RFM可以进行划分。比如,一个人他消费频率很高,消费金额大,最近一次消费的时间很近,那么这个人就是一个重要价值客户。

image.png

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
15天前
|
存储 SQL 关系型数据库
Mysql高可用架构方案
本文阐述了Mysql高可用架构方案,介绍了 主从模式,MHA模式,MMM模式,MGR模式 方案的实现方式,没有哪个方案是完美的,开发人员在选择何种方案应用到项目中也没有标准答案,合适的才是最好的。
78 3
Mysql高可用架构方案
|
17天前
|
缓存 关系型数据库 MySQL
高并发架构系列:数据库主从同步的 3 种方案
本文详解高并发场景下数据库主从同步的三种解决方案:数据主从同步、数据库半同步复制、数据库中间件同步和缓存记录写key同步,旨在帮助解决数据一致性问题。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
高并发架构系列:数据库主从同步的 3 种方案
|
1月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
181 1
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
29天前
|
存储 缓存 NoSQL
分布式架构下 Session 共享的方案
【10月更文挑战第15天】在实际应用中,需要根据具体的业务需求、系统架构和性能要求等因素,选择合适的 Session 共享方案。同时,还需要不断地进行优化和调整,以确保系统的稳定性和可靠性。
|
2月前
|
存储 弹性计算 SDN
企业级 ECS 集群的构建需要综合考虑多个因素,通过不断的比较和对比不同的方案,选择最适合企业自身需求和发展的架构。
【9月更文挑战第5天】在数字化商业环境中,构建企业级ECS(弹性计算服务)集群对提升业务稳定性、扩展性和性能至关重要。本文将比较传统物理服务器与ECS架构,分析云服务商选择(如AWS和阿里云)、实例配置(CPU/内存)、网络架构(SDN vs 传统)及存储方案(本地存储 vs 云存储),帮助企业根据自身需求选出最优方案,实现高效稳定的ECS集群部署。
70 18
|
3月前
|
存储 NoSQL Java
一天五道Java面试题----第十一天(分布式架构下,Session共享有什么方案--------->分布式事务解决方案)
这篇文章是关于Java面试中的分布式架构问题的笔记,包括分布式架构下的Session共享方案、RPC和RMI的理解、分布式ID生成方案、分布式锁解决方案以及分布式事务解决方案。
一天五道Java面试题----第十一天(分布式架构下,Session共享有什么方案--------->分布式事务解决方案)
|
3月前
|
弹性计算 关系型数据库 Serverless
云端架构下的高效多媒体文件处理方案测评体验
传统的服务器部署模式在处理高并发、大数据量的文件转换任务时,常面临资源瓶颈和成本上升的问题。使用函数计算,利用事件驱动和异步任务的方式,将文件处理任务与核心应用解耦,同时依靠函数计算自动弹性扩展和按使用付费的优势可以快速对多媒体文件进行处理。
|
3月前
|
弹性计算 运维 关系型数据库
云上Serverless高可用架构一键部署体验与测评
在数字化转型背景下,Serverless架构因其实现业务敏捷、降低成本及提升服务可靠性而备受青睐。本文以阿里云Serverless应用引擎(SAE)为核心,展示了一种高可用、低成本且易于扩展的解决方案。通过单地域双可用区部署,构建了具备自动伸缩与故障恢复能力的架构。借助阿里云的一键部署功能,大幅简化了搭建流程,实现了快速部署,并通过性能与成本分析验证了其优势。对比传统ECS,SAE在资源利用与运维效率上表现更佳,特别适合平均负载较低的应用场景。
|
3月前
|
存储 缓存 安全
MPP架构数据仓库使用问题之DADI相比其他方案,在资源使用上有什么优势
MPP架构数据仓库使用问题之DADI相比其他方案,在资源使用上有什么优势
|
3月前
|
存储 缓存 Cloud Native
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样

热门文章

最新文章