云上数据仓库的架构方案|学习笔记(一)

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000 次 1年
简介: 快速学习云上数据仓库的架构方案

开发者学堂课程【数据仓库 ACP 认证课程云上数据仓库的架构方案】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/928/detail/14629


云上数据仓库的架构方案

 

内容介绍:

一、AnalyticDB 助力客户行为日志实时分析

二、AnalyticDB 快速实现BI报表分析加速

三、AnalyticDB 高效分析实时人群画像

四、基于 AnalyticDB 构建实时数据仓库

五、GIS 地理数据分析的最佳实践

六、回顾与总结

七、试题解析


一、AnalyticDB 助力客户行为日志实时分析

1.用户行为日志基本流程简介

image.png在大数据分析领域,用户行为日志是个高频的热词。

用户行为日志常见场景——买家登录一个APP,在APP里进行点击、浏览、购买等行为,这都是由一系列埋点事件组成,这些事件就会通过日志的形式进行存储、采集以及后续的加工处理。

用户行为分析∶是指在获得网站或APP等平台访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站或APP等平台的规律,并将这些规律与网络营销策略等相结合,从而发现网络营销活动中可能存在的问题,并为进一步修正或重新制定相关策略提供依据。

2. 用户行为日志分析解决方案与收益

image.png基于刚刚讲的用户行为日志,这些日志是通过事件形式存储在ECS,推荐使用阿里云的一款日志服务产品叫Log Service,通过Log Service在ECS上部署Logtail进行自动日志采集,因为日志量非常大,所以ECS有一个自动投递功能。

OSS数据投递将OSS日志数据“T+1”投递到AnalyticDB弹性集群进行海量热数据分析

OSS数据分析将OSS日志数据进行清洗加工

关键点:①日志采集投递出的数据有明显的冷热属性,因为日志数据的价值密度会随着时间推移锐减

②LIS数据是一个低频的解锁和分析的属性,会有一个冷热分离的属性,所以我们可以把冷数据投递到OSS上面,也可以在 AnalyticDB里面进行冷热数据的分离

刚刚讲到数据在OSS里要进行清洗,这就非常依赖于一个调度能力,这里就推荐DMS数据管理服务,基于DMS实现一站式全链路数据管理与服务,还会涉及一些实时数据分析与流处理,可以通过ADB内置引擎处理。

 

二、AnalyticDB 快速实现BI报表分析加速

1.案例背景:业务对BI报表的加速分析需求

一般BI报表这样加速分析的场景会涉及到多部门的协作

业务部门∶商户数提升30%、销售额提升50%

运营部:要求看到实时运营数据,通过及时补充热门产品库存提升销售额,支撑商户拓展,把需求提给后台BI报表数据延迟不能超过10分钟

image.png技术部门︰BI业务系统能够实时查询到最新的业务数据,并且满足BI分析报表的查询性能需求

我们举一个淘宝的例子,淘宝双11每个5分钟就要刷新商户报表,核心就是通过AnalyticDB数据库实现运营数据实时分析

2.AnalyticDB 采用数据同步获取最新业务数据

image.png我们在设计解决方案时,一定要通过把业务数据库和分析数据库进行结合,这样才不会影响业务数据库。

也可以利用分析数据库在OLAP上快速分析的能力将整个链路变得更实时化,所以在实施AnalyticDB实时方案之后,首先数据是端到端实施的,订单数据进入RDS数据库,通过DTS可以将关系型数据库里的数据同步到AnalyticDB里面。

这是数据端到端的实施,保证了数据的新鲜度。第二,复杂的查询、报表会放在AnalyticDB里面,它可以支持快速的实时分析。在这里我们会做一个拆解,会把关系型数据库和分析性数据库分开,中间是通过DTS工具来解决端到端的数据同步。

3. AnalyticDB 的实时数据分析引擎加快实时查询

AnalyticDB在全球权威评测TPC-DS排名第一,这里还有跟ES以及其他产品的对比

image.png

4.AnalyticDB 如何支撑 BI 实时数据

传统数仓/大数据方案:

image.png

常规报表隔天输出、新运营需求数周才能满足

AnalyticDB方案:image.png报表/运营分析即刻完成

传统数仓和大数据方案∶数据处理链路长,需要提前定义数据分析维度

AnalyticDB方案︰数据处理链路短,对于业务决策者/运营者的强需求可以实时做出快速响应

使用AnalyticDB方案,在数据端到端延时问题上可以变成实时的,相当于数据同步。

第二,数据的分析可以借用AnalyticDB的olap产品去进行快速的复杂seek的查询,通过它来表达整个BI运营部门的一些业务要求,从而对业务决策、运营做到快速响应。

 

三、AnalyticDB 高效分析实时人群画像

1.用户画像基本流程与方法

image.png用户画像的第一步就是归一化,第二步就是标签化,构建标签体系,第三是实时圈人,第四就是实时洞察,最后就是触达。触达之后又会出现一系列的事件,这本质就是一个环形。

2.实时人群画像解决方案与收益

image.png会员的数据先汇集到AnalyticDB里面,在这里面进行归一化,标签体系的建立,基于这些就可以进行人群的画像和人群的洞察。接下来,再通过一些第三方工具将画像与洞察的结果进行触达。在这里进行归一化与标签体系的建立就要依赖于DMS调度。

基于以AnalyticDB为核心,包括DMS、DTS的产品组成,就形成了一个实时人群画像的解决方案。

3.用户画像常见算法举例—RFM

R( Recency )最近一次消费时间

F ( Frequency )消费频率

M (Monetary )消费金额

根据RFM可以进行划分。比如,一个人他消费频率很高,消费金额大,最近一次消费的时间很近,那么这个人就是一个重要价值客户。

image.png

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
存储 缓存 Cloud Native
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
|
7月前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
11月前
|
自然语言处理 JavaScript Java
《鸿蒙HarmonyOS应用开发从入门到精通(第2版)》学习笔记——HarmonyOS架构介绍
HarmonyOS采用分层架构设计,从下至上分为内核层、系统服务层、框架层和应用层。内核层支持多内核设计与硬件驱动;系统服务层提供核心能力和服务;框架层支持多语言开发;应用层包括系统及第三方应用,支持跨设备调度,确保一致的用户体验。
842 81
|
8月前
|
人工智能 前端开发 Java
DDD四层架构和MVC三层架构的个人理解和学习笔记
领域驱动设计(DDD)是一种以业务为核心的设计方法,与传统MVC架构不同,DDD将业务逻辑拆分为应用层和领域层,更关注业务领域而非数据库设计。其四层架构包括:Interface(接口层)、Application(应用层)、Domain(领域层)和Infrastructure(基础层)。各层职责分明,避免跨层调用,确保业务逻辑清晰。代码实现中,通过DTO、Entity、DO等对象的转换,结合ProtoBuf协议,完成请求与响应的处理流程。为提高复用性,实际项目中可增加Common层存放公共依赖。DDD强调从业务出发设计软件,适应复杂业务场景,是微服务架构的重要设计思想。
|
10月前
|
负载均衡 Serverless 持续交付
云端问道9期实践教学-省心省钱的云上Serverless高可用架构
详细介绍了云上Serverless高可用架构的一键部署流程
166 10
|
10月前
|
容灾 网络协议 数据库
云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践
本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。
|
11月前
|
运维 监控 安全
天财商龙:云上卓越架构治理实践
天财商龙成立于1998年,专注于为餐饮企业提供信息化解决方案,涵盖点餐、收银、供应链和会员系统等。自2013年起逐步实现业务上云,与阿里云合作至今已十年。通过采用阿里云的WA体系,公司在账号管理、安全保障、监控体系和成本管控等方面进行了全面优化,提升了业务稳定性与安全性,并实现了显著的成本节约。未来,公司将持续探索智能化和全球化发展,进一步提升餐饮行业的数字化水平。
|
10月前
|
监控 Serverless 测试技术
云端问道9期方案教学-省心省钱的云上Serverless高可用架构
本文介绍了省心省钱的云上Serverless高可用架构,主要分为两个部分:1. Serverless的发展历程、特点及高可用架构;2. SAE(Serverless Application Engine)产品介绍。Serverless作为一种云计算模式,让用户无需管理底层基础设施,自动弹性扩展资源,按需付费,极大提高了资源利用率和业务灵活性。SAE作为Serverless计算服务,提供了简便的应用部署、运维自动化、丰富的弹性策略和可观测性等功能,帮助企业降低运营成本、提升研发效率。通过极氪汽车、南瓜电影等客户案例展示了SAE在实际应用中的优势。
146 0
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
652 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
缓存 Cloud Native 关系型数据库
MPP架构数据仓库使用问题之Calcite 是一个什么样的类库,它主要用于什么地方
MPP架构数据仓库使用问题之Calcite 是一个什么样的类库,它主要用于什么地方

热门文章

最新文章

下一篇
开通oss服务