开发者学堂课程【数据仓库 ACP 认证课程:云上数据仓库的架构方案】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/928/detail/14629
云上数据仓库的架构方案
内容介绍:
一、AnalyticDB 助力客户行为日志实时分析
二、AnalyticDB 快速实现BI报表分析加速
三、AnalyticDB 高效分析实时人群画像
四、基于 AnalyticDB 构建实时数据仓库
五、GIS 地理数据分析的最佳实践
六、回顾与总结
七、试题解析
一、AnalyticDB 助力客户行为日志实时分析
1.用户行为日志基本流程简介
在大数据分析领域,用户行为日志是个高频的热词。
用户行为日志常见场景——买家登录一个APP,在APP里进行点击、浏览、购买等行为,这都是由一系列埋点事件组成,这些事件就会通过日志的形式进行存储、采集以及后续的加工处理。
用户行为分析∶是指在获得网站或APP等平台访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站或APP等平台的规律,并将这些规律与网络营销策略等相结合,从而发现网络营销活动中可能存在的问题,并为进一步修正或重新制定相关策略提供依据。
2. 用户行为日志分析解决方案与收益
基于刚刚讲的用户行为日志,这些日志是通过事件形式存储在ECS,推荐使用阿里云的一款日志服务产品叫Log Service,通过Log Service在ECS上部署Logtail进行自动日志采集,因为日志量非常大,所以ECS有一个自动投递功能。
OSS数据投递将OSS日志数据“T+1”投递到AnalyticDB弹性集群进行海量热数据分析
OSS数据分析将OSS日志数据进行清洗加工
关键点:①日志采集投递出的数据有明显的冷热属性,因为日志数据的价值密度会随着时间推移锐减
②LIS数据是一个低频的解锁和分析的属性,会有一个冷热分离的属性,所以我们可以把冷数据投递到OSS上面,也可以在 AnalyticDB里面进行冷热数据的分离
刚刚讲到数据在OSS里要进行清洗,这就非常依赖于一个调度能力,这里就推荐DMS数据管理服务,基于DMS实现一站式全链路数据管理与服务,还会涉及一些实时数据分析与流处理,可以通过ADB内置引擎处理。
二、AnalyticDB 快速实现BI报表分析加速
1.案例背景:业务对BI报表的加速分析需求
一般BI报表这样加速分析的场景会涉及到多部门的协作
业务部门∶商户数提升30%、销售额提升50%
运营部:要求看到实时运营数据,通过及时补充热门产品库存提升销售额,支撑商户拓展,把需求提给后台BI报表数据延迟不能超过10分钟
技术部门︰BI业务系统能够实时查询到最新的业务数据,并且满足BI分析报表的查询性能需求
我们举一个淘宝的例子,淘宝双11每个5分钟就要刷新商户报表,核心就是通过AnalyticDB数据库实现运营数据实时分析
2.AnalyticDB 采用数据同步获取最新业务数据
我们在设计解决方案时,一定要通过把业务数据库和分析数据库进行结合,这样才不会影响业务数据库。
也可以利用分析数据库在OLAP上快速分析的能力将整个链路变得更实时化,所以在实施AnalyticDB实时方案之后,首先数据是端到端实施的,订单数据进入RDS数据库,通过DTS可以将关系型数据库里的数据同步到AnalyticDB里面。
这是数据端到端的实施,保证了数据的新鲜度。第二,复杂的查询、报表会放在AnalyticDB里面,它可以支持快速的实时分析。在这里我们会做一个拆解,会把关系型数据库和分析性数据库分开,中间是通过DTS工具来解决端到端的数据同步。
3. AnalyticDB 的实时数据分析引擎加快实时查询
AnalyticDB在全球权威评测TPC-DS排名第一,这里还有跟ES以及其他产品的对比
4.AnalyticDB 如何支撑 BI 实时数据
传统数仓/大数据方案:
常规报表隔天输出、新运营需求数周才能满足
AnalyticDB方案:报表/运营分析即刻完成
传统数仓和大数据方案∶数据处理链路长,需要提前定义数据分析维度
AnalyticDB方案︰数据处理链路短,对于业务决策者/运营者的强需求可以实时做出快速响应
使用AnalyticDB方案,在数据端到端延时问题上可以变成实时的,相当于数据同步。
第二,数据的分析可以借用AnalyticDB的olap产品去进行快速的复杂seek的查询,通过它来表达整个BI运营部门的一些业务要求,从而对业务决策、运营做到快速响应。
三、AnalyticDB 高效分析实时人群画像
1.用户画像基本流程与方法
用户画像的第一步就是归一化,第二步就是标签化,构建标签体系,第三是实时圈人,第四就是实时洞察,最后就是触达。触达之后又会出现一系列的事件,这本质就是一个环形。
2.实时人群画像解决方案与收益
会员的数据先汇集到AnalyticDB里面,在这里面进行归一化,标签体系的建立,基于这些就可以进行人群的画像和人群的洞察。接下来,再通过一些第三方工具将画像与洞察的结果进行触达。在这里进行归一化与标签体系的建立就要依赖于DMS调度。
基于以AnalyticDB为核心,包括DMS、DTS的产品组成,就形成了一个实时人群画像的解决方案。
3.用户画像常见算法举例—RFM
R( Recency )最近一次消费时间
F ( Frequency )消费频率
M (Monetary )消费金额
根据RFM可以进行划分。比如,一个人他消费频率很高,消费金额大,最近一次消费的时间很近,那么这个人就是一个重要价值客户。