云上数据仓库的架构方案|学习笔记(二)

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习云上数据仓库的架构方案

开发者学堂课程【数据仓库 ACP 认证课程云上数据仓库的架构方案】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/928/detail/14629


云上数据仓库的架构方案


假设客户有流失的风险,可能要调整运营策略或发一些代金券去挽留客户,所以,假设基于AnalyticDB怎么实施用户画像:

WITH tbase

AS

SELECT vipid,

rval,

fval,

mval,

max(rval) over() rval_max,

min(rval) over() rval_min,

max(fval) over0 fval_max,

min(fval) over0 fval_min,

max(mval) over) mval_max,

min(mval) overo mval_min

FROM(

SELECT vipid,

max(col_num_012) rval,

count(1)fval,

sum(col_num_oo5) mval

FROM   vip_behavior256 a

WHERE   a.col_num_0o1 > 995

GROUP BY vipid) a)

以上是人群圈选的逻辑,select max某个字段,是个时间,表示最近一次购买的时间或者最近一次登录的时间,count是指它的频率,sum是指它的金额,我们还需要做规划处理。

下面是规划处理:

SELECT vipid,

CASE

WHEN rval > rval_avg ANDfval > fval_avgANDmval > mval_avg THEN’重要价值客户’

WHEN rval < rval_avgANDfval > fval_avgANDmval > mval_avg THEN‘重要换回客户’

WHEN rval > rval_avg ANDfval < fval_avgANDmval > mval_avg THEN‘重要深耕客户’

WHEN rval < rval_avg ANDfval < fval_avgANDmval > mval_avg THEN‘重要挽留客户’

WHEN rval > rval_avg ANDfval > fval_avgANDmval < mval_avg THEN‘潜力客户’

WHEN rval > rval_avg AND fval< fval_avgANDmval < mval_avg THEN‘新客户’

WHEN rval < rval_avg ANDfval > fval_avgANDmval < mval_avg THEN’—般维持客户’

WHEN rval < rval_avg AND fval< fval_avgANDmval < mval_avg THEN’流失客户’

以上是规划的逻辑,相当于定义多少是高频,多少是低频。通过一个select语句可以完成圈选和洞察,判断客户是什么类型。因为要求实时性,出现了许多海量数据实时分析的产品,使得现在我们可以进行实时人群画像。

 

四、基于 AnalyticDB 构建实时数据仓库

1.AnalyticDB 构建实时数仓构建大图

image.png

实时数仓重要的一个点是数据的新鲜度是实时的,而不是像传统数仓,传统数仓本质上是t+1的数据抽取,它的数据不是实时的,所以构建实时数仓的前提是先将数据链路变得实时化,这就依赖于DTS,DTS就把数据实时的传到一个数仓上面。

当然还可以用DMS/Dataworks这样数据集成类的产品去做数据的抽取。除了数据库里的数据,还有一个非常重要的数据类型,是日志数据。还有一些流计算,要通过实时投递或者实时写入实时数仓类的产品里。

2.DTS 实时同步

数据传输(Data Transmission ) DTS的数据同步功能旨在帮助用户实现两个数据源之间的数据实时同步。

DTS通过解析数据源的增量日志,如binlog,将增量实时同步到AnalyticDB中。

image.png

3.SLS 实时投递

刚刚讲到实时数仓面向不一定是关系型数据,还有一类的数据是日志数据,这里讲的是阿里云的一个日志服务产品SLS,现在称LogService

通过阿里云日志服务广泛的日志采集能力,加上AnalyticDB内建的灵活可定制的ETL能力,进行数据湖投递、处理、分析。比如通过SLS去各个语言端抓取实时生成的日志,然后进行自动投递,将其投递到AnalyticDB里面或者对象存储上,然后利用AnalyticDB对它进行实时数据清理加工。

image.png

4. DMS 企业版数仓开发与调度

数据管理( Data Management ) DMS的数仓开发旨在为用户提供数据集成、加工、可视化和价值挖掘的一站式开发平台。

提供任务编排、数据仓库两种开发模式,均可以实现周期调度,满足用户不同应用场景的数仓开发需求。

(1)DMS数仓开发-数据迁移实现增量流程

①创建任务流——设置任务基本信息

②创建数据迁移节点——设置源数据

设置目标为AnalyticDB

通过数据迁移实现

③编排任务——DAG任务节点顺序

前置依赖

试运行

指定时间运行

④配置调度——调度类型

调度周期:月、周、日、小时、分钟

调度时间

⑤运维中心——执行日志查看、终止、重跑、暂停、恢复、置成功

(2)DMS数仓开发-跨库SQL增量流程

①创建任务流——设置任务基本信息

②创建跨库SQL任务

设通过DBlink获取数据

数据抽取SQL,设置增量变量

变量格式定义

③编排任务

DAG任务节点顺序

前置依赖

试运行

指定时间运行

④配置调度

调度类型

⑤运维中心

执行日志查看、终止、重跑、暂停、恢复、置成功

 

五、GIS 地理数据分析的最佳实践

GIS 地理数据分析在进行实时分析的优势是不好的,原因有以下几点:

image.png

数据结构复杂多样难以管理

数据动态变化要求更高维度计算

大数据和大计算场景性能不佳

智能化需要多模态数据融合管理

面临挑战:

image.png

多源性——时空数据来源多样化、非结构化——一体化管理(多模数据组织)

动态性——目标对象的状态是变化的——时空建模(表达、索引)

巨量——亿级、十亿级、百亿级——计算效率(弹性、性能)

智能化——数据库+大数据+智能分析——知识发现(规律、趋势)

1.案例背景:

地理信息与农业大数据综合服务提供商

GIS亿级大数据量查询与分析80%以上从事

技术类工作

●境内累计申请技术专利百件以上

●稳定、安全、可靠的数据库运行环境

●支持海量瓦片数据的存取

●支持时空数据索引

image.png

2.解决方案

GIS地理数据分析方案

●内置支持空间数据库引擎PostGIS和强大的GanosBase时空引擎,可以实现实时的定位及路径规划,以及对空间/时空数据进行高效的存储、索引、查询和分析计算。

在应用程序中使用简单的SQL,配合GIS函数操作,即可处理复杂的空间地理数据模型(支持2D及3D处理) 。image.png

得益于云原生数据仓库AnalyticDB PostgreSQL版的OLAP数据综合分析能力,用户更可以实现基于地理信息的海量数据分析工作,为物联网、移动互联网、物流配送、智慧出行(智慧城市)、LBS位置服务、020业务系统等提供强大的决策分析支持。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
12天前
|
存储 SQL 关系型数据库
Mysql高可用架构方案
本文阐述了Mysql高可用架构方案,介绍了 主从模式,MHA模式,MMM模式,MGR模式 方案的实现方式,没有哪个方案是完美的,开发人员在选择何种方案应用到项目中也没有标准答案,合适的才是最好的。
70 3
Mysql高可用架构方案
|
14天前
|
缓存 关系型数据库 MySQL
高并发架构系列:数据库主从同步的 3 种方案
本文详解高并发场景下数据库主从同步的三种解决方案:数据主从同步、数据库半同步复制、数据库中间件同步和缓存记录写key同步,旨在帮助解决数据一致性问题。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
高并发架构系列:数据库主从同步的 3 种方案
|
1月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
178 1
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
26天前
|
存储 缓存 NoSQL
分布式架构下 Session 共享的方案
【10月更文挑战第15天】在实际应用中,需要根据具体的业务需求、系统架构和性能要求等因素,选择合适的 Session 共享方案。同时,还需要不断地进行优化和调整,以确保系统的稳定性和可靠性。
|
2月前
|
存储 弹性计算 SDN
企业级 ECS 集群的构建需要综合考虑多个因素,通过不断的比较和对比不同的方案,选择最适合企业自身需求和发展的架构。
【9月更文挑战第5天】在数字化商业环境中,构建企业级ECS(弹性计算服务)集群对提升业务稳定性、扩展性和性能至关重要。本文将比较传统物理服务器与ECS架构,分析云服务商选择(如AWS和阿里云)、实例配置(CPU/内存)、网络架构(SDN vs 传统)及存储方案(本地存储 vs 云存储),帮助企业根据自身需求选出最优方案,实现高效稳定的ECS集群部署。
69 18
|
3月前
|
存储 NoSQL Java
一天五道Java面试题----第十一天(分布式架构下,Session共享有什么方案--------->分布式事务解决方案)
这篇文章是关于Java面试中的分布式架构问题的笔记,包括分布式架构下的Session共享方案、RPC和RMI的理解、分布式ID生成方案、分布式锁解决方案以及分布式事务解决方案。
一天五道Java面试题----第十一天(分布式架构下,Session共享有什么方案--------->分布式事务解决方案)
|
3月前
|
弹性计算 关系型数据库 Serverless
云端架构下的高效多媒体文件处理方案测评体验
传统的服务器部署模式在处理高并发、大数据量的文件转换任务时,常面临资源瓶颈和成本上升的问题。使用函数计算,利用事件驱动和异步任务的方式,将文件处理任务与核心应用解耦,同时依靠函数计算自动弹性扩展和按使用付费的优势可以快速对多媒体文件进行处理。
|
3月前
|
弹性计算 运维 关系型数据库
云上Serverless高可用架构一键部署体验与测评
在数字化转型背景下,Serverless架构因其实现业务敏捷、降低成本及提升服务可靠性而备受青睐。本文以阿里云Serverless应用引擎(SAE)为核心,展示了一种高可用、低成本且易于扩展的解决方案。通过单地域双可用区部署,构建了具备自动伸缩与故障恢复能力的架构。借助阿里云的一键部署功能,大幅简化了搭建流程,实现了快速部署,并通过性能与成本分析验证了其优势。对比传统ECS,SAE在资源利用与运维效率上表现更佳,特别适合平均负载较低的应用场景。
|
3月前
|
存储 缓存 安全
MPP架构数据仓库使用问题之DADI相比其他方案,在资源使用上有什么优势
MPP架构数据仓库使用问题之DADI相比其他方案,在资源使用上有什么优势
|
4月前
|
运维 监控 Serverless
探索Serverless高可用架构:云上极简运维的新篇章
随着云计算的快速发展,Serverless 架构因其无需管理服务器、按需自动扩展等优势,逐渐成为企业应用构建的重要选择。阿里云提供的 Serverless 高可用架构解决方案,通过结合多种云服务,提供了强大的高可用性和自动化运维能力。本文将评测阿里云 Serverless 高可用架构的核心功能、优势及其应用场景,帮助读者更好地理解和使用这一解决方案。

热门文章

最新文章