MaxCompute 持续定义 SaaS 模式云数据仓库—云数据仓库+实时分析 | 学习笔记

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 快速学习 MaxCompute 持续定义 SaaS 模 式云数据仓库— 云数据仓库+实时分析

开发者学堂课程【 SaaS  模式云数据仓库系列课程 —— 2021数仓必修课MaxCompute  持续定义  SaaS  模式云数据仓库— 云数据仓库+实时分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/55/detail/1031


MaxCompute 持续定义 SaaS  模式云数据仓库— 云数据仓库+实时分析

内容介绍:

一、云数据仓库概述:

二、实时分析场景与价值

三、 MaxCompute 云数仓+实时分析

四、实时分析案例

一、云数据仓库概述

(一.1)数据仓库

image.png

1.什么是数仓:

数据仓库的特征在于面向主题、集成性、稳定性和时变性,用于支持管理决策。

2.数据仓库的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的,规范的数据出口。

3.观点:数据仓库(模型)本质是人收集和存储数据,认识数据,组织和管理数据,使用数据决策的最佳实践形成的方法论;模型本身与在哪、用什么技术无关,但逻辑模型和物理模型在最终方案中又是紧密结合的。

 

(一.2)云数据仓库

image.png

1.数据仓库的核心能力和价值:采集同步、加工、存储、建模、治理、查询

2.为实现数据仓库的能力和价值必须要具备的基础:IDC机房、部署、开通、高可用、安全、日常运维、扩容

3.总成本=核心能力成本+基础成本=产品成本+服务成本=当前成本+长期成本+演进成本

4.SaaS  模式云数据仓库:

1.开箱即用

2.丰富完善的数仓能力

3.大规模高性能

4.高可用,容灾备份

5.免运维、专家优化

6.极致安全

7.低成本

8.灵活扩展

9.能力快速演进

10.数据服务。

 

(一.3)云数据仓库支持多场景数仓应用

MaxCompute:SaaS  模式企业级云数据仓库

1.应用场景:

① 实时数据入仓和分析决策

② 业务运营场景-交互式业务指标计算、查询

③ 各行业搭建数据仓库-流批一体、湖仓一体

④ 云上弹性扩展大数据计算和存储

2.产品优势:

云原生极致弹性:云原生设计,无服务器架构,支持秒级弹性伸缩,快速实现大规模弹性负载需求

简单易用多功能计算:预置多种计算模型和数据通道能力,开通即用

企业级平台服务:支持开放生态,提供企业级安全管理能力。与阿里云众多大数据服务无缝集成

安全:多租户环境下安全控制能力强

大规模集群性能强、全链路稳定性高,阿里巴巴双11场景验证

3.推荐组合:

实时分析场景

-MaxCompute+MC-Hologres+Flink+DataWorks+Quick

机器学习场景-MaxCompute+PAI+DataWorks

(一.4)云数据仓库面向用户的功能和数据流程

image.png


二、实时分析场景与价值

(二.1)重提大数据 5V

·越接近数据源,越早进行分析和决策,越能发挥数据价值

image.png

1.容量(Volume)

是指大规模的数据量,并且数据量呈持续增长趋势。目前一般指超过10T规模的数据量,但未来随着技术的进步,符合大数据标准的数据集大小也会变化

2.速率(Velocity)

即数据生成、流动速率快。数据流动速率指对数据采集、存储以及分析具有价值信息的速度。因此也意味着数据的采集和分析等过程必须迅速及时

3.多样性(Variety)

指是大数据包括多种不同格式和不同类型的数据。数据来源包括人与系统交互时与机器自动生成,来源的多样性导致数据类型的多样性。根据数据是否具有一定的模式结构和关系,数据可分为三种基本类型:结构化数据、非结构化数据、半结构化数据

4真实性(Veracity)

指数据的质量和保真性。大数据环境下的数据最好具有较高的信噪比

5.价值(Value)

即低价值密度。随着数据量的增长,数据中有意义的信息却没有成相应比例增长,而价值同时与数据的真实性和数据处理时间相关。

 (二.2)实时分析的两种演化构建方式

类比1:大酒店同时具备其他综合业务,发展出餐饮(实时)业务,用以更好的发挥协同作用

演化1:以数仓分析为主场景,根据业务实时性需求进行实时分析,构建实时通道和实时交互式分析,形成  Lambda  架构

类比2:饭店从餐饮(实时)业务发展而来,需要更好的外围支持作用,并向综合性发展

演化2:以实时分析为主场景,形成流式架构,又需要能从数仓快速提取数据,和数据源回放,形成  kappa  架构,后续还要考虑实时数据和模型如何入仓。 

(二.3)实时分析的两种场景

image.png

1.以数仓分析为主场景,根据业务实时性需求进行实时分析,构建实时通道和实时交互式分析,形成  Lambda  架构。

例如  IOT  设备监控分析,下发策略,设备接收后上报新数据立即进行分析,对比之前的结果,反复分析调优。

2.以实时分析为主场景,形成流式架构,又需要能从数仓快速提取数据,和数据源回放,形成  kappa  架构,后续还要考虑实时数据和模型如何入仓例如欺诈监控,必须第一时间获取分析结论,并关联标签精准识别,最后实时数据落入数仓与其他数据融合形成知识。

(二.4)数仓实时分析的能力要求

数仓实时分析的能力要求:

1.极速查询相应

2.实时存储

3.数仓查询加速

4.应用生态

5.实时离线联合计算和建模

 

三、MaxCompute  云数仓+实时分析

(三.1)常见的  Lambda  架构的问题

image.png

1.一致性难题

:2套语义、2套逻辑、2份数据:

两套代码,两套逻辑;流和批语义完全不同;离线层和实时层数据存储和变换方式完全不同。

:环环相扣、多套系统、运维复杂、成本高昂:

多个不同的系统;大量的同步任务;资源消耗巨大;不同系统标准规范不统一

:开发周期长、业务不敏捷:

错误难以诊断和定位;修订、补数周期长;无法自助实时分析;无法响应变化;分析到服务的转化周期长。

 (三.2)开源方案的能力发散

场景案例:搜索推荐精细化运营

image.png 

① KVStore:Redis/Mysql/Hbase/Cassandra  存储点查能力

② MPP: Impala/Presto/Drill   计算+查询能力

③ 实时数仓:Clickhouse/Druid   存储+计算+查询能力

④ 数仓:Hive/Spark/MaxCompute   存储+批处理

(多种能力统一于一个引擎。

 

(三.3)实时分析简单架构:实时写入和实时查询

1.实时离线数据统一存储

2.以实时分析为中心设计

3.MaxCompute  直接加速

image.png

 

 (三.4)数仓加速分析:无数据搬迁、数据分析效率高

 

image.png

 

 

 (三.5)开源方案实时数仓:实时成本高、开发周期长、业务支持不灵活

image.png 

 

1.kappa  架构,基于流式架构,需要回放和关联数仓,后续还要考虑实时数据和模型如何入仓。

2.Kappa  架构的原理就是在Lambda的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代,因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次。

3.Kappa  架构看起来简洁,但实施难度相对较高,尤其是对于数据回放部分。

(三.6)实时、离线、分析、服务一体化方案

image.png 


四、实时分析案例

(四-1)常用场景:实时、离线、分析、服务一体化方案

1.方案说明:适用于电商、游戏、社交等互联网行业数据化运营,如智能推荐、日志采集分析、用户画像、数据治理、业务大屏、搜索等场景

2.方案优势:阿里巴巴最佳实践的大数据平台,1)技术领先性;2)降本提效;3)高附加值业务收益;

3.涉及产品:日志服务  SLS、数据传输  DTS、DataHub、实时计算  Flink、交互式分析、云数仓  MaxCompute、数据治理  DataWorks、Quick BI  报表、DataV大屏、ES  搜索、机器学习  PAI

image.png 

(四-2)PB  级用户行为交互式分析案例

——友盟+是国内最大的移动应用统计服务商,其统计分析产品  U-App&U-Mini&U-Web  为开发者提供基本报表统计及自定义用户行为分析服务

image.png 

1.业务痛点:

1.业务数据量大,年新增行为数据  10PB  级

2.个性化、自定义地交互式用户行为分析强需求.

3.基于  MaxCompute  提供异步离线的  adhoc分析.

4.和优化、以及自研引擎开发尝试均无法满足业务需求

2.客户收益:

1.PB  级数据秒级查询响应,30s  交互式体验

2.与  MaxCompute  深度集成,能够利用  range cluster  索引加速,实时离线联邦查询,同时也可以实现冷热数据混合查询,有利于成本性能平衡

3.计算资源弹性伸缩,可兼顾扩展性、稳定性、性能、成本

(四-3)互联网内容资讯客户实时推荐案例

——小影是一款原创视频、全能剪辑的短视频社区APP,面向大众提供短视频创作工具,包括视频剪辑、教程玩法、视频拍摄,谷歌应用商城收入榜前五,全球累计用户突破  8.9 亿

>SaaS  模式云数据仓库:

一套存储引擎、三种计算力量

MaxCompute(离线计算)+Realtime Compute(实时计算)+MC-Hologres(交互式分析)

1.用户标签数据开发:

客户通过  MaxCompute  针对每天  APP  产生的客户基础属性数据、行为日志数据、内容数据等进行计算,每天离线更新用户标签的数据,支持营销业务的使用。

2.用户画像实时洞察:

客户基于  MC  离线计算好的用户标签,通过  MC-Hologres 进行多标签、多维度的实时分析,了解用户属性标签与内容标签之间的关联性,洞察交叉销售机会,并通过人群圈选,进行  APP  消息  PUSH。

3.实时视频推荐:

客户通过  Flink+MaxCompute+MC-Hologres+PAI  搭建个性化实时推荐系统,基于用户特征和实时行为特征,实时推荐个性化的短视频内容。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
16天前
|
SQL 存储 算法
基于对象 - 事件模式的数据计算问题
基于对象-事件模式的数据计算是商业中最常见的数据分析任务之一。对象如用户、账号、商品等,通过唯一ID记录其相关事件,如操作日志、交易记录等。这种模式下的统计任务包括无序计算(如交易次数、通话时长)和有序计算(如漏斗分析、连续交易检测)。尽管SQL在处理无序计算时表现尚可,但在有序计算中却显得力不从心,主要原因是其对跨行记录运算的支持较弱,且大表JOIN和大结果集GROUP BY的性能较差。相比之下,SPL语言通过强化离散性和有序集合的支持,能够高效地处理这类计算任务,避免了大表JOIN和复杂的GROUP BY操作,从而显著提升了计算效率。
|
1月前
|
存储 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
39 1
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
|
24天前
|
SQL 存储 算法
基于对象 - 事件模式的数据计算问题
基于对象-事件模式的数据计算是商业中最常见的数据分析任务之一。这种模式涉及对象(如用户、账户、商品等)及其相关的事件记录,通过这些事件数据可以进行各种统计分析,如漏斗分析、交易次数统计等。然而,SQL 在处理这类任务时表现不佳,特别是在有序计算方面。SPL 作为一种强化离散性和有序集合的语言,能够高效地处理这类计算,避免了大表 JOIN 和大结果集 GROUP BY 的性能瓶颈。通过按 ID 排序和分步计算,SPL 能够显著提高计算效率,并支持实时数据处理。
|
1月前
|
分布式计算 大数据 分布式数据库
大数据-158 Apache Kylin 安装配置详解 集群模式启动(一)
大数据-158 Apache Kylin 安装配置详解 集群模式启动(一)
42 5
|
1月前
|
资源调度 大数据 分布式数据库
大数据-158 Apache Kylin 安装配置详解 集群模式启动(二)
大数据-158 Apache Kylin 安装配置详解 集群模式启动(二)
40 2
|
1月前
|
消息中间件 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
40 2
|
1月前
|
存储 消息中间件 druid
大数据-151 Apache Druid 集群模式 配置启动【上篇】 超详细!
大数据-151 Apache Druid 集群模式 配置启动【上篇】 超详细!
80 1
|
3月前
|
存储 缓存 Cloud Native
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
|
4月前
|
SQL Cloud Native 关系型数据库
云原生数据仓库使用问题之分组优化如何实现
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
4月前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库操作报错合集之遇到“table does not exist”错误,该怎么办
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。

热门文章

最新文章