MaxCompute 持续定义 SaaS 模式云数据仓库—云数据仓库+实时分析 | 学习笔记

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
云原生数据仓库AnalyticDB MySQL版,8核32GB 100GB 1个月
简介: 快速学习 MaxCompute 持续定义 SaaS 模 式云数据仓库— 云数据仓库+实时分析

开发者学堂课程【 SaaS  模式云数据仓库系列课程 —— 2021数仓必修课MaxCompute  持续定义  SaaS  模式云数据仓库— 云数据仓库+实时分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/55/detail/1031


MaxCompute 持续定义 SaaS  模式云数据仓库— 云数据仓库+实时分析

内容介绍:

一、云数据仓库概述:

二、实时分析场景与价值

三、 MaxCompute 云数仓+实时分析

四、实时分析案例

一、云数据仓库概述

(一.1)数据仓库

image.png

1.什么是数仓:

数据仓库的特征在于面向主题、集成性、稳定性和时变性,用于支持管理决策。

2.数据仓库的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的,规范的数据出口。

3.观点:数据仓库(模型)本质是人收集和存储数据,认识数据,组织和管理数据,使用数据决策的最佳实践形成的方法论;模型本身与在哪、用什么技术无关,但逻辑模型和物理模型在最终方案中又是紧密结合的。

 

(一.2)云数据仓库

image.png

1.数据仓库的核心能力和价值:采集同步、加工、存储、建模、治理、查询

2.为实现数据仓库的能力和价值必须要具备的基础:IDC机房、部署、开通、高可用、安全、日常运维、扩容

3.总成本=核心能力成本+基础成本=产品成本+服务成本=当前成本+长期成本+演进成本

4.SaaS  模式云数据仓库:

1.开箱即用

2.丰富完善的数仓能力

3.大规模高性能

4.高可用,容灾备份

5.免运维、专家优化

6.极致安全

7.低成本

8.灵活扩展

9.能力快速演进

10.数据服务。

 

(一.3)云数据仓库支持多场景数仓应用

MaxCompute:SaaS  模式企业级云数据仓库

1.应用场景:

① 实时数据入仓和分析决策

② 业务运营场景-交互式业务指标计算、查询

③ 各行业搭建数据仓库-流批一体、湖仓一体

④ 云上弹性扩展大数据计算和存储

2.产品优势:

云原生极致弹性:云原生设计,无服务器架构,支持秒级弹性伸缩,快速实现大规模弹性负载需求

简单易用多功能计算:预置多种计算模型和数据通道能力,开通即用

企业级平台服务:支持开放生态,提供企业级安全管理能力。与阿里云众多大数据服务无缝集成

安全:多租户环境下安全控制能力强

大规模集群性能强、全链路稳定性高,阿里巴巴双11场景验证

3.推荐组合:

实时分析场景

-MaxCompute+MC-Hologres+Flink+DataWorks+Quick

机器学习场景-MaxCompute+PAI+DataWorks

(一.4)云数据仓库面向用户的功能和数据流程

image.png


二、实时分析场景与价值

(二.1)重提大数据 5V

·越接近数据源,越早进行分析和决策,越能发挥数据价值

image.png

1.容量(Volume)

是指大规模的数据量,并且数据量呈持续增长趋势。目前一般指超过10T规模的数据量,但未来随着技术的进步,符合大数据标准的数据集大小也会变化

2.速率(Velocity)

即数据生成、流动速率快。数据流动速率指对数据采集、存储以及分析具有价值信息的速度。因此也意味着数据的采集和分析等过程必须迅速及时

3.多样性(Variety)

指是大数据包括多种不同格式和不同类型的数据。数据来源包括人与系统交互时与机器自动生成,来源的多样性导致数据类型的多样性。根据数据是否具有一定的模式结构和关系,数据可分为三种基本类型:结构化数据、非结构化数据、半结构化数据

4真实性(Veracity)

指数据的质量和保真性。大数据环境下的数据最好具有较高的信噪比

5.价值(Value)

即低价值密度。随着数据量的增长,数据中有意义的信息却没有成相应比例增长,而价值同时与数据的真实性和数据处理时间相关。

 (二.2)实时分析的两种演化构建方式

类比1:大酒店同时具备其他综合业务,发展出餐饮(实时)业务,用以更好的发挥协同作用

演化1:以数仓分析为主场景,根据业务实时性需求进行实时分析,构建实时通道和实时交互式分析,形成  Lambda  架构

类比2:饭店从餐饮(实时)业务发展而来,需要更好的外围支持作用,并向综合性发展

演化2:以实时分析为主场景,形成流式架构,又需要能从数仓快速提取数据,和数据源回放,形成  kappa  架构,后续还要考虑实时数据和模型如何入仓。 

(二.3)实时分析的两种场景

image.png

1.以数仓分析为主场景,根据业务实时性需求进行实时分析,构建实时通道和实时交互式分析,形成  Lambda  架构。

例如  IOT  设备监控分析,下发策略,设备接收后上报新数据立即进行分析,对比之前的结果,反复分析调优。

2.以实时分析为主场景,形成流式架构,又需要能从数仓快速提取数据,和数据源回放,形成  kappa  架构,后续还要考虑实时数据和模型如何入仓例如欺诈监控,必须第一时间获取分析结论,并关联标签精准识别,最后实时数据落入数仓与其他数据融合形成知识。

(二.4)数仓实时分析的能力要求

数仓实时分析的能力要求:

1.极速查询相应

2.实时存储

3.数仓查询加速

4.应用生态

5.实时离线联合计算和建模

 

三、MaxCompute  云数仓+实时分析

(三.1)常见的  Lambda  架构的问题

image.png

1.一致性难题

:2套语义、2套逻辑、2份数据:

两套代码,两套逻辑;流和批语义完全不同;离线层和实时层数据存储和变换方式完全不同。

:环环相扣、多套系统、运维复杂、成本高昂:

多个不同的系统;大量的同步任务;资源消耗巨大;不同系统标准规范不统一

:开发周期长、业务不敏捷:

错误难以诊断和定位;修订、补数周期长;无法自助实时分析;无法响应变化;分析到服务的转化周期长。

 (三.2)开源方案的能力发散

场景案例:搜索推荐精细化运营

image.png 

① KVStore:Redis/Mysql/Hbase/Cassandra  存储点查能力

② MPP: Impala/Presto/Drill   计算+查询能力

③ 实时数仓:Clickhouse/Druid   存储+计算+查询能力

④ 数仓:Hive/Spark/MaxCompute   存储+批处理

(多种能力统一于一个引擎。

 

(三.3)实时分析简单架构:实时写入和实时查询

1.实时离线数据统一存储

2.以实时分析为中心设计

3.MaxCompute  直接加速

image.png

 

 (三.4)数仓加速分析:无数据搬迁、数据分析效率高

 

image.png

 

 

 (三.5)开源方案实时数仓:实时成本高、开发周期长、业务支持不灵活

image.png 

 

1.kappa  架构,基于流式架构,需要回放和关联数仓,后续还要考虑实时数据和模型如何入仓。

2.Kappa  架构的原理就是在Lambda的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代,因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次。

3.Kappa  架构看起来简洁,但实施难度相对较高,尤其是对于数据回放部分。

(三.6)实时、离线、分析、服务一体化方案

image.png 


四、实时分析案例

(四-1)常用场景:实时、离线、分析、服务一体化方案

1.方案说明:适用于电商、游戏、社交等互联网行业数据化运营,如智能推荐、日志采集分析、用户画像、数据治理、业务大屏、搜索等场景

2.方案优势:阿里巴巴最佳实践的大数据平台,1)技术领先性;2)降本提效;3)高附加值业务收益;

3.涉及产品:日志服务  SLS、数据传输  DTS、DataHub、实时计算  Flink、交互式分析、云数仓  MaxCompute、数据治理  DataWorks、Quick BI  报表、DataV大屏、ES  搜索、机器学习  PAI

image.png 

(四-2)PB  级用户行为交互式分析案例

——友盟+是国内最大的移动应用统计服务商,其统计分析产品  U-App&U-Mini&U-Web  为开发者提供基本报表统计及自定义用户行为分析服务

image.png 

1.业务痛点:

1.业务数据量大,年新增行为数据  10PB  级

2.个性化、自定义地交互式用户行为分析强需求.

3.基于  MaxCompute  提供异步离线的  adhoc分析.

4.和优化、以及自研引擎开发尝试均无法满足业务需求

2.客户收益:

1.PB  级数据秒级查询响应,30s  交互式体验

2.与  MaxCompute  深度集成,能够利用  range cluster  索引加速,实时离线联邦查询,同时也可以实现冷热数据混合查询,有利于成本性能平衡

3.计算资源弹性伸缩,可兼顾扩展性、稳定性、性能、成本

(四-3)互联网内容资讯客户实时推荐案例

——小影是一款原创视频、全能剪辑的短视频社区APP,面向大众提供短视频创作工具,包括视频剪辑、教程玩法、视频拍摄,谷歌应用商城收入榜前五,全球累计用户突破  8.9 亿

>SaaS  模式云数据仓库:

一套存储引擎、三种计算力量

MaxCompute(离线计算)+Realtime Compute(实时计算)+MC-Hologres(交互式分析)

1.用户标签数据开发:

客户通过  MaxCompute  针对每天  APP  产生的客户基础属性数据、行为日志数据、内容数据等进行计算,每天离线更新用户标签的数据,支持营销业务的使用。

2.用户画像实时洞察:

客户基于  MC  离线计算好的用户标签,通过  MC-Hologres 进行多标签、多维度的实时分析,了解用户属性标签与内容标签之间的关联性,洞察交叉销售机会,并通过人群圈选,进行  APP  消息  PUSH。

3.实时视频推荐:

客户通过  Flink+MaxCompute+MC-Hologres+PAI  搭建个性化实时推荐系统,基于用户特征和实时行为特征,实时推荐个性化的短视频内容。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用合集之大数据计算MaxCompute如何实现通过离线同步脚本模式
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2天前
|
数据可视化 前端开发 大数据
商场智能导视系统深度解析,AR与大数据融合创新商业运营模式
**商场智能导视系统提升购物体验:** 通过三维电子地图、AR导航、AR营销、VR全景导购及可视化数据,解决顾客寻路困扰,增强店铺曝光,简化招商流程,优化商场管理,借助科技创新驱动顾客满意度、品牌曝光度及运营效率的全面提升。
13 0
商场智能导视系统深度解析,AR与大数据融合创新商业运营模式
|
6天前
|
分布式计算 DataWorks API
DataWorks操作报错合集之在将ODPS空间设置成保护模式后,导出到OSS的任务出现了权限问题,该怎么解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
14 1
|
24天前
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之数据源同步时,使用脚本模式采集mysql数据到odps中,使用querySql方式采集数据,在脚本中删除了Reader中的column,但是datax还是报错OriginalConfPretreatmentUtil - 您的配置有误。如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
24天前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之在标准模式下,如何查看生产环境的表
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
24天前
|
存储 分布式计算 大数据
MaxCompute产品使用合集之怎么将一个Quota的资源优先供给给标准模式的生产库调度使用
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2月前
|
分布式计算 大数据 调度
大数据计算MaxCompute怎么将一个Quota的资源优先供给给标准模式的生产库调度使用?
大数据计算MaxCompute怎么将一个Quota的资源优先供给给标准模式的生产库调度使用?
42 2
|
6天前
|
存储 人工智能 OLAP
深度|大模型时代下,基于湖仓一体的数据智能新范式
本次文根据峰会演讲内容整理:分享在大模型时代基于湖仓一体的数据产品演进,以及我们观察到的一些智能开发相关的新范式。
|
11天前
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用问题之如何查看数据离线同步每天从MySQL抽取的数据量
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
11天前
|
分布式计算 大数据 Java
MaxCompute产品使用问题之是否可以恢复最近两天生命周期清理的数据
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

热门文章

最新文章