持续定义 Saas 模式云数据仓库+实时分析 | 学习笔记(一)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 快速学习持续定义 Saas 模式云数据仓库+实时分析

开发者学堂课程【SaaS 模式云数据仓库实战持续定义Saas模式云数据仓库+实时分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/760/detail/13341


持续定义 Saas 模式云数据仓库+实时分析

 

内容介绍

一、云数据仓库概述

二、实时分析场景与价值

三、Max compute 云数仓加实时分析

四、实时分析案例

 

一、 云数据仓库概述

数据仓库在上世纪有所应用,作用是从数据源开始数据生产到分析应用,包括数据的采集同步加工存储建模治理查询等。 ODS和CDM都是建模的业务部分,有完善的方法论。

图片61.png

数据仓库的特征在于面向主题集成性、稳定性和时变性,用于支持管理决策。数据仓库的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的规范的数据出口。数据仓库模型本质是人收集和。存储数据认识数据组织和管理数据使用数据决策的最佳实践形成的方法论。数据仓库的业务部分并不随技术变化,与技术无关,但逻辑模型和物理模型,用什么技术来承载在最初方案中是紧密结合的。数据仓库的概念本身没有变化,但是技术在不断发展,有实时数仓、AI数仓, Max compute就是云数据仓库的一个代表。数据仓库的核心能力和价值是采集同步加工存储建模治理查询,为实现数据仓库的能力和价值必须要具备的基础:IDC机房、部署、开通、高可用、安全、日常运维、扩容,这几部分都构成最终的总成本,总成本还包括核心能力成本和基础成本。

图片62.png

云数据仓库为了实现真正价值,用户可以在逻辑层面上直接开通project,就可以实现开箱即用的功能:

图片63.png

数据仓库的功能很完善,包括上下游的功能,具备业界领先的大规模高性能,用户可以无感备份和免运维,还有一些机制安全能力,包括后续的灵活扩展、低成本、数据服务。数据仓库也是实时变化的,还有快速演进的能力,不需要关心底层,如何建立可以开箱即用。

图片64.pngSARS模式企业级的云数据仓库,不同的租户隔离在其中,实现了整个数据仓库的所有功能,包括实时分析、机器学习、湖仓一体和统一数仓的元数据,这些能力适合做实时数仓和交互式查询湖仓一体等多场景。实时分析场景中会用到的Max compute和实时的Flink和开发平台都包括在解决数仓方案中。

在云数据仓库中,实时、非实时管理功能、治理功能结合的数据流程如下:

图片65.png


二、实施分析场景和价值

大数据的5V如下:

图片66.png

 

1.容量(Volume)

是指大规模的数据量,并且数据量呈持续增长趋势。目前一般指超过10T规模的数据量,但未来随着技术的进步,符合大数据标准的数据集大小也会变化。

2.速率(Velocity)

即数据生成、流动速率快。数据流动速率指指对数据采集、存储以及分析具有价值信息的速度。因此也意味着数据的采集和分析等过程必须迅速及时。

3.多样性(Variety)

指是大数据包括多种不同格式和不同类型的数据。数据来源包括人与系统交互时与机器自动生成,来源的多样性导致数据类型的多样性。根据数据是否具有一定的模式结构和关系,数据可分为三种基本类型:结构化数据、非结构化数据、半结构化数据。

4.真实性(Veracity)

指数据的质量和保真性。大数据环境下的数据最好具有较高的信噪比

5.价值(Value)

价值密度随着数据量的增长,数据中有意义的信息却没有成相应比例增长,而价值同时与数据的真实性和数据处理时间相关。数据越大,价值越多;时间越短,价值越大,如图所示,随着时间的增长,数据价值越来越小:

图片67.png

最早的语音数据仓库是离线情况,因为受限于技术能力。现在的实时分析是从数仓中演化出来的,可以理解成大酒店小红有各个业务场景,例如住宿餐饮,实时可以理解为餐饮业务。要利用好原有的客流量,有一定协同。有一部分业务对实时性要求很高,所以就演化出实时需求。这种实时有快速写入、快速分析与原有的数仓进行交互,形成了一套Lamda结构。与数仓是一体的,是由数仓演化出来的。另外一种是以实时分析作为主场景,形成流式结构,有需要能从数仓快速提取数据和数据源,回放行程Kappa结构,后续还要考虑实时数据和模型如何入仓。类似于饭店,只做餐饮业务,但是越做越大,就会有积累的历史数据标签,要跟原来的业务做沉淀,需要外围支持,像综合性发展,这两种来源不一样,每个人落地到数仓时,场景不同。有些人完全沉浸在数仓流程中就是Kappa结构。有些人从数仓演化出来,就是Lamda结构。比如IOT设备监控分析,原来从IOT设备上获取状态或日志或设备信号或流动情况。原来有一套离线数仓对系设备做重点监控,例如对设备做配置,新换了一个策略数据就和原来不一样了。数据的变化需要用下发策略,对数据源产生影响,数据源产生一套新的数据,用实时分析的方式上报新数据,从下到上的流程是由数仓演变出来的,其中用到的数据也是从数仓中获取到的。

图片68.png

如果一开始就是欺诈监控,例如股票购买或详单,第一时间获取分析结论,并关联标签精准识别。最后,实时数据落入数仓与其他数据融合,形成知识,因为不可能每一个时刻都在做实时分析还需要做观察。

图片69.png

整个流方案都是实时写入实时分析,实时呈现。但是和原来数据仓库结合不同,就构成了两种不同的场景。要实现实时性的事务,就需要极速查询能力、实时写入能力、数仓查询加速能力,因为数据放到数仓里,用原有的方式查询数度并不快,需要做实时监控查询分析,还有实时分析,也需要和其他应用做紧密结合,最后在模型层面上实时和离线需要做统一的计算和建模,这些都是实时分析的能力要求。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
7月前
|
存储 自然语言处理 Cloud Native
云数据仓库ADB问题之全文索引检索字段过长时条件会失效如何解决
云数据仓库AnalyticDB是阿里云提供的一种高性能、弹性扩展的云原生数据仓库解决方案;本合集将深入探讨ADB的架构、性能调优、数据管理和应用场景等,以及如何解决在使用过程中可能出现的问题,提高数据仓库的使用效率。
143 4
|
7月前
|
SQL 运维 Cloud Native
云数据仓库ADB问题之数据导出失败如何解决
云数据仓库AnalyticDB是阿里云提供的一种高性能、弹性扩展的云原生数据仓库解决方案;本合集将深入探讨ADB的架构、性能调优、数据管理和应用场景等,以及如何解决在使用过程中可能出现的问题,提高数据仓库的使用效率。
151 2
|
7月前
|
SQL 关系型数据库 MySQL
在云数据仓库AnalyticDB MySQL版中,有几个参数可能影响SELECT查询的执行及其稳定性
在云数据仓库AnalyticDB MySQL版中,有几个参数可能影响SELECT查询的执行及其稳定性【1月更文挑战第16天】【1月更文挑战第80篇】
357 4
|
7月前
|
数据采集 监控 OLAP
云数据仓库ADB如何使用数仓版一键诊断功能-前提条件?
云数据仓库ADB如何使用数仓版一键诊断功能-前提条件?
113 0
|
7月前
|
分布式计算 运维 数据挖掘
MaxCompute是一个强大的云数据仓库服务
【4月更文挑战第1天】MaxCompute是一个强大的云数据仓库服务
106 1
|
4月前
|
消息中间件 存储 大数据
大数据-数据仓库-实时数仓架构分析
大数据-数据仓库-实时数仓架构分析
164 1
|
4月前
|
SQL 数据挖掘 数据处理
“惊!云数据仓库ADB竟能这样玩?UPDATE语句单表、多表关联更新,一键解锁数据处理新境界!”
【8月更文挑战第7天】云数据仓库ADB提供高性能数据分析服务,支持丰富的SQL功能,包括关键的UPDATE语句。UPDATE可用于单表更新,如简单地增加员工薪资;亦支持多表关联更新,实现复杂数据关系处理。例如,结合departments表更新sales部门员工薪资。使用时需确保关联条件准确,考虑事务管理保证数据一致性,并优化性能以提升大规模更新效率。合理运用UPDATE增强数据仓库实用性和灵活性。
80 0
|
7月前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库产品使用合集之在云数据仓库ADB中,GROUP BY操作中出现NULL值,如何解决
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
7月前
|
关系型数据库 专有云 MySQL
云数据仓库ADB问题之查询特慢如何解决
云数据仓库AnalyticDB是阿里云提供的一种高性能、弹性扩展的云原生数据仓库解决方案;本合集将深入探讨ADB的架构、性能调优、数据管理和应用场景等,以及如何解决在使用过程中可能出现的问题,提高数据仓库的使用效率。
117 6
|
7月前
|
SQL 监控 Cloud Native
云数据仓库ADB问题之创建物化视图时报错SQL错误如何解决
云数据仓库AnalyticDB是阿里云提供的一种高性能、弹性扩展的云原生数据仓库解决方案;本合集将深入探讨ADB的架构、性能调优、数据管理和应用场景等,以及如何解决在使用过程中可能出现的问题,提高数据仓库的使用效率。
103 5

热门文章

最新文章