开发者学堂课程【SaaS 模式云数据仓库实战:持续定义Saas模式云数据仓库+实时分析】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/760/detail/13341
持续定义 Saas 模式云数据仓库+实时分析
内容介绍:
一、云数据仓库概述
二、实时分析场景与价值
三、Max compute 云数仓加实时分析
四、实时分析案例
一、 云数据仓库概述
数据仓库在上世纪有所应用,作用是从数据源开始数据生产到分析应用,包括数据的采集同步加工存储建模治理查询等。 ODS和CDM都是建模的业务部分,有完善的方法论。
数据仓库的特征在于面向主题集成性、稳定性和时变性,用于支持管理决策。数据仓库的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的规范的数据出口。数据仓库模型本质是人收集和。存储数据认识数据组织和管理数据使用数据决策的最佳实践形成的方法论。数据仓库的业务部分并不随技术变化,与技术无关,但逻辑模型和物理模型,用什么技术来承载在最初方案中是紧密结合的。数据仓库的概念本身没有变化,但是技术在不断发展,有实时数仓、AI数仓, Max compute就是云数据仓库的一个代表。数据仓库的核心能力和价值是采集同步加工存储建模治理查询,为实现数据仓库的能力和价值必须要具备的基础:IDC机房、部署、开通、高可用、安全、日常运维、扩容,这几部分都构成最终的总成本,总成本还包括核心能力成本和基础成本。
云数据仓库为了实现真正价值,用户可以在逻辑层面上直接开通project,就可以实现开箱即用的功能:
数据仓库的功能很完善,包括上下游的功能,具备业界领先的大规模高性能,用户可以无感备份和免运维,还有一些机制安全能力,包括后续的灵活扩展、低成本、数据服务。数据仓库也是实时变化的,还有快速演进的能力,不需要关心底层,如何建立可以开箱即用。
SARS模式企业级的云数据仓库,不同的租户隔离在其中,实现了整个数据仓库的所有功能,包括实时分析、机器学习、湖仓一体和统一数仓的元数据,这些能力适合做实时数仓和交互式查询湖仓一体等多场景。实时分析场景中会用到的Max compute和实时的Flink和开发平台都包括在解决数仓方案中。
在云数据仓库中,实时、非实时管理功能、治理功能结合的数据流程如下:
二、实施分析场景和价值
大数据的5V如下:
1.容量(Volume)
是指大规模的数据量,并且数据量呈持续增长趋势。目前一般指超过10T规模的数据量,但未来随着技术的进步,符合大数据标准的数据集大小也会变化。
2.速率(Velocity)
即数据生成、流动速率快。数据流动速率指指对数据采集、存储以及分析具有价值信息的速度。因此也意味着数据的采集和分析等过程必须迅速及时。
3.多样性(Variety)
指是大数据包括多种不同格式和不同类型的数据。数据来源包括人与系统交互时与机器自动生成,来源的多样性导致数据类型的多样性。根据数据是否具有一定的模式结构和关系,数据可分为三种基本类型:结构化数据、非结构化数据、半结构化数据。
4.真实性(Veracity)
指数据的质量和保真性。大数据环境下的数据最好具有较高的信噪比
5.价值(Value)
价值密度随着数据量的增长,数据中有意义的信息却没有成相应比例增长,而价值同时与数据的真实性和数据处理时间相关。数据越大,价值越多;时间越短,价值越大,如图所示,随着时间的增长,数据价值越来越小:
最早的语音数据仓库是离线情况,因为受限于技术能力。现在的实时分析是从数仓中演化出来的,可以理解成大酒店小红有各个业务场景,例如住宿餐饮,实时可以理解为餐饮业务。要利用好原有的客流量,有一定协同。有一部分业务对实时性要求很高,所以就演化出实时需求。这种实时有快速写入、快速分析与原有的数仓进行交互,形成了一套Lamda结构。与数仓是一体的,是由数仓演化出来的。另外一种是以实时分析作为主场景,形成流式结构,有需要能从数仓快速提取数据和数据源,回放行程Kappa结构,后续还要考虑实时数据和模型如何入仓。类似于饭店,只做餐饮业务,但是越做越大,就会有积累的历史数据标签,要跟原来的业务做沉淀,需要外围支持,像综合性发展,这两种来源不一样,每个人落地到数仓时,场景不同。有些人完全沉浸在数仓流程中就是Kappa结构。有些人从数仓演化出来,就是Lamda结构。比如IOT设备监控分析,原来从IOT设备上获取状态或日志或设备信号或流动情况。原来有一套离线数仓对系设备做重点监控,例如对设备做配置,新换了一个策略数据就和原来不一样了。数据的变化需要用下发策略,对数据源产生影响,数据源产生一套新的数据,用实时分析的方式上报新数据,从下到上的流程是由数仓演变出来的,其中用到的数据也是从数仓中获取到的。
如果一开始就是欺诈监控,例如股票购买或详单,第一时间获取分析结论,并关联标签精准识别。最后,实时数据落入数仓与其他数据融合,形成知识,因为不可能每一个时刻都在做实时分析还需要做观察。
整个流方案都是实时写入实时分析,实时呈现。但是和原来数据仓库结合不同,就构成了两种不同的场景。要实现实时性的事务,就需要极速查询能力、实时写入能力、数仓查询加速能力,因为数据放到数仓里,用原有的方式查询数度并不快,需要做实时监控查询分析,还有实时分析,也需要和其他应用做紧密结合,最后在模型层面上实时和离线需要做统一的计算和建模,这些都是实时分析的能力要求。