开发者学堂课程【实时数仓 Hologres 实战课程:HSAP 理念与 Hologres 设计原理(一)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/904/detail/14367
HSAP 理念与 Hologres 设计原理(一)
目录:
一、公司开发中的大数据
二,传统技术介绍
三,新一代技术理念 HSAP:分析,服务一体化
四,几种典型的应用场景介绍
五,常见的应用案例分析
六,课后学习资源分享
一、公司开发中的大数据
典型业务场景列举
l 简介:Hologres 的典型业务场景,主要有实时大屏,实时报表,用户画像,监控预警。
Ø 实时大屏主要应用在一些大型活动现场或者是公司重要决策会议现场使用;
Ø 实时报表主要应用运维场景,公司总裁也比较青睐于实时报表的使用;
Ø 用户画像在数据推送时应用的较多;
² 预警监控主要应用于浏览器流量监控,用户上线监控等方面。
二、传统技术介绍
传统数据仓库数据流程
批量数据分析流程
l T+0 数据接入
l 多种数据源接入
l 定时数据开发与应用
l 数据提取/数据转换/数据
加载
l ODs 数据处理.DWD 标准数据场景. MDM 元数据
l 数据集市应用
l 核心痛点
l ETL 计算/存储/时间成本过高
l 数据处理链路过长
l 无法支持实时/近实时数据分析
问题:缺陷多,无法适应新的业务场景,逐渐被市场淘汰。
Lambda 架构的问题:
1.由多种引擎和系统组合而成,开发和维护成本高,学习成本高
2.数据在不同的 View 中存储多份,空间浪费,数据一致性的问题如何解决
3.从使用上来说, Batch, Streaming 及 MergeQuery 均使用不同的 language,使用起来并不容易
问题一:Lambda架构组成复杂,由多种引擎和系统组成,如离线数仓,开源的 Have。
问题二:易造成数据冗余,导致存储空间浪费且数据一致性的问题难以统一
问题三:学习成本高,学习周期长。
阿里业务场景原架构
三、新一代技术理念 HSAP:分析,服务一体化
HSAP 简介:
核心是具备一套强大的存储系统,能够将实时的数据以及离线的数据存入系统之内。
与此同时,高效的数据查询服务能够支持很高的 QBS 的点查询及复杂的分析,联邦的查询分析。理论上具备一套这样的存储引擎及查询引擎,我们就能够将实时的数据以及离线的数据都导入到一个系统里面去,最后在前端的数据应用,BI 报表以及一些的在线服务都可以直接对接到这个系统里面去,如此,便解决了搭建架构的复杂问题了。如今,人们将这样的设计理念称之为 HSAP。
理念的体现产品便是 Hologres。
Hologres 交互式分析
基于 HSAP 理念,兼容 PostgreSQL 生态、支持 MaxCompute 数据直接查询,支持实时写入实时查询,"卖时离线联邦分析,低成本、高时效、快速构筑企业实时数据仓库。
下图中黄色的部分都是可以放入容器之中的,整个分布系统是能够做一个高度容错的产品的;因为 Hologres 兼容了 PostgreSQL 生态,所以市场上的一些开源或者是商业化的 BI 工具,webid 以及能够与 PostgreSQL 打通并能够与 Hologres 进行对接的一些工具
特点:
统一存储
Ø Point Query(Hbase场景)
Ø Ad-hoc Query(Druid场景)
Ø OLAP Query(impala场景)
以实时分析为中心设计
设计理念就是快速反应需求
Ø 极速查询响应
Ø 支持实时写入、批量效据导入
Ø 超高导入性能
存储计算分离
Ø 存储计算分离架构,弹性扩缩容
Ø 异构数据源交互式分析
Ø MaxCompute 无缝打通
PG 生态
Ø PG 开发工具
Ø Bl 工具对接
Ø DataWorks —站式开发平台
存储计算分离
传统的分布式储存里,较为常见的是 Storeage Area Network。Storeage Area Network 就好比一个集群,集群上面挂载了许多的盘使得其他的计算机节点都能够看到这些盘。第二种便是现在的 Interconnect NetWork,它的特点是计算机各节点之间可以相互通信,但是各个盘之间是不通的,缺点是易造成资源的浪费。第三种是大磁盘与缓存之间的高效配合使用。好处易扩容,好管理。