HSAP 理念与 Hologres 设计原理(一)|学习笔记

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习 HSAP 理念与 Hologres 设计原理(一)

开发者学堂课程【实时数仓 Hologres 实战课程HSAP 理念与 Hologres 设计原理(一)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/904/detail/14367


HSAP 理念与 Hologres 设计原理(一)


目录:

一、公司开发中的大数据

二,传统技术介绍

三,新一代技术理念 HSAP:分析,服务一体化

四,几种典型的应用场景介绍

五,常见的应用案例分析

六,课后学习资源分享

 

一、公司开发中的大数据

典型业务场景列举

image.png

l 简介:Hologres 的典型业务场景,主要有实时大屏,实时报表,用户画像,监控预警。

Ø 实时大屏主要应用在一些大型活动现场或者是公司重要决策会议现场使用;

Ø 实时报表主要应用运维场景,公司总裁也比较青睐于实时报表的使用;

Ø 用户画像在数据推送时应用的较多;

² 预警监控主要应用于浏览器流量监控,用户上线监控等方面。


二、传统技术介绍

传统数据仓库数据流程

image.png

批量数据分析流程

l T+0 数据接入

l 多种数据源接入

l 定时数据开发与应用

l 数据提取/数据转换/数据

加载

l ODs 数据处理.DWD 标准数据场景. MDM 元数据

l 数据集市应用

l 核心痛点

l ETL 计算/存储/时间成本过高

l 数据处理链路过长

l 无法支持实时/近实时数据分析

问题:缺陷多,无法适应新的业务场景,逐渐被市场淘汰。

Lambda 架构的问题:

1.由多种引擎和系统组合而成,开发和维护成本高,学习成本高

2.数据在不同的 View 中存储多份,空间浪费,数据一致性的问题如何解决

3.从使用上来说, Batch, Streaming 及 MergeQuery 均使用不同的 language,使用起来并不容易

image.png

问题一:Lambda架构组成复杂,由多种引擎和系统组成,如离线数仓,开源的 Have。

问题二:易造成数据冗余,导致存储空间浪费且数据一致性的问题难以统一

问题三:学习成本高,学习周期长。

阿里业务场景原架构

image.png


三、新一代技术理念 HSAP:分析,服务一体化

image.png

HSAP 简介:

核心是具备一套强大的存储系统,能够将实时的数据以及离线的数据存入系统之内。

与此同时,高效的数据查询服务能够支持很高的 QBS 的点查询及复杂的分析,联邦的查询分析。理论上具备一套这样的存储引擎及查询引擎,我们就能够将实时的数据以及离线的数据都导入到一个系统里面去,最后在前端的数据应用,BI 报表以及一些的在线服务都可以直接对接到这个系统里面去,如此,便解决了搭建架构的复杂问题了。如今,人们将这样的设计理念称之为 HSAP。

理念的体现产品便是 Hologres。

Hologres 交互式分析

基于 HSAP 理念,兼容 PostgreSQL 生态、支持 MaxCompute 数据直接查询,支持实时写入实时查询,"卖时离线联邦分析,低成本、高时效、快速构筑企业实时数据仓库。

下图中黄色的部分都是可以放入容器之中的,整个分布系统是能够做一个高度容错的产品的;因为 Hologres 兼容了 PostgreSQL 生态,所以市场上的一些开源或者是商业化的 BI 工具,webid 以及能够与 PostgreSQL 打通并能够与 Hologres 进行对接的一些工具

特点:

统一存储

Ø Point Query(Hbase场景)

Ø Ad-hoc Query(Druid场景)

Ø OLAP Query(impala场景)

以实时分析为中心设计

设计理念就是快速反应需求

Ø 极速查询响应

Ø 支持实时写入、批量效据导入

Ø 超高导入性能

存储计算分离

Ø 存储计算分离架构,弹性扩缩容

Ø 异构数据源交互式分析

Ø MaxCompute 无缝打通

PG 生态

Ø PG 开发工具

Ø Bl 工具对接

Ø DataWorks —站式开发平台

存储计算分离

image.png

传统的分布式储存里,较为常见的是 Storeage Area Network。Storeage Area Network 就好比一个集群,集群上面挂载了许多的盘使得其他的计算机节点都能够看到这些盘。第二种便是现在的 Interconnect NetWork,它的特点是计算机各节点之间可以相互通信,但是各个盘之间是不通的,缺点是易造成资源的浪费。第三种是大磁盘与缓存之间的高效配合使用。好处易扩容,好管理。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
8月前
|
SQL Cloud Native 数据挖掘
云原生数据仓库产品使用合集之在使用 ADB 进行数据分析处理时,出现分区倾斜的情况,如何解决
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
5月前
|
存储 SQL 算法
B端算法实践问题之Blink在实时业务场景下的优势如何解决
B端算法实践问题之Blink在实时业务场景下的优势如何解决
52 1
|
8月前
[解惑]数据湖跟数仓的区别
[解惑]数据湖跟数仓的区别
44 0
|
SQL 消息中间件 存储
从理论到实践,实时湖仓功能架构设计与落地实战
实时湖仓是「实时计算」和「数据湖」的一种结合应用场景,并不是具体指一个产品模块。本文主要介绍了平台通过相关功能的设计,让数据开发可以更简单更直观地了解 Flink Catalog、数据湖、流批一体等概念,并在实际业务场景中更方便地去落地实践。
333 0
|
存储 架构师 NoSQL
一口气讲完数据仓建模方法--数据仓库架构师碎碎念
一口气讲完数据仓建模方法--数据仓库架构师碎碎念
|
数据采集 运维 DataWorks
客户案例:数仓规范化-菜鸟数据模型管理实践(一)| 学习笔记
快速学习客户案例:数仓规范化-菜鸟数据模型管理实践。
客户案例:数仓规范化-菜鸟数据模型管理实践(一)| 学习笔记
|
存储 分布式计算 大数据
二、【计算】流|批|OLAP一体 的Fllink引擎 (上)| 青训营笔记
二、【计算】流|批|OLAP一体 的Fllink引擎 (上)| 青训营笔记
二、【计算】流|批|OLAP一体 的Fllink引擎 (上)| 青训营笔记
|
SQL 数据采集 存储
客户案例:数仓规范化-菜鸟数据模型管理实践(三)| 学习笔记
快速学习客户案例:数仓规范化-菜鸟数据模型管理实践。
客户案例:数仓规范化-菜鸟数据模型管理实践(三)| 学习笔记
|
数据采集 自然语言处理 分布式计算
客户案例:数仓规范化-菜鸟数据模型管理实践(二)| 学习笔记
快速学习客户案例:数仓规范化-菜鸟数据模型管理实践。
客户案例:数仓规范化-菜鸟数据模型管理实践(二)| 学习笔记
|
存储 弹性计算 数据管理
直播预告|数据仓库?数据湖?停止纠结,流批融合的极速 Lakehouse来了!
无需数据导入,即可体验性能堪比数仓的数据湖分析!2022年12月8日19点,StarRocks Lakehouse Meetup - 极速湖仓分析技术专场线上直播重磅开启,精彩不容错过!
448 0
直播预告|数据仓库?数据湖?停止纠结,流批融合的极速 Lakehouse来了!

热门文章

最新文章