数据仓库服务化实践(一)|学习笔记

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 快速学习数据仓库服务化实践(一)

开发者学堂课程【实时数仓 Hologres 实战课程数据仓库服务化实践(一)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/904/detail/14391


数据仓库服务化实践(一)


目录:

一、分析与服务典型场景

二、传统大数据开发链路:数据冗余、成本高、开发周期长

三、大规模数据扫描、过滤、汇总,面向分析师

四、新一代技术理念 HSAP:分析、服务一体化

五、分析、服务一体化实时数仓 Hologres

六、MaxCompute: SaaS 模式企业级云数据仓库

七、行存 VS 列存

八、Benchmark-OLAP  交互式多维分析

九、Benchmarks - Serving 高并发点查询

十、搜索推荐实时分析和算法应用

十一、数据产品,自助式分析

十二、友盟+:PB 级用户行为交互式分析

十三、菜鸟:智能物流

十四、实时推荐、APl as service

十五、大数据加工服务一体化

 

一、分析与服务典型场景

image.png

复杂分析类查询,要快

简单查询,要非常快

 

二、传统大数据开发链路:数据冗余、成本高、开发周期长

image.png

左侧的数据有来自交易数据来自其他各种各样的买点系统,第三方的包括用户行为的,商家的,商品的,通过实时的、离线的方式进入大数据平台,会按照数仓的方法论,把数仓分为 ODS 仓、DWD仓、DWS仓、ADS 仓,ODS 仓一般是原始数据,DWD 仓对原始数据进行质量上的整理,去除一些值,增强一些字段,DWS 进行一些汇聚数据的规模,整理成面向分析的数据结构,到 ADS 仓进行不同场景的分析。

到 ADS 仓之后有些场景可以直接做决策,支持一些管理仓的应用。

一些直接访问大数据平台,性能是无法满足的。大数据设计之初是为了解决海量存储问题,汲取弹性能力,来解决海量数据处理问题。交互往往是更新的,往往是希望秒级、毫秒级返回结果的。

数据更快的系统,常见的 HBASE MySQL 这些平台不是处理的量的最大的,但是速度一定是最快的,功能上会比大数据平台会弱一些,接口上没有大数据平台那样的繁琐,简单的 API 方式通过 KI 方式,提供一些查询的能力。这种平台具有良好的交互性,具备很好的点查能力,让可以在毫秒和毫秒级对结果查询反馈。

这是一个传统的开发路径,原始数据进入加工平台,加工好之后导入到服务平台,这个链路相对来说是比较长的,是存在两个平台的用于的,会往大数据平台存一部分数据,把结果数据导入到另一个平台,随着业务越来越多,越来越复杂,每天都有报表,有新场景,贴新的标签会发现每个业务都要从源头每个环节一步步出发,造成数据非常的冗余。


三、大规模数据扫描、过滤、汇总,面向分析师·

 image.png

Hybrid Serving/Analytics

Processing

· 统一实时、离线存储引擎

· 减少事务开销(锁、同步)

· 埋点数据、机器数据。比TP高数量级

·  为多场景设计可复用数仓

Serving

高并发,简单,快速,面向 API

Hybrid Transaction/Analytics Processing

· 数据来源于业务系统(TP)

· 需要机制保证 TP 和 AP 的一致性(数据、模型,大量同步)

·  模型简单,用于简单分析场景

Transaction

· 随机读取、事务、可靠、面向 DBA

 

四、新一代技术理念 HSAP:分析、服务一体化

Hybrid Serving/Analytical Processing

image.png

HSAP 首先要能支持离线数据,又能支持实时数据,能进行批量数据,又能支持实时数据的写入、实时数据的更新、希望数据类型的统一,接口的统一,SQL 接口是当前市场查询能力较强的一种语言。

image.png

 

五、分析、服务一体化实时数仓 Hologres

Hologres 就是针对这样一个场景设计的系统,支持离线、批量的方式,从业务系统、日志系统进入 Hologres,这个进入过程一种是原始数据直接进入,跟 Flink 进行实时数据加工,把一些计算规则通过Flink提前算好,把计算的结果放置到 Hologres 里面,这也是一种常见的计算模式。

image.png

重要的就是 Hologres 跟 MySQL 的打通,Hologres 实际上就是针对实时场景设计的,内存架构引擎优化,在分布式这个场景它不是最优的,有的时候还需要跟 MySQL 进行合作,Hologres 跟 MySQL 现在属于一个产品家族,这两个产品和在一起,给客户提供实时、离线、一体化这样的解决方案,

数子在 Hologres 跟 MySQL 之间存在原生的,互相打通,互相可以查询对方的数据,互相可以看到对方的表,简单的方式做一些数据迁移。

 

六、MaxCompute: SaaS 模式企业级云数据仓库

应用场景

 广告场景-用户标签计算、分析

业务运场景-业务指标计算、查询

各行业搭建数据仓库

云上弹性扩展大数据计算和存储

产品优势

云原生极致弹性:云原生设计,无服务器架构,支持秒级弹性伸缩,快速实现大规模弹性负戟需求

简单易用多功能计算:预置多种计算模型和数据通道能力,开通即用

企业级平台服务:支持开放生态,提供企业级安全管理能力。与阿里云众多大数据服务无缝集成

安全:多租户环境下安全控制能力强

大规模集群性能强、全链路稳定性高,阿里巴巴双11场景验证

推荐组合

BI 分析场景

-MaxCompute-Hologres+Flink+DataWorks+Quick Bl

机器学习场景-MaxCompute+PAl+DataWorks

 

七、行存 VS 列存

 

行存

列存

使用场景

 

点查,Point Query,面向应用,面向API

多维、过滤、聚合,QLAP,面向分析师,面向报表

存储考虑

 

Key value结构

列组结构

索引优化

 

整行连续存放,形成Block,包含DataBlock和Index Block (Range和Offset:

列数据连续存放,聚合高效,形成Block,:同时维护Index Block ( Range.Offset.编码、压缩、统计)和Meta Block

更新方式

 

内存更新标志位,异步Flush文件,少IO操作

引入Delete Map,提供更新能力

接口标准

Maxc 5QL

PostgresQL

QL Demo

select * from table whereprimary_key = XXX

select count(), sum() from tablegroup by A

IO开销

K to MB

MB to GB

QPs

1K-10OK+

10-1K

 

八、Benchmark-OLAP 交互式多维分析

image.png

第一个数据就是 Druid 也是行业内常见的、开源的,多维分析的一个引擎,它具备把数据实时写入,实时查询的能力。用的也是 TBCH 数仓领域最常见的一套编码,规范。绝大部分 Druid 会比 Hologres 查询的更好,蓝色部分是 Druid,黄色部分是 Hologres

 

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
1月前
|
机器学习/深度学习 存储 SQL
数据仓库革新:Snowflake在云数据平台中的创新实践
【10月更文挑战第27天】Snowflake作为云原生数据仓库的领导者,以其多租户、事务性、安全的特性,支持高度可扩展性和弹性,全面兼容SQL及多种数据类型。本文探讨了Snowflake在现代化数据仓库迁移、实时数据分析、数据存储与管理及机器学习集成等领域的创新实践和应用案例,展示了其在云数据平台中的强大优势和未来潜力。
50 2
|
1月前
|
存储 运维 Cloud Native
数据仓库革新:Snowflake在云数据平台中的创新实践
【10月更文挑战第26天】随着大数据时代的到来,数据仓库正经历重大变革。本文探讨了Snowflake在云数据平台中的创新应用,通过弹性扩展、高性能查询、数据安全、多数据源接入和云原生架构等最佳实践,展示了其独特优势,帮助企业提升数据处理和分析效率,保障数据安全,降低运维成本,推动业务快速发展。
61 2
|
2月前
|
存储 小程序 Apache
10月26日@杭州,飞轮科技 x 阿里云举办 Apache Doris Meetup,探索保险、游戏、制造及电信领域数据仓库建设实践
10月26日,由飞轮科技与阿里云联手发起的 Apache Doris 杭州站 Meetup 即将开启!
60 0
|
5月前
|
SQL 存储 关系型数据库
计算效率提升 30 倍、存储资源节省 90%,雨润集团基于 Apache Doris 的统一实时数据仓库建设实践
数字化转型的浪潮中,高效准确的数据分析能够帮助雨润集团快速洞察市场动态、优化供应链管理、提高生产效率。雨润集团引入了 Apache Doris 构建了统一实时数据仓库,实现了计算效率提升 30 倍、存储资源节省 90%、成本降低超 100 万、人员效率提升 3 倍,为智能化、高效化转型指明了方向。
计算效率提升 30 倍、存储资源节省 90%,雨润集团基于 Apache Doris 的统一实时数据仓库建设实践
|
5月前
|
存储 数据采集 分布式计算
阿里巴巴数据仓库实践:从离线到实时的一体化探索
阿里巴巴的数据仓库实践从离线到实时的一体化探索,不仅为企业自身业务的快速发展提供了有力支撑,也为行业树立了标杆。通过不断优化技术架构、提升数据处理能力、加强数据治理和安全管理,阿里巴巴的实时数仓将为企业创造更大的价值,推动数字化转型的深入发展。未来,随着技术的不断进步和业务的持续拓展,阿里巴巴的实时数仓实践将展现出更加广阔的应用前景和发展空间。
|
5月前
|
数据采集 存储 数据管理
OneData:阿里巴巴的数据仓库之旅与统一数据治理实践
OneData 为解决大数据时代的挑战提供了一条可行的道路,对于其他企业和组织来说具有重要的参考意义。随着技术的不断进步和应用场景的扩展,OneData 的未来发展值得期待。
|
6月前
|
存储 运维 OLAP
抖音集团基于 SelectDB 内核 Apache Doris 的实时数据仓库实践
在直播、电商等业务场景中存在着大量实时数据,这些数据对业务发展至关重要。而在处理实时数据时,我们也遇到了诸多挑战,比如实时数据开发门槛高、运维成本高以及资源浪费等。
抖音集团基于 SelectDB 内核 Apache Doris 的实时数据仓库实践
|
7月前
|
SQL 大数据 BI
从离线到实时:无锡锡商银行基于 Apache Doris 的数据仓库演进实践
从离线到实时:无锡锡商银行基于 Apache Doris 的数据仓库演进实践
|
7月前
|
SQL 数据采集 存储
数据仓库(12)数据治理之数仓数据管理实践心得
这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。
386 0
|
存储 数据采集 大数据
数据治理专业认证CDMP学习笔记(思维导数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第11章数据仓库和商务智能篇
数据治理专业认证CDMP学习笔记(思维导数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第11章数据仓库和商务智能篇
114 0

热门文章

最新文章