Hologres揭秘:高性能原生加速MaxCompute核心原理

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
简介: Hologres技术揭秘系列持续更新中,本期我们将带来Hologres高性能原生加速查询MaxCompute的技术原理解析。

Hologres(中文名交互式分析)是阿里云自研的一站式实时数仓,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析。它的出现简化了业务的架构,与此同时为业务提供实时决策的能力,让大数据发挥出更大的商业价值。从阿里集团诞生到云上商业化,随着业务的发展和技术的演进,Hologres也在持续不断优化核心技术竞争力,为了让大家更加了解Hologres,我们计划持续推出Hologres底层技术原理揭秘系列,从高性能存储引擎到高效率查询引擎,高吞吐写入到高QPS查询等,全方位解读Hologres,请大家持续关注!

往期精彩内容:


本期我们将带来Hologres高性能原生加速查询MaxCompute的技术原理解析。


随着数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数据(TB、PB、EB)级别,MaxCompute(原名ODPS)也因此应运而生,致力于批量结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务,是一种快速、完全托管的EB级数据仓库解决方案。


Hologres在离线大数据场景上与MaxCompute天然无缝融合,无需数据导入导出就能实现加速查询MaxCompute,全兼容访问各种MaxCompute文件格式,实现对PB级离线数据的毫秒级交互式分析。而这一切的背后,都离不开Hologres背后的执行器SQE(S Query Engine),通过SQE实现对MaxCompute的Native访问,然后再结合Hologres高性能分布式执行引擎HQE的处理,达到极致性能。


Hologres加速查询MaxCompute主要有以下几个优势:

  • 高性能:可以直接对MaxCompute数据加速查询,具有亚秒级响应的查询性能,在OLAP场景可以直接即席查询,满足绝大多数报表分析场景。
  • 低成本:MaxCompute经过数年的发展,用户在MaxCompute上存储了大量数据,不需要冗余一份存储可直接进行访问;另一方面用户可以只需将部分高性能场景的数据迁移到SSD上,报表等分析场景的数据可以存储在MaxCompute进一步降低成本。
  • 更高效:实现对MaxCompute的Native访问,无需迁移和导入数据,就可以高性能和全兼容的访问各种MaxCompute文件格式,以及Hash/Range Clustered Table等复杂表,降低用户的使用成本。

SQE 架构介绍

技术揭秘电子书_8.3.png

如上图所示是SQE的整体架构,可以看出整个架构也是非常简单。MaxCompute的数据统一存储在Pangu,当Hologres执行一条Query去加速查询MaxCompute的数据时,在Hologres端:

  • Hologres Frontend通过RPC向SQE Master请求获取Meta等相关信息。
  • Hologres Blackhole 通过 RPC 向 SQEExecutor 请求获取具体的数据相关信息。
  • SQE由两种角色的进程组成:
  • SQE Master负责处理Meta相关的请求,主要负责获取表、分区元数据、鉴权以及文件分片等功能。
  • SQE Executor作为SQE的核心,负责具体读取数据请求,涉及Block Cache、预读取、UDF 处理、表达式下推处理、索引处理、Metric、Meter等等功能。

MaxCompute外表引擎核心技术创新

基于SQE的架构,能做到对MaxCompute的数据高性能加速查询,主要是基于以下技术创新优势:

1)抽象分布式外表

结合MaxCompute的分布式特性,Hologres抽象了一个分布式的外表,来支持访问MaxCompute分布式数据。目前可支持访问跨集群的MaxCompute分布式盘古文件,并按MaxCompute计算集群就近读取。


2)和 MaxCompute Meta无缝互通,支持带版本的元数据缓存

SQE和MaxCompute 的 Meta 无缝互通,可以做到 Meta 和 Data 实时获取,支持通过Import Foreign Schema命令,自动同步MaxCompute的元数据到Hologres的外表,实现外表的自动创建,结构自动更新。


3)支持UDF/表达式下推

SQE 通过支持 UDF/表达式下推,来实现用户自定义的UDF计算;将表达式下推可以减少无用的数据传输带来的开销,进一步提升性能。


4)异步ORC Reader,异步prefetch

目前MaxCompute大部分数据为ORC格式,在Hologres V0.10及以上版本,Hologres更新了执行引擎,使用异步 Reader 进行更高效的异步读取,还支持异步prefetch,进一步降低读取延迟;此外Hologres支持了 IO 合并、LazyRead、Lazy Decoding 等一些列的优化技术手段,来降低在 IO 在整个查询上的延迟,以带来极致性能。


5)支持Block Cache

为了避免每次读数据都用IO到文件中取,SQE同样使用BlockCache把常用和最近用的数据放在内存中,减少不必要的IO,加快读的性能。在同一个节点内,通过一致性Hash实现将相同访问的数据共享一个Block Cache。 比如在Scan 场景可带来2倍以上的性能提升,大大提升查询性能。


6)常驻进程,减少调度开销

传统的进程模型等架构需要动态实时的创建进程等调度操作,带来了较大的调度开销。SQE 采用常驻进程模式,避免不必要的调度开销,此外还可以大大提升Block Cache的命中率和有效使用率。


7)Network Shuffle,减少落盘开销

Network Shuffle需要提供一种快速且稳定的容错机制。由于Network Shuffle必须保证发送端和接收端进程同时alive才能完成数据shuffle。同样的,如果采用传统落盘的方式来进行Network Shuffle的Retry,虽然能够保证稳定性,但是可能会在Retry过程中由于磁盘IO引入比较大的性能overhead。为了解决这个问题,我们优化了分阶段调度来解决快速稳定的容错问题。


MaxCompute外表引擎升级到HQE

上面提到了我们通过SQE进行加速查询MaxCompute外表,通过SQE查询时性能可以做到很好,但是和Hologres交互时中间会有一层RPC 交互,在数据量较大时网络会存在一定瓶颈。

因此我们基于Hologres已有的能力,在Hologres V0.10及以上版本我们对执行引擎进行了优化,支持Hologres HQE查询引擎直读MaxCompute 表,在性能上得到进一步的提升,较SQE方式读取有 30%以上的性能提升。

这主要得益于以下几个方面:

1) 节省了 SQE 和 Hologres中间 RPC 的交互,相当于节省一次数据的序列化和反序列化,在性能上得到进一步的提升。

2) 可以复用Hologres的Block Cache,这样第二次查询时无需访问存储,避免存储IO,直接从内存访问数据,更好的加速查询。

3) 可以复用已有的Filter 下推能力,减少需要处理的数据量。

4) 在底层的IO层实现了预读和Cache,更进一步加速Scan时的性能。


以下是某客户某实际在线业务查询的性能数据:

E2E运行时间

SQL Num

SQE查询性能(平均响应)

HQE查询性能(平均响应)

性能提升

2-10s

547

4,956 ms

2,609 ms

+47.34%

10-30s

207

16,757 ms

5,457 ms

+67.43%

30s以上

63

78,686 ms

12,666 ms

+83.90%

Total

817

13,631 ms

4,106 ms

+69.87%

执行817个SQL,总体性能提升70%,其中长 Query 提升80%以上。

说明:该优化目前已在Hologres V0.10上线,欢迎点击查看文档使用。


MaxCompute加速场景选择

在Hologres中加速查询MaxCompute有两种方式:

1)创建外表(数据还是存储在MaxCompute中),性能相比在MaxCompute中查询会有2-5倍的提升

2)导入内表,性能相比外表约有10-100倍的提升

创建外表的方式其原理就是PostgreSQL中的Foreign Data Wrappers,通过外部访问接口,来访问存储在外部的数据。建议您使用更方便的IMPORT FOREIGN SCHEMA 方式来创建外表,可以更好的简化元数据的同步,无需关注字段类型映射等。

直接建外表并的方式实际上是利用查询引擎的优化能力来提高效率的,但是没有利用到Hologres的索引能力。所以当把外表导到内表的时候,可以根据查询的方式指定内表的索引结构,通过这些索引能力带来更高的查询性能。这就是外表导入内表,内表的性能更好的原因,可以充分发挥数仓的索引优化能力。


目前这两种方式主要对比如下:

场景/维度

性能

存储成本

数据量

索引

便捷性

Hologres 内表

非常好

(SSD)

可支持PB级

可支持位图、聚簇等多种索引

需要导入数据

Hologres 外表

较好

(HDD)

单次Query查询200GB限制

只支持ODPS索引

无需迁移和导入数据


从上面对比可以看出:

  • 如果您是数据量很大、对性能有很高的要求时(比如100ms内等),对查询延迟敏感,对查询有SLA要求时,建议您将数据导入Hologres内表,进行查询访问。
  • 如果是临时性的探索性分析,或者对延迟不敏感的内部业务,可以使用MaxCompute外表方式,减少数据移动。
  • 除上述场景外,您可以根据具体业务情况选择合适的使用场景。


MaxCompute与Hologres的组合关系

上面介绍了很多Hologres外表查询引擎如何加速查询MaxCompute的场景,但并不是说所有类型的查询都适合在Hologres的外表引擎上执行。

Hologres是针对交互式分析场景设计的同步的查询引擎,面向的是大数据进,小数据出的场景,典型用在Serving和Analytics的场景。而MaxCompute是针对海量数据加工处理处理场景设计的异步的数据加工引擎,面向的是大数据进,大数据出的场景,典型用在ETL的场景。在ETL的场景,作业异步提交,IO接口针对Scan优化,计算过程需要节点的冗余设计支撑高可用,需要计算状态落盘从而可以在失败时自动重试,而这些都是Hologres不具备的能力。

因此MaxCompute+Hologres组合在一起,形成了数据加工+服务的一站式体验,减少了数据的隔离和冗余,可以为大数据数仓提供合理的解决方案架构,支撑实时离线一体化的开发体验。


对比

MaxCompute

Hologres

使用场景

ETL加工,面向DWDDWS

在线查询、服务,面向ADS

用户使用

异步的OdpsJob/Instance/Task

同步的Query

集群资源

共享大集群

独享集群

计算引擎

基于StageFile设计的,持久化的,可扩展SQLEngine

基于内存的,超快速响应的SQLEngine,计算不落盘

调度方式

进程级别,运行时分配

轻量级线程,资源预留

扩展性

几乎不受限制

复杂查询尽量避免跨多节点数据shuffle

存储格式

列式

行式、列式共存,面向不同场景

存储成本

基于Pangu,成本低

基于Pangu,利用SSD做缓存加速,成本相对高

接口标准

MCSQL

PostgreSQL


总结

Hologres通过SQE与MaxCompute深度整合,充分利用Hologres和MaxCompute的优势,以极致性能为目标,直接就能加速查询MaxCompute数据,让用户更方便高效的进行交互式分析,同时也降低了极大的分析成本,实现离线数仓服务一体化。


作者简介:王奇(花名慧青),阿里巴巴技术专家,现从事交互式分析引擎Hologres研发工作。



后续我们将会陆续推出有关Hologres的技术底层原理揭秘系列,具体规划如下,敬请持续关注!


  • Hologres揭秘:首次公开!阿里巴巴云原生实时数仓核心技术揭秘
  • Hologres揭秘:首次揭秘云原生Hologres存储引擎
  • Hologres揭秘:深度解析高效率分布式查询引擎
  • Hologres揭秘:高性能原生加速MaxCompute核心原理(本文)
  • Hologres揭秘:如何实现MaxCompute与Hologres数据同步速度快百倍
  • Hologres揭秘:如何支持高吞吐Upsert
  • Hologres揭秘:如何支持在线服务场景的超高QPS
  • Hologres揭秘:如何支持高并发查询
  • Hologres揭秘:如何支持高可用架构
  • Hologres揭秘:如何支持资源隔离,支持多种负载
  • Hologres揭秘:向量检索引擎Proxima原理与使用实践
  • Hologres揭秘:读懂执行计划,查询性能翻十倍
  • Hologres揭秘:分布式系统如何设计Shard与Table Group
  • Hologres揭秘:如何支持更多Postgres生态扩展包
  • Hologres揭秘:高吞吐写入Hologres的N种姿势
  • ......


感谢您的阅读,也欢迎使用体验Hologres,可以参考使用手册,同时也欢迎扫码加入钉群进行技术交流:

合集.png

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
1月前
|
存储 分布式计算 关系型数据库
Dataphin中如何使用Hologres外表查询MaxCompute
Hologres支持通过创建外部表来加速MaxCompute数据的查询,此方法用户直接在Hologres环境中访问和分析存储在MaxCompute中的数据,从而提高查询效率并简化数据处理流程。本文将介绍在 Dataphin 产品中如何实现这一操作。
114 1
|
1月前
|
SQL 分布式计算 关系型数据库
实时数仓 Hologres产品使用合集之湖仓加速版查询maxcompute外部表,有什么优化途径吗
实时数仓Hologres的基本概念和特点:1.一站式实时数仓引擎:Hologres集成了数据仓库、在线分析处理(OLAP)和在线服务(Serving)能力于一体,适合实时数据分析和决策支持场景。2.兼容PostgreSQL协议:Hologres支持标准SQL(兼容PostgreSQL协议和语法),使得迁移和集成变得简单。3.海量数据处理能力:能够处理PB级数据的多维分析和即席查询,支持高并发低延迟查询。4.实时性:支持数据的实时写入、实时更新和实时分析,满足对数据新鲜度要求高的业务场景。5.与大数据生态集成:与MaxCompute、Flink、DataWorks等阿里云产品深度融合,提供离在线
|
4天前
|
分布式计算 大数据 数据挖掘
MaxCompute产品使用合集之如何解决MC通过外部表方式访问Hologres时,数据量达到3000万条左右导致查询速度慢
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
22天前
|
SQL Cloud Native 数据挖掘
Hologres:高性能实时数据分析引擎
Hologres:高性能实时数据分析引擎
|
29天前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用问题之如何将DataWorks中的Hologres表数据导入到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
1月前
|
数据采集 分布式计算 大数据
森马基于MaxCompute+Hologres+DataWorks构建数据中台
本次案例主要分享森马集团面对多年自建的多套数仓产品体系,通过阿里云MaxCompute+Hologres+DataWorks统一数仓平台,保障数据生产稳定性与数据质量,减少ETL链路及计算时间,每年数仓整体费用从300多万降到180万。
|
2月前
|
分布式计算 Java 数据库连接
实时数仓 Hologres产品使用合集之该创建外部表maxCompute的这个服务器列表如何解决
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
2月前
|
分布式计算 大数据 调度
MaxCompute产品使用合集之大数据计算MaxCompute底层加速查询的原理是什么
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4天前
|
SQL 机器学习/深度学习 分布式计算
MaxCompute产品使用合集之数据删除之后,是否支持回滚
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之同样的表和数据,在PolarDB执行LEFT JOIN查询可以得到结果,但在MaxCompute中却返回为空,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

热门文章

最新文章

相关产品

  • 实时数仓 Hologres