云端问道5期方案教学-基于 Hologres 轻量实时的高性能OLAP分析
摘要:本次方案的主题是基于 Hologres 轻量实时的高性能OLAP分析,介绍了 OLAP 典型应用场景以及 Hologres 概念,详细讲述了Hologres 在OLAP 场景核心能力和部分客户案例。
1. 基本情况简介
2. Hologres OLAP 场景核心能力介绍
3. 客户案例
01. 基本情况简介
1.1 OLAP典型应用场景
今天主要介绍一下 Hologres 在 OLAP 场景的一些核心能力。首先来看一典型的 OLAP 场景,通常可以把 OLAP 场景分为四类,第一类是 BI 报表分析类,典型的场景有 BI 报表分析、实时大屏、数据中台等。第二类是人群运营类,比如精准营销、用户画像、圈人圈品等。第三类是日志检索分析类,比如行为分析、广告投放、流量分析等等。第四类是实时监控类,比如订单物流监控、网络监控、实时风控、直播监控等等。这些 OLAP 场景都广泛应用在广告、游戏、电商、互联网等多个行业。
1.2 Hologres:阿里云一站式实时数仓
今天要介绍的产品是 Hologres , Hologres 是阿里云一站式实时数仓,它的定位是一个统一、实时、弹性、易用的一站式实时数仓引擎。从数据源来说,比如我们常见的数据源 MySQL、PostgreSql ,日志分析类的数据源 SLS ,数据湖的数据源 OSS ,湖仓的数据源 MaxCompute 、EMR 等等都可以通过 Flink 、DataWorks 等同步工具高性能的同步到 Hologres ,可以支持实时同步、整库迁移、分库分表等不同的同步场景。
把这些数据同步到 Hologres 以后,我们的业务可以基于 Hologres 做多种多样的计算查询,比如多维分析 OLAP 的场景、即席分析 Ad Hoc 的场景、点查分析 Serving 的场景、向量计算的场景等都可以通过 Hologres 来支持,这样就可以做到一份数据,既可以支持 OLAP 分析,也可以支持点查等多种计算的场景。
同时在生态侧,刚刚查询出来的数据也可以直接应用到数据生态上,比如说最常用的 BI 工具像 QuickBI、DataV、PowerBI等等,都可以通过工具直接连接 Hologres 对数据做查询。
在开发生态侧,支持非常丰富的开发工具生态,比如大数据治理平台 DataWorks , Hologres 自带的 HoloWeb ,同时也可以对接多种开发工具生态,比如 PSQL、JDBC、Python 等,都可以通过这些工具来对接 Hologres 实现开发。如此就可以实现统一、实时、弹性、易用的一站式实时数仓。
02. Hologres OLAP 场景核心能力介绍
2.1 Hologres 解决复杂 OLAP 场景难题
接下来介绍 Hologres 是怎样解决复杂 OLAP 场景问题的,如果涉及到 OLAP 场景的查询,会有非常多的技术难点需要去解决,总结归类大概有如下六类 OLAP 难题。
1.首先第一个难题就是技术栈复杂, OLAP 场景是非常丰富的,应对不同的场景有不同的产品来解决,比如说有的产品更多的做流量分析,有的产品更多的做单表聚合的分析,如果要满足复杂的 OLAP 场景的查询,就会用到多种技术产品来支撑业务,比如 MySQL、CK、Doris等等,这就会导致架构变得特别的复杂,组件变得特别多,开发技术也会变得特别的复杂。 Hologres 可以支持多种场景的 OLAP 分析,采用服务分析一体化的架构,不需要通过多种技术栈,直接通过 Hologres 一个计算引擎就可以达到所有产品的查询场景,减少了架构的冗余。
2.第二个难题就是需求响应时间会变得特别长,如果用传统的多组件的架构的话,当变更业务的需求,就需要重新去开发指标,比如可能临时要上线一个指标或者维度,那开发就需要去给不同的产品做维护,来新增我们的需求,会导致需求的响应时间变得特别长。如果使用 Hologres 就可以直接变动 SQL ,满足业务的响应时间。
3.第三个难题就是开发和运维成本非常的高。学习不同的组件就会导致开发效率也变得特别的低,但 Hologres 它只有一个计算引擎就可以满足所有 OLAP 的查询场景,同时 Binlog、高级函数、JsonB等等不同的能力可以满足 OLAP 不同的需求,这样大大的提升了开发的效率。
4.第四个难题就是对于大多数的 OLAP 场景对数据的时效性有一定的需求。比如实时监控类,对于数据的时效性有非常大的需求,而大多数的产品在数据时效性上没办法得到保证,比如有些产品更多的专注于实时写入、实时更新,但是查询能力比较差;有的产品更多的专注于查询的能力,但是对于写入场景或者更新场景的能力不足。但是 Hologres 支持高性能的实时写入与实时更新,同时也支持低延迟、高 QPS 的查询,极大地满足了业务精细化的运营需求。
5.第五个难题就是生态兼容方面。如果采用多个产品来满足 OLAP 查询场景需求的话,对于不同的产品 BI 适配程度不是特别的完美,可能就会导致开发要去做额外的定制, Hologres 生态上是非常开放的,可以支持多种 BI 工具和开发工具,使开发效率得到提升。
6.第六个难题就是业务间容易相互影响。通常一个底层的技术架构可能会支持多种多样的业务的查询,不同的业务间有不同的高低峰或者是查询响应速率。比如 A 业务今天突然业务高峰,就可能会影响 B 业务,业务间相互影响对于很多产品来说,没有很好的解决机制,业务间没有隔离的话,就很容易相互影响,导致业务数据产出延迟。 Hologres 在隔离性上以及高可用上提供更深层次的能力,比如提供计算组的隔离能力以及 Serverless Computing 的大 Query 能力来从不同层次、不同程度的解决隔离的诉求。
2.2 Hologres VS CK : OLAP性能数倍提升
首先在性能上, Hologres 首次参加 TPC-H 的性能测试,在 30t 的标准测试结果中就斩获了全球性能第一,而且领先了第 2 名 23 %,这也意味着 Hologres 可以满足大规模数据查询的需求,并且比同等的产品性能更好。
第二个关于 OLAP 查询相关的性能, ClickHouse 在 OLAP 场景上做的非常领先,在 OLAP 性能方面,由 Hologres 和 ClickHouse 做一下对比。左边图中, SSB 数据集 Hologres 64core VS ClickHouse 64core ,在单表测试的 13 个查询当中, 11 个查询 Hologres 比 CK 的查询效率更快,同时整个 13 个查询的效率方面, CK 的总耗时是 Hologres 的 1.35 倍,意味着 Hologres 在 OLAP 查询的场景上面是比 CK 更加领先的。
接下来简单对比一下 CK 和 Hologres 的一些能力。首先在产品定位上, CK 的定位是做流量分析, Hologres 的定位是做通用的实时数仓,也就是说 Hologres 不仅支持数据分析、流量分析这种 OLAP 的场景,同时也支持在线服务的场景。第二个就是写入能力, CK 具备列存的能力, Hologres 具备列存和行存的能力,可以满足不同查询场景的需求,在写入时效性上, CK 是秒级的,在技术原理上, CK 在写入的时候需要客户端做数据的批处理,写入时数据并不是立即可见的,而 Hologres 写入的时候客户端是自适应的展批,在理论上数据的写入时效性可以做到毫秒级。所以在写入性能上, Hologres 的写入性能是比 CK 远远要高的。第三个是主键的能力, CK 不具备完整的主键的能力,不支持唯一性的约束,没有办法支持数据的更新,而 Hologres 支持完整的主键的能力,意味着 Hologres 不仅可以支持 Append 的方式写入,也可以支持更新的方式写入,用户可以选择 Ignore、Replace、Update的三种更新模式来满足业务不同更新的诉求。同时基于主键也可以实现非常高 QPS 的更新、删除以及写入等能力。在索引方面两者相差不多,都有像 Dictionary、Bitmap 等索引。查询侧在高QPS点查这个场景上, CK 是不具备的,而 Hologres 具备主键的能力,支持非常高 QPS 基于主键的点查,理论上 QPS 可以达到千万级以上。 CK 更多的定位是做单表的复杂查询,在单表的复杂查询上面 CK 的性能会比较好,但 Hologres 在单表查询上面的性能跟 CK 能达到一样的能力,甚至有时候会比 CK 更高。但是在多表 Join 的场景上面, CK 明显比 Hologres 不足, SQL 越复杂, Hologres 的表现会比 CK 更好。事务和复制的能力两者都相差不大。高级功能方面, CK 是不具备 Binlog 能力的,而 Hologres 具有表级别 Binlog 的能力,可以简化数仓分层。在架构上, CK 不是一个标准的存储计算分离的架构,而 Hologres 是标准的存储计算分离的架构,这就意味着不管数据存储有多少,存储不够可以直接扩存储,计算不够可以直接扩计算,满足业务的弹性动态扩缩容的需求。在运维上, CK 是开源,需要有专门的人去做维护,而 Hologres 是云原生、免运维的,不需要付出更多的人力运维。在生态上, CK 对接的 BI 工具、开发工具比 Hologres 更少, Hologres 在生态上是完全拥抱 PG 生态的,支持 100 +的主流 BI 工具和开发工具。
2.3 高性能的实时写入更新
Hologres 具备高性能的实时写入与更新,在 Hologres 引擎的内部内置 Fixed Plan 的能力,通过 Fixed Plan 能力就可以实现高性能的写入与更新。以上图 SQL 为例,这是一个写入更新的 SQL ,如果没有使用 Fixed Plan ,那它的执行计划就会很复杂,一个标准的 SQL 需要经过优化器、协调器、查询引擎、存储引擎等多个组件,最后才能完成 SQL 的执行,通过这样一个复杂的过程, SQL 的效率也不会非常的高,有了 Hologres 内置的 Fixed Plan 的能力之后,执行计划变得非常的简单直接,可以直接把数据从接入层写到存储引擎,不需要经过中间更多复杂的组件就可以完成数据的写入与更新。以 64core 为计算资源,在更新的场景,对比使用 Fixed Plan 和不使用 Fixed Plan ,可以看到更新的效率可以达到几十倍的差距。通过 Hologres 的 Fixed Plan 的能力可以实现非常高性能的写入与更新, Hologres Fixed Plan 支持的场景也变得非常丰富,比如单行写入、多行写入、整行更新、局部更新等各种各样的场景,意味着在不同的场景都可以实现非常高性能的写入与更新。
2.4 Hologres Binlog
关于 Hologres Binlog 的能力可以先看一下上图左侧。 Hologres 可以作为 Flink 的结果表, Flink 可以直接写入到 Hologres ,写入的模式包括实时写入、更新写入、 MERGE 写入或者整库同步。另外 Hologres 可以作为 Flink 的维表,支持 Hologres 尾表的点查。在元数据侧 Flink 支持 Hologres Catalog,可以直接使用 Catalog来简化开发。 Hologres 还可以作为 Flink 的源表,作为源表, Hologres 支持表级别的 Binlog 的能力,会记录表的变更记录,这样我们可以通过 Flink 去读 Hologres Binlog 的能力来实现数仓的分层。上图右侧,以前要做实时的数仓分层,最常用的架构就是 Flink 写的 Kafka 写到 ODS ,后面要分层就要不断使用 Kafka 的能力,如果后续要去查 Kafka 的数据或者修正某一层的数据,会非常难。现在可以直接用 Flink 去读 Hologres 的 Binlog ,就可以实现 ODS 层到 DWD 层到 ADS层的数仓分层,每一层的数据都是可以被查询、更新、修正的,简化了数仓的开发,不需要再多维护 Kafka 的组件,只需要用 Flink + Hologres 就可以实现实时数仓分层,增加了数据复用的能力,简化数仓分层的体验。
2.5 Runtime Filter
Runtime Filter 要解决的能力就是大小表 Join 的场景。在没有使用 Runtime Filter 的时候,大表和小表 Join ,会先把小表作为 Scan 表,然后去大表里面做 Join ,在大表里面整个一行的数据全部被扫描出来,然后参与 Join ,如果大表的数据再大的话,可能会导致 Join 的过程中 SQL 会有 OOM 。使用 Runtime Filter 之后,会在小表端生成一个轻量的过滤器,把大表里面想要参与 Join 的数据先提前过滤出来,直接把过滤后的数据进行 Join ,这使得真正参与 Join 的数据变得非常少,减少了网络的传输量,提高了 Join 的性能。简单对比一下有 Runtime Filter 和没有 Runtime Filter 的性能。首先是单个 Join ,可以看到开启了 Runtime Filter 之后,不管在 Cpu 还是耗时上,都比没有开启的时候更低,当查询变得越来越复杂、 Join 变得越来越多的时候, Runtime Filter 的能力会变得更加的强,当有多个专业字段时, Cpu 耗时以及整个查询的耗时都比之前显著的降低了,由秒级直接变成了毫秒级,这样降低了资源的利用,提高了查询性能。
2.6 函数简化流量分析
在 OLAP 场景会有漏斗、留存、路径等流量分析的诉求,来实现业务更加精细化的运营, Hologres 内置了非常多流量分析的函数,比如漏斗、留存、路径等函数。通过这些函数,用户可以开箱即可用来满足业务不同分析的诉求。如果要实现漏斗分析的话,以前常见的做法就是多表 Join ,然后再使用开窗函数来实现漏斗分析,而在 Hologres 中只需要使用漏斗函数,通过函数调用就能直接实现漏斗分析。直接调用函数比直接 Join 的效率有几倍到几十倍的提升。常见的留存分析可以直接通过调用留存函数,获得可视化界面,直接实现用户的留存分析。路径分析更多的是作用在业务上,通过路径分析来分析每个关键节点流量的流入流出情况。通过 Hologres 内置的漏斗、留存、路径函数,可以简化 SQL 的表达以及流量分析的步骤,达到开箱即可用的目的。
2.7 计算组实例:资源隔离、弹性、自动切流
接下来介绍如何通过 Hologres 实现业务、资源隔离。这里要介绍的就是 Hologres 计算组的实例,计算组实例的架构非常的简单,如图,最下层是数据存储层,数据都是存储在 Hologres 的 Pangu上面,只有一份。在计算层,通过 Hologres 的计算组实例,在实例内内置不同的计算组,计算组可以根据业务的情况来分,比如离线写入计算组、实时写入计算组、 OLAP 查询计算组等等,不同的计算组之间都是相互隔离的。比如离线写入计算组今天写入的能力差或者写入的数据量非常大,它对实时写入计算组、 OLAP 查询计算组等都不会有任何的影响。如果业务处于高峰期,想要临时扩缩容,不需要对整个实例做扩缩容,只需要扩缩容某一个计算组,就可以实现资源弹性伸缩的能力。使用侧对外都是一个实例的 Endpoint ,默认用户有默认的计算组,可以为每个用户定制不同的默认计算组,可以实现计算组的自动路由,也不需要改应用就能对故障做自动的切流。
2.8 Serverless Computing
Serverless Computing 能力它的原理就是 Hologres 会提供一个共享的 Serverless 资源 Pool ,把像 DML 这类的 SQL 全部可以选择的执行到 Serverless Computing的 Pool 上面,这样就不需要在本实例执行,可以保证大任务之间的隔离以及高可用。一个非常周期性的数据导入,有明显的波峰和波谷,使用 Serverless Computing 之后,它的资源是大大的降低了,以前导入的时候可能需要 256core ,那白天不用其实资源是浪费的,现在可以完整的把实例缩容到 64core 或 128core ,只需要在导入的时候把资源放在 Serverless 上面去执行,这样有效的降低了成本,并且达到了隔离的目的。
03. 客户案例
3.1 小红书替换 CK
接下来简单分享一下用户的案例,首先第一个就是对小红书的用户做行为分析,然后对这些用户做搜索和推荐。以前这个团队用的是自建的 CK 的集群,在使用的过程中有比较多的痛点。第一个就是他们自建的 CK 只能存储7天以内的数据,随着存储的数据量越多,存储就会爆炸,影响计算性。第二个就是查询慢,对 CK 来说查一天或者三天的数据还好,但是当时间维度变高的时候, CK 的查询会变得特别慢。第三个就是 CK 没有主键,不能达到写入、更新的目的,当上游出现 Failover 后比较容易出现数据的正确性问题。第四个就是开源产品的通病,运维会比较的复杂,需要有专人去做运维,假设出了问题,排查问题的链路也会特别长。基于这个背景,客户把 CK 全部都切换成 Hologres ,有如下几个收益。第一个就是免运维,因为 Hologres 是云原生的,不需要人为的去做运维。第二个就是查询快, Hologres 不管是单表还是多表关联场景都可以达到非常高的查询性能, Hologres 是计算存储分离的架构,存储不会影响计算性。第三个就是有主键,业务就可以基于 Hologres 实现更新去重的逻辑,即使上游 Failover 也不会影响数据的正确性。
3.2 乐元素替换 Hive+Presto
乐元素开发的产品有开心消消乐、海滨消消乐等,它是一个以游戏研发运营为主的游戏公司。游戏公司主要是对用户的一些行为去做分析,比如说像留存、漏斗、路径等一些非常细分领域的流量去做分析,然后辅助业务去做下一步的精细化运营。之前客户是通过 Hive 和 Presto 来搭建游戏运营分析平台的,他们主要的问题有如下几点。首先第一个就是运维上面非常困难,因为既要维护 Hive 又要维护 Presto ,架构会变得特别多,运维的成本也会变得特别高。第二个就是在流量分析的领域, Hive 和 Presto 没有标准的函数,如果要实现漏斗、留存、路径等一系列流量分析的场景,只能自己手写 SQL ,如果业务逻辑特别复杂的话, SQL 也会变得特别的复杂。基于这样的背景,客户就把 Hive 和 Presto 全部替换成了 Hologres ,通过 Hologres 来搭建高性能的运营分析平台,实时的数据 Flink 直接写到 Hologres ,离线的数据就存在 OSS 里面,然后通过 OSS 就可以直接把数据导入到 Hologres 。
客户迁移完之后有以下几点主要的收益。第一就是流量分析的场景都有内置的函数, Hologres 可以开箱即可用,性能比之前手写 SQL 的方式提升近 10 倍。第二个就是稳定性,以前他们用的都是开源的,需要专人去运维,遇到集群高峰的时候,需要不断的扩缩容,来满足业务的需求。而 Hologres 是自带的运维体系,不需要做复杂的运维,同时 Hologres 也有弹性扩缩容的能力,分钟级就能完成集群扩缩容的目的,大大的提升了产品的稳定性、扩展性、可运维性。第三个就是节约成本,以前不仅有开发的成本,还有运维的成本,升级为 Hologres 之后整体成本节约了 50 %,一年大约节约了数 10 万元。
3.3 更多官网案例
官网也整理了大概 40 + Hologres 客户案例,包含了各行各业以及阿里内部的实践,比如互联网平台、游戏公司、广告营销、物流等,在阿里内部,也有实时数仓、流量分析等场景案例。