EMR Serverless StarRocks 全面升级:重新定义实时湖仓分析

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 本文介绍了EMR Serverless StarRocks的发展路径及其架构演进。首先回顾了Serverless Spark在EMR中的发展,并指出2021年9月StarRocks开源后,OLAP引擎迅速向其靠拢。随后,EMR引入StarRocks并推出全托管产品,至2023年8月商业化,已有500家客户使用,覆盖20多个行业。文章重点阐述了EMR Serverless StarRocks 1.0的存算一体架构,包括健康诊断、SQL调优和物化视图等核心功能。接着分析了存算一体架构的挑战,如湖访问不优雅、资源隔离不足及冷热数据分层困难等。

一、EMR Serverless StarRocks发展路径

首先回顾Serverless Spark在EMR的发展路径。右边图是典型的大数据的架构图,存储层一般用HDFS或者是SI协议的OSS,处理层一般分为批处理和流处理。批处理一般实时标准是spark,流处理实时标准一般是Flink。分析层处于一种百家争鸣的状态。


在StarRocks出事之前,常见的几款的Olap引擎包括ClickHouse,Druid,Presto, Impala。但在2021年9月份StarRocks开源之后,业界的趋势,以及整个Olap引擎朝着急速和统一的方向往StarRocks发展,业界里有很多典型的案例。对于EMR的思考是EMR的Olap的发展趋势。推出整个数据分析集群的类型,包括ck,stories,在2021年时引入StarRocks,发现StarRocks在整个Olap架构里处于领先的地位。


在2021年9月份开源之后,把团队的人员,重度的投入社区,向StarRocks方向发展,然后推出EMR的Olap的Serverless这款产品。随着支持的深入,发现社区发展太快的问题,在升级包括监控,告警,还有比较深入的特性里,半托管没法提供。在去年六月份正式发布StarRocks全托管的产品,在今年的八月份,随着StarRocks3.X的不断成熟,在内部打磨将近半年的时间,在八月份开始正式的商业化,EMR Serverless StarRocks1.0存算一体带来的成绩。大概有500家生产客户已经运行EMR Serverless StarRocks,覆盖20多个行业。


行业里面各种Olap的需求大多不是相似的,但有不同,从StarRocks的角度来看,已经基本上覆盖整个Olap所有的场景,包括高频检查,传统的Olap分析,大宽表分析,多表的joint分析,实时数仓。Serverless StarRocks在1.0里的存算一体的架构图,最底层是存储层。存储层一般提供ESSD的机型,也提供本地的SSD机型,OSS主要是数据的导入导出,还有备份的角色。


计算资源层采用比较经典的KYS加上ECS架构,KYS能够保证云操作系统的升级,rolling update,包括配置管理是非常的成熟,ECS保证客户的稳定性,每个客户都是独享的资源,能够最大的保证客户的稳定性。上边管控平台层。管控平台层包括实例的管理,监控与报警。元仓架构对客户的帮助非常大,通过搜集集群的运行日志,然后运行metrics对整个集群做比较关联的分析,导出非常有效的数据,然后赋能业务,包括集群的诊断分析,慢查询分析等。

 

二、EMR Serverless StarRocks 1.0存算一体架构

StarRocks存算一体核心功能是健康诊断,作业没有变化但是为什么集群负载变重,是不是SQL把整个集群的负载拉高,在开源里没有有效的方法,推出实时分析的能力,圈选一段时间,分析整个这段时间里对应的compaction任务,对应的后台任务,对应的导入任务和对应的查询任务,做大的排序,然后就可以知道这段集群里发生过什么。


技术依赖元仓技术,通过后台的日志分析整个的metrics,还有集群的关联分析,把整个系统做出来,然后离线就是通过T+1的离线报告,呈现出昨天SQL是什么样的大盘,比如慢SQL是多少,SQL的top query是什么,昨天的导入发生什么情况,有没有热库热表,把这些信息都传给客户。


第二个核心的功能是SQL调优的功能,全面的将整个SQL记录下来,然后做可视化的profile,根据历史的经验给诊断的建议,比如右侧比较复杂的SQL,是客户刚上线的SQL,看SQL是不是符合自己的预期,看整体的概览,整体的建议,也看算子是不是能够正常的运行,每个算子是不是做的比较重,SQL是不是有优化的空间。


物化视图是第三个核心的功能。物化视图是社区非常重点的方向,也是社区强推的一种方案,物化视图底层对应的是ETL的作业。上层对应是CPU的改写,能够进行透明加速。如果有实践经验,发现物化视图如果写的好或者写的不好的,对资源的耗费,对查询的有效性,对加速性有非常大的不同,所以提出三步骤,第一是把物化视图监控起来,然后把核心的指标透传给客户,客户根据指标看集群物化视图是不是符合预期。第二是检测出比较低效的物化视图,比如物化视图做出来但没有被访问,认为做的是比较低效的物化视图,然后内部也做更新的尝试,根据客户的SQL历史进行物化视图的推荐。比如有三张表,这三张表做join,然后三张表join被更多的SQL语句查询,是不是可以把SQL三张表做物化视图然后进行加速。


经过一年多的落地,看到存算一体有难以解决的问题。第一个是昨天的场,还有整个湖应该是一种业界的标准。Lake house也成为一种既定事实,无论在北美市场还是中国市场,所以在存算一体架构上,对于湖的访问实际是不太优雅的过程。第二是有工作流之间互相的影响,比如高频检查,要求整个的SLV是非常高的,然后物化视图带来的ETR作业,实际对整个的集群资源的使用量非常大,所以缺乏手段把他们有效的进行分开。第三是没法做整个的冷热数据分层,存算一起能够用SSD存整个数据,对于存储的数据量,还有存储的数据成本比较高。客户如果有非常典型的冷热方式,很多的情况下,客户目前能想到一种方案是先把热数据导到StarRocks里,然后不断的通过spark作业,或者通过其他的导出手段,把这些表降冷到OSS里,整个方案不是非常优雅的状态。第四是弹性,在存算一体里,计算跟存储是绑定的,如果对应出有弹性的资源,整个底下的tablet副本需要迁移,迁移过程实际是再平衡的过程,整体对于集群或多或少有影响。


StarRocks官方社区推荐的一套比较正确的使用范式,也是lake house架构,在上边把StarRocks看作仓,是存算一体里使用的非常正常的方案,比如 慢SQL用Flink CDC直接把数据镜像到StarRocks,然后做查询。可能已经有EMR或者有整个的离线大数据分析,已经有湖的格式希望用one copy,不希望导数据,直接用StarRocks去查数据,这是对应的湖的查询。右边是对于湖查询加速的过程,可以用物化视图,还有一种外表的物化视图,把外表当做一层表,然后经过物化视图,不断的把外表ETL到内表的过程,架构在存算一体里完成的是不优雅的。

 

三、EMR Serverless StarRocks 2.0存算分离架构

EMR Serverless StarRocks 2.0存算分离架构是解决整个场景比较终极的方案。存算分离的架构上面是Control Plane层。Control Plane层元仓分析包括健康报表,实时分析,还包括SQL诊断都用到元仓分析。

StarRocks存算分离的集群,从存算分离的角度上来看,已经没有BE的概念,叫CN的概念。CN的概念是compute node的概念,顾名思义是计算节点,没有存储数据的功能。计算和存储一旦分离开,整个能直接推理出来。有两个比较核心的特性,隔离性和弹性,隔离性在存算一体里没法做,物理隔离因为数据在那里,没法做整个物理上按照节点组来切开,一旦有弹性发生,实际在存算机一体里是对应的tablet的变化,弹性是比较重的。


最后一点是成本问题,存算一体里提供SRA必须要用三副本,三副本里的核心逻辑是可靠性和可用性。可用性是一台机器如果宕机,查询没有问题,因为还有两副本可以去提供服务,可靠性是一旦某一台机器的磁盘遭受损坏,可以通过另外两部分副本进行正常的导入,也可以通过另外两部分副本把数据恢复,所以存算一体里面必须要用三副本,但存算分离的架构推荐客户用单副本的缓存,再加上一部分的OSS,因为可靠性来看,直接推到OSS层,提供可靠性是完全够用的。可用性,一旦一台机器宕机,可以从OSS里拉数据,不会导致整个可用性的中断。


StarOS是操作系统的意思,起比较高大上的名字叫StarOS,它有核心对应的两部分,第一部分对应的是调度,第二部分对应的是缓存。假如在存算分离里面,一台机器宕机,或者进行弹性,整个对应的调度不一样,一台机器宕机之后,为不影响可用性会立马的进行重试,把整个的tablet,因为tablet和存储没有物理上的绑定关系,是逻辑上的绑定关系,逻辑上的绑定关系,tablet本来在CN1上,如果CN1宕机,会把tablet调到CN2,用CN2来算,所以整个调度由StarOS来完成。


弹性的调度包括感知调度和热点调度,实际会有场景的优化,客户从10个节点弹到20个节点,希望把整个集群全部的资源用上,还有一部分客户可以慢慢的用,而不是全用,因为前十个节点已经有缓存,业务是平滑的切换,不希望把10节点和20个节点全部用上,导致缓存迅速的失效。完成的思路是给配置到客户,根据不同业务的状况,调不同的参数,缓存管理可以把数据提前做缓存,缓存是partition级别,一张表里有冷的partition,还有热的partition,希望只查七天的数据,可以把七天的partition load到缓存里,对昨天的SQL进行缓存命中率的判断,这样能让客户看到缓存是不是有效的缓存,昨天做的缓存的load,预热的操作是不是有效的。


Multi-Warehouse是硬隔离,在存算一体里用的是软隔离的方式。软隔离是资源组的概念,资源组的概念是accounting,是技术,query到底跑多少的CPU,跑多少的IO,然后一旦达到限制,就会kill,让他不再继续跑,达到隔离作用。但是社区推很长时间,实际在客户落地里做的不是特别好,第一个是不好配置。


第二个是用起来整个的坑比较多,在IO的方向上,很难起到非常好的隔离效果,所以在存算分离里提供的是硬隔离,不同的节点形成不同的资源组,上面可以看到ETR的作业,然后看到Warehouse有检查的作业,客户从impala,从Presto,然后从CK直接切到StarOS,用存算分离,把impala做warehouse,把CK做warehouse,把Presto做warehouse,他们面对的场景不同,配置和缓存的策略包括弹性的策略都不一样,比如impala希望是一种半缓存的状态,因为需要的时效性并不高,可能配置一定的缓存盘就够,比如ck要求的是全缓存,做全缓存收益性非常大,整个在StarRocks全缓存跟存算一体的性能没有差距。


比如Presto,希望慢点,因为不需要完全的缓存,也不需要缓存,所以为节省成本不设缓存盘,在warehouse里可以做三个warehouse,然后设置不同的弹性,不同的缓存完成整个迁移的工作。多部门可以分开记账,因为混用到集群里,很多情况下记账是不清晰的状态,弹性是存算分离里最自然的结果。去掉整个存储和计算的绑定关系,弹性起来是非常清亮的。配置的步骤比较小,在warehouse里做基于时间的弹性,客户从8点到14点,原来的固有资源是500cu,在六小时里弹性出来500cu,弹出来之后,还会给客户事后的成本分析,就是弹性1000资源,这1000资源有没有很好的利用,这是客户最关心的,如果利用不好,明天可能弹700资源就够,如利用率特别大,明天还再多弹,因为整个是非常灵活的过程,整个的资源的使用量分析,包括后续推出的账单分析对客户非常有帮助。


然后是内表做的优化,在StarRocks里,从2022年,一直在做整个内核优化的商业版本,内核的优化整体来看,做工作包括检查,包括核心算子的方面,在TPCDS的TPCH的实体里有打榜,打榜在11月份、12月份进行公布,无论从性价比还是性能上,对整个现在的榜单的第一名有非常大的提升,在存算分离里最重要的是在OSS冷查阶段,对比开源社区有非常多的提高。


第一点把整个冷查的OSS,客户已经看不到OSS,不需要自己去指定bucket,有几个好处。第一个好处是客户不用关心整个的监控包括延时,带宽,都不需要管,完全托管给全托管产品就好。在OSS里也做很多优化,包括基于OSS最佳实践的特性的优化,文件的合并,异步化,文件最佳大小的适配,自适应的算法。


通过自适应的算法,在不同的workload里选取比较多的优化手段。自建StarRocks的存算分离版本门槛特别高,包括实际案例,看到IO非常的多,但数据量非常少,最后数据量是1GB,或者几兆B,很多情况下在做索引的获取,根据profile的分析里看到索引的优化,对整个的OSS冷查的阶段是至关重要的一部分。看几个客户的开源自建的对比。开源自建搬到全托管上,收益非常大,无论从性能,包括查询的稳定性,因为查询的稳定性有一种可能,今天跑的冷查可能是三秒钟,但明天可能会跑到20秒钟。这是实际发生过的案例。但如果迁到EMR Serverless StarRocks上,整个均值和方差非常小。看湖表的优化,湖表是这两天比较轰炸的主题,包括open lake都在讲湖的故事,无论选取三剑客还是选取阿里云的Paimon,无疑是做湖方面的优化,湖的优化讲究非常多,第一个是原数据的获取优化。客户如果使用StarRocks去查Paimon或者StarRocks去查iceberg,有比较大的直观的感受是有时查不动,虽然查出来的数据可能只有几条,或者是很小的数据量,但为什么会查不动,可以去debug一下profile。很有可能花在原数据上,如果一张表特别大的情况下,去获取整个原数据,原数据没有做非常好的治理,比如manifest没有做非常好的治理,那么拉取manifest去解析ever形式的manifest会有非常大的overhead,很多情况下导致优化器超时。冷查优化跟内表的冷查优化差不多,Paimon是阿里云推的,对整个的优化做的非常多。除此之外在图表的优化视图里做很多的优化。


湖表最常见的问题是Trino,即比Trino快,为什么会比Trino快?有三大核心,第一大核心是向量化计算,第二是新一代CPU的加持,还有是语言上的优势,用c++引擎对比java的引擎,优势比较大,是不是可以非常方便的从Trino切到StarRocks,答案是非常肯定,业界有非常多的伙伴做,究竟选择内表还是选择湖表,和snow flake和data break整个的故事是相关的,snow flake是以仓为主体。然后加大湖的投入,这是整个技术的发展过程。然后data break从day one就开始做整个的湖链路,无论是推at lake或者花重金收s berg。都是从湖上转仓的过程,现在业务发展到哪个阶段,或者整个的基础设施到哪一阶段,有不同的选择。

 

四、Demo基于Flink+StarRocks实现用户实时分析架构图

使用Flink+StarRocks实现实时的湖仓分析,平台提供极速的实时OLAP分析体验。使用Flink订阅原始数据,实时写入StarRocks,通过StarRocks物化视图进行查询加速。EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,可创建和管理StarRocks实例以及数据。支持存算分离架构,多计算组,弹性伸缩实例诊断,SQL分析诊断、自动升级等能力。可以结合实际业务场景灵活选择合适的版本,满足业务需求。多计算组是解决StarRocks资源隔离的完美方案。


可以将导入业务,AhHoc查询业务,报表系统等多个业务划分不同计算组,结合按需弹性,保证稳定性,也可大幅降低计算成本。结合弹性伸缩能力,可以按照不同的业务波峰波谷配置灵活的计算资源,有效降低计算成本。实施诊断可以针对高负载的时间段进行诊断分析。健康分析报告可以T+1给出实例分析报告,便于后续运维治理。StarRocks manager提供即开即用的SQL Editor,SQL Proflie和诊断分析。导入任务,物化视图、权限,元数据等数据运维功能,方便快速使用StarRocks和日常数据运维。


接下来演示如何使用StarRocks结合Flink写入数据湖的Paimon数据进行查询、分析和加速。第一步,在SQL Editor页面,通过执行SQL创建StarRocks Catalog映射DLF 2.0 Catalog,以读取数据源数据。第二步,通过StarRocks SQL直接查询数据库中的Paimon数据,实现用户留存率分析的查询。StarRocks提供极速的实时的湖仓分析能力,StarRocks是最快的实时湖仓分析引擎,其性能是presto和impala的3-5倍。


StarRocks提供便捷的慢SQL分析和诊断能力,可以大大提高日常数据运维效率。通过物化视图可以对数据进行预聚合和查询性能加速,整体的查询性能将会大大提升。EMR Serverless StarRocks重新定义实时湖仓分析。在最新版本的Serverless StarRocks里已经内置一些案例,包括TPCH, TPCDS,SSD,然后客户可以开箱即用的做这些案例。包括数据集里有1G或100G。并且后续会推出1T的测试,方便客户直接按照导引复现所有的案例。

 

 

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
4天前
|
SQL 存储 运维
云端问道5期方案教学-基于 Hologres 轻量实时的高性能OLAP分析
本文介绍了基于Hologres的轻量实时高性能OLAP分析方案,涵盖OLAP典型应用场景及Hologres的核心能力。Hologres是阿里云的一站式实时数仓,支持多种数据源同步、多场景查询和丰富的生态工具。它解决了复杂OLAP场景中的技术栈复杂、需求响应慢、开发运维成本高、时效性差、生态兼容弱、业务间相互影响等难题。通过与ClickHouse对比,Hologres在性能、写入更新、主键支持等方面表现更优。文中还展示了小红书、乐元素等客户案例,验证了Hologres在实际应用中的优势,如免运维、查询快、成本节约等。
云端问道5期方案教学-基于 Hologres 轻量实时的高性能OLAP分析
|
15天前
|
DataWorks 关系型数据库 OLAP
云端问道5期实践教学-基于Hologres轻量实时的高性能OLAP分析
本文基于Hologres轻量实时的高性能OLAP分析实践,通过云起实验室进行实操。实验步骤包括创建VPC和交换机、开通Hologres实例、配置DataWorks、创建网关、设置数据源、创建实时同步任务等。最终实现MySQL数据实时同步到Hologres,并进行高效查询分析。实验手册详细指导每一步操作,确保顺利完成。
|
1月前
|
弹性计算 运维 Serverless
超值选择:阿里云Elasticsearch Serverless在企业数据检索与分析中的高性能与灵活性
本文介绍了阿里云Elasticsearch Serverless服务的高性价比与高度弹性灵活性。
124 8
|
2月前
|
SQL 流计算 关系型数据库
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上,提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据,提供湖仓数据表和文件的安全访问及IO加速,并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎,通过流式数据湖仓Paimon(使用DLF 2.0存储)和EMR StarRocks搭建流式湖仓。
547 5
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
|
3月前
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
215 2
|
2月前
|
数据采集 分布式计算 OLAP
最佳实践:AnalyticDB在企业级大数据分析中的应用案例
【10月更文挑战第22天】在数字化转型的大潮中,企业对数据的依赖程度越来越高。如何高效地处理和分析海量数据,从中提取有价值的洞察,成为企业竞争力的关键。作为阿里云推出的一款实时OLAP数据库服务,AnalyticDB(ADB)凭借其强大的数据处理能力和亚秒级的查询响应时间,已经在多个行业和业务场景中得到了广泛应用。本文将从个人的角度出发,分享多个成功案例,展示AnalyticDB如何助力企业在广告投放效果分析、用户行为追踪、财务报表生成等领域实现高效的数据处理与洞察发现。
170 0
|
1天前
|
SQL 弹性计算 分布式计算
阿里云 EMR 发布托管弹性伸缩功能,支持自动调整集群大小,最高降本60%
阿里云开源大数据平台 E-MapReduce 重磅推出托管弹性伸缩功能,基于 EMR 托管弹性伸缩功能,您可以指定集群的最小和最大计算限制,EMR 会持续对与集群上运行的工作负载相关的关键指标进行采样,自动调整集群大小,以获得最佳性能和资源利用率。
|
5月前
|
分布式计算 大数据 MaxCompute
EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决
EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决
|
5月前
|
分布式计算 测试技术 调度
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
|
3月前
|
SQL 存储 缓存
阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse
本文介绍了阿里云EMR StarRocks在数据湖分析领域的应用,涵盖StarRocks的数据湖能力、如何构建基于Paimon的实时湖仓、StarRocks与Paimon的最新进展及未来规划。文章强调了StarRocks在极速统一、简单易用方面的优势,以及在数据湖分析加速、湖仓分层建模、冷热融合及全链路ETL等场景的应用。
350 8
阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse