开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍

简介: 本文将分享阿里云与 StarRocks 社区合作打造的云上 StarRocks 极速湖仓的云原生产品实践。主要包括四个部分,第一部分介绍 StarRocks 全托管形态,以及免运维服务的 OLAP 云产品;第二部分介绍 StarRocksManager 的实例管理、诊断分析、元数据管理、安全中心等功能;第三部分介绍在社交、在线教育、电商等场景的使用案例;最后是对产品的长短期规划。


摘要:本文将分享阿里云与 StarRocks 社区合作打造的云上 StarRocks 极速湖仓的云原生产品实践。主要包括四个部分,第一部分介绍 StarRocks 全托管形态,以及免运维服务的 OLAP 云产品;第二部分介绍 StarRocks Manager 的实例管理、诊断分析、元数据管理、安全中心等功能;第三部分介绍在社交、在线教育、电商等场景的使用案例;最后是对产品的长短期规划:


  1. StarRocks 产品介绍
  2. StarRocks 功能介绍
  3. StarRocks 场景案例
  4. StarRocks 未来规划


点击查看直播回放


一、StarRocks 产品介绍

阿里云与 StarRocks 社区从2022年初开始以半托管的形态合作。现有大概200客户已经在用半托管的 StarRocks 产品。今年开始做全托管的产品形态,希望帮助大家更进一步降低管理、使用门槛,也配合社区将产品推向更多的 OLAP 用户。

1.png                                    

EMR Serverless StarRocks 是 StarRocks 在阿里云上的一个全托管服务,结合 StarRocks 自身极速和统一的特性,重点围绕降低门槛和降低运维复杂度这两个目标,为客户提供了更多的能力。


易用性方面,在 Serverless 的形态下,提供了全托管、免运维的服务,大家不用再去担心 StarRocks 集群的稳定性,比如日常使用中宕机等问题。在数据管理方面,提供了易用的慢 SQL 分析和集群健康诊断,便捷的导入任务管理,以及可视化的元数据管理。


结合阿里云上的一些产品,集成了云原生的能力。首先是集成了底层资源,结合K8S,实现了即开即用,仅需三四分钟,即可完成一个集群的快速创建。并且提供了后续高效扩缩容、升降配的能力,实现了资源的快速交付。另外,与 DLF 深度集成,实现了整个云上数据湖体系的打通。与 Flink VVP 深度集成,进一步降低开发成本。

image.png

上图展示了 EMR 产品体系。本次介绍重点在 OLAP 部分。StarRocks 是 EMR 推出的第一个全托管形态,接下来还会有 Serverless Doris,以及 Presto 等更多的全托管形态,帮助用户低门槛地去使用大数据的技术栈。

image.png

利用 StarRocks 我们可以构建极速统一的新一代数据架构,在分析层可以通过 StarRocks 统一 OLAP 引擎,覆盖所有 OLAP 场景,这样可以技术栈统一,一份技术及运维,多种 OLAP 分析场景都可以适用。

image.png

StarRocks 系统架构如上图所示,整个系统的核心就是 FE(Frontend)和BE(Backend)。

image.png

EMR 全托管主要是围绕K8S的布署形态,半托管主要是围绕 ECS 的布署形态。半托管,主要提供快速部署的能力,包括监控、告警等基础集群管理能力。全托管更上一层,对于FE、BE自身的服务管理也去托管,这样用户就可以不用关心计算资源这一层的运维和管理。更进一步,期望将平台运维能力,包括扩缩容、集群监控告警等,都进行全托管,从而帮助用户省去更多的运维成本。全托管提供的能力一方面是全方位的服务免运维,另一方面是自动升级的能力。还有一些 Manager 的能力,更好地管理数据,包括导入任务、元数据、权限等。


二、StarRocks 功能介绍

实例管理

image.png

实例管理,主要是快速解决集群在全托管形态下的部署能力和监控能力,是最基础的能力。并且可以更好地实现自动化升级。另外,提供了可视化配置的能力,以及一些监控和告警规则的模板。


诊断与分析

image.png

在日常数据查询或数据应用的过程中经常会碰到 SQL 慢的问题,需要分析其原因,并找到相应的解决方案。EMR StarRocks Manager 提供了可视化的 SQL 诊断分析能力,可以帮助用户快速找到根因。


元数据管理

image.png

目前元数据管理只提供了一个比较基本的能力,即展示了表的内容。后续会实现更多更细粒度的功能,比如关于导入任务的、关于物化视图的、关于外表管理的能力等等。


安全中心

image.png

当前在 Serverless 版本里提供了一个基础的用户基本管理以及库级别的权限控制。因为3.0要做一个社区的权限重构,所以计划会在3.0发布之后去做一个更细粒度的权限控制。


版本功能说明

以下表格中列出了 EMR StarRocks 不同版本功能的差别。


内核层面基本上是保持一致的。个别功能,比如数据湖查询的一些场景下,在迭代节奏上,因为与阿里云内部产品适配会更快一些,所以阿里云的版本推出得更快一些,但最终也都会贡献到社区。Flink VVP CTAS 这种场景,因为跟Flink之间是一个特殊定制的版本,所以无法贡献到社区。


实例运维管理方面,全托管版本提供的可视化、免运维能力范围会更广一些。前文介绍的 Manager 的一些能力,比如可视化数据库/表管理、慢 SQL 分析等,目前也只能在 Serverless 的版本里用到。

image.png

image.png

三、StarRocks 场景案例

image.png

image.png



四、StarRocks 未来规划

image.png

EMR Serverless 版本从今年一月份开始邀测,当时只具备了一些基本能力。从4月10号开始公测之后发布了更多的能力。


Q2的计划,一个是商业化发布,另一个是围绕 DLF 湖仓分析的场景,去做更多的增强,因为在湖仓分析对计算资源的要求更加灵活,所以需要按量付费以及弹性的一些能力。另外,会去提供实例的健康检查,帮助大家快速定位到集群有问题的地方。围绕 Manager,实现物化视图的管理能力,虽然目前物化视图的使用还不多,但随着3.0的发布,存算分离架构发布之后,物化视图会使用得越来越多。还有数据导入管理,以及 SQL Editor 等等。


Q3,在3.0存算分离发布之后,期望能够围绕 Iceberg、Hudi 等湖格式直接应用整个大数据场景,可以使用物化视图以及湖格式的一些能力,两者结合,去快速实现 LakeHouse 的场景。另外,还有重构权限模型,以及 MaxCompute 集成等。


Q4,会在实例的备份和恢复,以及实例迁移方面,增强易用性和产品化。并继续对已有功能做更深层的优化和迭代。


以上就是今年的一个整体规划,当然还会结合客户具体场景需求去做调整。



我们会在钉钉群定期推送精彩文章,邀请技术大牛直播分享
欢迎
钉钉扫码加入产品交流群一起参与讨论~

image.png





目录
相关文章
|
DataWorks 数据挖掘 Serverless
阿里云EMR Serverless StarRocks 内容合集
阿里云 EMR StarRocks 提供存算分离架构,支持实时湖仓分析,适用于多种 OLAP 场景。结合 Paimon 与 Flink,助力企业高效处理海量数据,广泛应用于游戏、教育、生活服务等领域,显著提升数据分析效率与业务响应速度。
601 0
|
存储 运维 Serverless
千万级数据秒级响应!碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践
碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构,解决了海量数据处理中的资源利用率低、并发能力不足等问题,显著降低了硬件和运维成本。实时查询性能提升8倍,查询出错率减少30倍,集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验,还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。
1326 69
|
数据可视化 大数据 定位技术
GIS:开源webgl大数据地图类库整理
GIS:开源webgl大数据地图类库整理
959 0
|
SQL 分布式计算 运维
StarRocks 在爱奇艺大数据场景的实践
本文介绍了爱奇艺大数据OLAP服务负责人林豪在StarRocks年度峰会上的分享,重点讲述了爱奇艺OLAP引擎的演进及引入StarRocks后的显著效果。在广告业务中,StarRocks替换Impala+Kudu后,接口性能提升400%,P90查询延迟缩短4.6倍;在“魔镜”数据分析平台中,StarRocks替代Spark达67%,P50查询速度提升33倍,P90提升15倍,节省4.6个人天。未来,爱奇艺计划进一步优化存算一体和存算分离架构,提升整体数据处理效率。
StarRocks 在爱奇艺大数据场景的实践
|
SQL 存储 缓存
EMR Serverless StarRocks 全面升级:重新定义实时湖仓分析
本文介绍了EMR Serverless StarRocks的发展路径及其架构演进。首先回顾了Serverless Spark在EMR中的发展,并指出2021年9月StarRocks开源后,OLAP引擎迅速向其靠拢。随后,EMR引入StarRocks并推出全托管产品,至2023年8月商业化,已有500家客户使用,覆盖20多个行业。 文章重点阐述了EMR Serverless StarRocks 1.0的存算一体架构,包括健康诊断、SQL调优和物化视图等核心功能。接着分析了存算一体架构的挑战,如湖访问不优雅、资源隔离不足及冷热数据分层困难等。
|
存储 人工智能 安全
函数计算助您 7 分钟极速部署开源对话大模型
本方案利用函数计算的无服务器架构,您可以在函数计算控制台选择魔搭(ModelScope)开源大模型应用模板;同时,我们将利用文件存储 NAS ,为应用服务所需的大模型和相关文件提供一个安全的存储环境;最终通过访问提供的域名进行模型的调用与验证。仅需三步,即可玩转目前热门 AI 大模型。
|
消息中间件 人工智能 Kubernetes
解密开源Serverless容器框架:事件驱动篇
Knative是一款基于Kubernetes的开源Serverless框架,提供了云原生、跨平台的Serverless编排标准。作为Serverless中必不可少的事件驱动能力,Knative Eventing提供了云原生的事件驱动能力。
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
1104 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
弹性计算 人工智能 自然语言处理
魔搭社区与函数计算:高效部署开源大模型的文本生成服务体验
在数字化时代,人工智能技术迅速发展,开源大模型成为重要成果。魔搭社区(ModelScope)作为开源大模型的聚集地,结合阿里云函数计算,提供了一种高效、便捷的部署方式。通过按需付费和弹性伸缩,开发者可以快速部署和使用大模型,享受云计算的便利。本文介绍了魔搭社区与函数计算的结合使用体验,包括环境准备、部署应用、体验使用和资源清理等步骤,并提出了改进建议。
|
存储 机器学习/深度学习 大数据
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
Apache Flink 诚邀您参加 7 月 27 日在杭州举办的阿里云开源大数据 Workshop,了解流式湖仓、湖仓一体架构的最近演进方向,共探企业云上湖仓实践案例。
468 12
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践

相关产品

  • 开源大数据平台 E-MapReduce