开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 本文将分享阿里云与 StarRocks 社区合作打造的云上 StarRocks 极速湖仓的云原生产品实践。主要包括四个部分,第一部分介绍 StarRocks 全托管形态,以及免运维服务的 OLAP 云产品;第二部分介绍 StarRocksManager 的实例管理、诊断分析、元数据管理、安全中心等功能;第三部分介绍在社交、在线教育、电商等场景的使用案例;最后是对产品的长短期规划。


摘要:本文将分享阿里云与 StarRocks 社区合作打造的云上 StarRocks 极速湖仓的云原生产品实践。主要包括四个部分,第一部分介绍 StarRocks 全托管形态,以及免运维服务的 OLAP 云产品;第二部分介绍 StarRocks Manager 的实例管理、诊断分析、元数据管理、安全中心等功能;第三部分介绍在社交、在线教育、电商等场景的使用案例;最后是对产品的长短期规划:


  1. StarRocks 产品介绍
  2. StarRocks 功能介绍
  3. StarRocks 场景案例
  4. StarRocks 未来规划


点击查看直播回放


一、StarRocks 产品介绍

阿里云与 StarRocks 社区从2022年初开始以半托管的形态合作。现有大概200客户已经在用半托管的 StarRocks 产品。今年开始做全托管的产品形态,希望帮助大家更进一步降低管理、使用门槛,也配合社区将产品推向更多的 OLAP 用户。

1.png                                    

EMR Serverless StarRocks 是 StarRocks 在阿里云上的一个全托管服务,结合 StarRocks 自身极速和统一的特性,重点围绕降低门槛和降低运维复杂度这两个目标,为客户提供了更多的能力。


易用性方面,在 Serverless 的形态下,提供了全托管、免运维的服务,大家不用再去担心 StarRocks 集群的稳定性,比如日常使用中宕机等问题。在数据管理方面,提供了易用的慢 SQL 分析和集群健康诊断,便捷的导入任务管理,以及可视化的元数据管理。


结合阿里云上的一些产品,集成了云原生的能力。首先是集成了底层资源,结合K8S,实现了即开即用,仅需三四分钟,即可完成一个集群的快速创建。并且提供了后续高效扩缩容、升降配的能力,实现了资源的快速交付。另外,与 DLF 深度集成,实现了整个云上数据湖体系的打通。与 Flink VVP 深度集成,进一步降低开发成本。

image.png

上图展示了 EMR 产品体系。本次介绍重点在 OLAP 部分。StarRocks 是 EMR 推出的第一个全托管形态,接下来还会有 Serverless Doris,以及 Presto 等更多的全托管形态,帮助用户低门槛地去使用大数据的技术栈。

image.png

利用 StarRocks 我们可以构建极速统一的新一代数据架构,在分析层可以通过 StarRocks 统一 OLAP 引擎,覆盖所有 OLAP 场景,这样可以技术栈统一,一份技术及运维,多种 OLAP 分析场景都可以适用。

image.png

StarRocks 系统架构如上图所示,整个系统的核心就是 FE(Frontend)和BE(Backend)。

image.png

EMR 全托管主要是围绕K8S的布署形态,半托管主要是围绕 ECS 的布署形态。半托管,主要提供快速部署的能力,包括监控、告警等基础集群管理能力。全托管更上一层,对于FE、BE自身的服务管理也去托管,这样用户就可以不用关心计算资源这一层的运维和管理。更进一步,期望将平台运维能力,包括扩缩容、集群监控告警等,都进行全托管,从而帮助用户省去更多的运维成本。全托管提供的能力一方面是全方位的服务免运维,另一方面是自动升级的能力。还有一些 Manager 的能力,更好地管理数据,包括导入任务、元数据、权限等。


二、StarRocks 功能介绍

实例管理

image.png

实例管理,主要是快速解决集群在全托管形态下的部署能力和监控能力,是最基础的能力。并且可以更好地实现自动化升级。另外,提供了可视化配置的能力,以及一些监控和告警规则的模板。


诊断与分析

image.png

在日常数据查询或数据应用的过程中经常会碰到 SQL 慢的问题,需要分析其原因,并找到相应的解决方案。EMR StarRocks Manager 提供了可视化的 SQL 诊断分析能力,可以帮助用户快速找到根因。


元数据管理

image.png

目前元数据管理只提供了一个比较基本的能力,即展示了表的内容。后续会实现更多更细粒度的功能,比如关于导入任务的、关于物化视图的、关于外表管理的能力等等。


安全中心

image.png

当前在 Serverless 版本里提供了一个基础的用户基本管理以及库级别的权限控制。因为3.0要做一个社区的权限重构,所以计划会在3.0发布之后去做一个更细粒度的权限控制。


版本功能说明

以下表格中列出了 EMR StarRocks 不同版本功能的差别。


内核层面基本上是保持一致的。个别功能,比如数据湖查询的一些场景下,在迭代节奏上,因为与阿里云内部产品适配会更快一些,所以阿里云的版本推出得更快一些,但最终也都会贡献到社区。Flink VVP CTAS 这种场景,因为跟Flink之间是一个特殊定制的版本,所以无法贡献到社区。


实例运维管理方面,全托管版本提供的可视化、免运维能力范围会更广一些。前文介绍的 Manager 的一些能力,比如可视化数据库/表管理、慢 SQL 分析等,目前也只能在 Serverless 的版本里用到。

image.png

image.png

三、StarRocks 场景案例

image.png

image.png



四、StarRocks 未来规划

image.png

EMR Serverless 版本从今年一月份开始邀测,当时只具备了一些基本能力。从4月10号开始公测之后发布了更多的能力。


Q2的计划,一个是商业化发布,另一个是围绕 DLF 湖仓分析的场景,去做更多的增强,因为在湖仓分析对计算资源的要求更加灵活,所以需要按量付费以及弹性的一些能力。另外,会去提供实例的健康检查,帮助大家快速定位到集群有问题的地方。围绕 Manager,实现物化视图的管理能力,虽然目前物化视图的使用还不多,但随着3.0的发布,存算分离架构发布之后,物化视图会使用得越来越多。还有数据导入管理,以及 SQL Editor 等等。


Q3,在3.0存算分离发布之后,期望能够围绕 Iceberg、Hudi 等湖格式直接应用整个大数据场景,可以使用物化视图以及湖格式的一些能力,两者结合,去快速实现 LakeHouse 的场景。另外,还有重构权限模型,以及 MaxCompute 集成等。


Q4,会在实例的备份和恢复,以及实例迁移方面,增强易用性和产品化。并继续对已有功能做更深层的优化和迭代。


以上就是今年的一个整体规划,当然还会结合客户具体场景需求去做调整。



我们会在钉钉群定期推送精彩文章,邀请技术大牛直播分享
欢迎
钉钉扫码加入产品交流群一起参与讨论~

image.png





相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
4月前
|
JavaScript Serverless 数据安全/隐私保护
函数计算产品使用问题之怎么动态设置.npmrc文件以配置私有仓库访问
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
缓存 Serverless API
函数计算产品使用问题之怎么通过API使用SD
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
运维 负载均衡 Serverless
函数计算产品使用问题之在同一地域同一时刻最多可以同时运行多少个函数实例
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
弹性计算 缓存 Serverless
函数计算产品使用问题之如何加快出图时间
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
Serverless API 异构计算
函数计算产品使用问题之修改SD模版应用的运行环境
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
运维 监控 安全
函数计算产品使用问题之怎么实现跨区域函数调用
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
存储 运维 Serverless
函数计算产品使用问题之如何解决代码需要多个gpu的问题
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
运维 Serverless 网络安全
函数计算产品使用问题之通过仓库导入应用时无法配置域名外网访问,该如何排查
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
存储 Serverless 文件存储
函数计算产品使用问题之如何在一键部署的ComfyUI中上传大模型和插件
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
2月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
236 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

相关产品

  • 开源大数据平台 E-MapReduce
  • 下一篇
    DataWorks