开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍-阿里云开发者社区

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍

2023-06-02 7438

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文将分享阿里云与 StarRocks 社区合作打造的云上 StarRocks 极速湖仓的云原生产品实践。主要包括四个部分，第一部分介绍 StarRocks 全托管形态，以及免运维服务的 OLAP 云产品；第二部分介绍 StarRocksManager 的实例管理、诊断分析、元数据管理、安全中心等功能；第三部分介绍在社交、在线教育、电商等场景的使用案例；最后是对产品的长短期规划。

摘要：本文将分享阿里云与 StarRocks 社区合作打造的云上 StarRocks 极速湖仓的云原生产品实践。主要包括四个部分，第一部分介绍 StarRocks 全托管形态，以及免运维服务的 OLAP 云产品；第二部分介绍 StarRocks Manager 的实例管理、诊断分析、元数据管理、安全中心等功能；第三部分介绍在社交、在线教育、电商等场景的使用案例；最后是对产品的长短期规划：

StarRocks 产品介绍

StarRocks 功能介绍

StarRocks 场景案例

StarRocks 未来规划

点击查看直播回放

一、StarRocks 产品介绍

阿里云与 StarRocks 社区从2022年初开始以半托管的形态合作。现有大概200客户已经在用半托管的 StarRocks 产品。今年开始做全托管的产品形态，希望帮助大家更进一步降低管理、使用门槛，也配合社区将产品推向更多的 OLAP 用户。

EMR Serverless StarRocks 是 StarRocks 在阿里云上的一个全托管服务，结合 StarRocks 自身极速和统一的特性，重点围绕降低门槛和降低运维复杂度这两个目标，为客户提供了更多的能力。

易用性方面，在 Serverless 的形态下，提供了全托管、免运维的服务，大家不用再去担心 StarRocks 集群的稳定性，比如日常使用中宕机等问题。在数据管理方面，提供了易用的慢 SQL 分析和集群健康诊断，便捷的导入任务管理，以及可视化的元数据管理。

结合阿里云上的一些产品，集成了云原生的能力。首先是集成了底层资源，结合K8S，实现了即开即用，仅需三四分钟，即可完成一个集群的快速创建。并且提供了后续高效扩缩容、升降配的能力，实现了资源的快速交付。另外，与 DLF 深度集成，实现了整个云上数据湖体系的打通。与 Flink VVP 深度集成，进一步降低开发成本。

上图展示了 EMR 产品体系。本次介绍重点在 OLAP 部分。StarRocks 是 EMR 推出的第一个全托管形态，接下来还会有 Serverless Doris，以及 Presto 等更多的全托管形态，帮助用户低门槛地去使用大数据的技术栈。

利用 StarRocks 我们可以构建极速统一的新一代数据架构，在分析层可以通过 StarRocks 统一 OLAP 引擎，覆盖所有 OLAP 场景，这样可以技术栈统一，一份技术及运维，多种 OLAP 分析场景都可以适用。

StarRocks 系统架构如上图所示，整个系统的核心就是 FE（Frontend）和BE（Backend）。

EMR 全托管主要是围绕K8S的布署形态，半托管主要是围绕 ECS 的布署形态。半托管，主要提供快速部署的能力，包括监控、告警等基础集群管理能力。全托管更上一层，对于FE、BE自身的服务管理也去托管，这样用户就可以不用关心计算资源这一层的运维和管理。更进一步，期望将平台运维能力，包括扩缩容、集群监控告警等，都进行全托管，从而帮助用户省去更多的运维成本。全托管提供的能力一方面是全方位的服务免运维，另一方面是自动升级的能力。还有一些 Manager 的能力，更好地管理数据，包括导入任务、元数据、权限等。

二、StarRocks 功能介绍

实例管理

实例管理，主要是快速解决集群在全托管形态下的部署能力和监控能力，是最基础的能力。并且可以更好地实现自动化升级。另外，提供了可视化配置的能力，以及一些监控和告警规则的模板。

诊断与分析

在日常数据查询或数据应用的过程中经常会碰到 SQL 慢的问题，需要分析其原因，并找到相应的解决方案。EMR StarRocks Manager 提供了可视化的 SQL 诊断分析能力，可以帮助用户快速找到根因。

元数据管理

目前元数据管理只提供了一个比较基本的能力，即展示了表的内容。后续会实现更多更细粒度的功能，比如关于导入任务的、关于物化视图的、关于外表管理的能力等等。

安全中心

当前在 Serverless 版本里提供了一个基础的用户基本管理以及库级别的权限控制。因为3.0要做一个社区的权限重构，所以计划会在3.0发布之后去做一个更细粒度的权限控制。

版本功能说明

以下表格中列出了 EMR StarRocks 不同版本功能的差别。

内核层面基本上是保持一致的。个别功能，比如数据湖查询的一些场景下，在迭代节奏上，因为与阿里云内部产品适配会更快一些，所以阿里云的版本推出得更快一些，但最终也都会贡献到社区。Flink VVP CTAS 这种场景，因为跟Flink之间是一个特殊定制的版本，所以无法贡献到社区。

实例运维管理方面，全托管版本提供的可视化、免运维能力范围会更广一些。前文介绍的 Manager 的一些能力，比如可视化数据库/表管理、慢 SQL 分析等，目前也只能在 Serverless 的版本里用到。

三、StarRocks 场景案例

四、StarRocks 未来规划

EMR Serverless 版本从今年一月份开始邀测，当时只具备了一些基本能力。从4月10号开始公测之后发布了更多的能力。

Q2的计划，一个是商业化发布，另一个是围绕 DLF 湖仓分析的场景，去做更多的增强，因为在湖仓分析对计算资源的要求更加灵活，所以需要按量付费以及弹性的一些能力。另外，会去提供实例的健康检查，帮助大家快速定位到集群有问题的地方。围绕 Manager，实现物化视图的管理能力，虽然目前物化视图的使用还不多，但随着3.0的发布，存算分离架构发布之后，物化视图会使用得越来越多。还有数据导入管理，以及 SQL Editor 等等。

Q3，在3.0存算分离发布之后，期望能够围绕 Iceberg、Hudi 等湖格式直接应用整个大数据场景，可以使用物化视图以及湖格式的一些能力，两者结合，去快速实现 LakeHouse 的场景。另外，还有重构权限模型，以及 MaxCompute 集成等。

Q4，会在实例的备份和恢复，以及实例迁移方面，增强易用性和产品化。并继续对已有功能做更深层的优化和迭代。

以上就是今年的一个整体规划，当然还会结合客户具体场景需求去做调整。

我们会在钉钉群定期推送精彩文章，邀请技术大牛直播分享。
欢迎钉钉扫码加入产品交流群一起参与讨论~

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍

一、StarRocks 产品介绍

二、StarRocks 功能介绍

实例管理

诊断与分析

元数据管理

安全中心

版本功能说明

三、StarRocks 场景案例

四、StarRocks 未来规划

开源大数据平台 E-MapReduce

热门文章

最新文章

相关产品

相关课程

相关电子书