李钰:从 OLAP 到湖仓,阿里云与 StarRocks 的共创共荣

简介: 本文根据 StarRocks Summit 2023 演讲实录整理而成

本文根据 StarRocks Summit 2023 演讲实录整理而成,演讲信息如下:


演讲人:李钰 | 阿里云资深技术专家,阿里云开源大数据平台EMR负责人


阿里云 EMR 和 StarRocks 社区及镜舟的深度合作

大家上午好,我是阿里云 EMR 的负责人李钰。那接下来我先介绍一下阿里云和 StarRocks 的合作情况。其实阿里云 EMR 的团队早在2021年就开始深度的参与 StarRocks 开源社区。一方面,我们和社区一块在线下和线上组织了多次 meetup 和开发者训练营。另一方面,在社区的2.4、2.5版本,还有3.1版本,这三个重大的版本里面,我们都深度参与了研发和发布。




阿里云 EMR 在 StarRocks 社区的主要贡献

具体来说,我们主要聚焦在推动 StarRocks,从 OLAP 分析到湖仓融合的方向上。在2.4这个版本当中,我们主要是深度参与了异步物化视图特性的研发。在2.5版本当中,我们更多聚焦在数据湖查询 DLA 场景的研发上。在3.1版本当中,我们和镜舟科技深度合作,建设了 StarOS,并在社区推出存算分离功能。另外就是面向实时湖仓分析的这个新的方向,我们推出了 Paimon Catalog 的支持。在这整个过程当中,我们一共向社区贡献了超过200个 Patch,也在团队内部培养了一位 TSC 的成员,两位 Committer,还有多位活跃的贡献者,与此同时,我们认为开源和云是一个天然的结合。




阿里云 EMR Serverless StarRocks 产品的核心能力

开源软件给广大的开发者提供了一个非常开放透明、合作共建的一个途径。而云则为用户使用这种软件提供一种非常简单便捷的途径。所以,我们从去年就开始设计和研发了 EMR Serverless StarRocks 这款商业化产品。并且在今年的六月份,正式完成了商业化。到今天为止,大概半年左右的时间,我们已经在阿里云上服务了数百位客户。这款产品,它除了能够提供云原生免运维的能力之外,还在易用性、安全性,还有性能方面,都提供了很多企业级的 feature。



具体来说,一方面我们通过 StarRocks Manager,为我们的用户提供了一个方便管理 StarRocks 实例的方式,还有开发 SQL 作业的一站式平台。同时我们也提供了慢 SQL 分析,还有实例的智能诊断分析能力,从而能够比较大的降低我们的用户使用和运维 StarRocks 的复杂度。


另外我们通过 StarRocks 管控平台,支持快速部署集群,同时具备开箱即用的监控告警能力。另外我们还提供内核多版本的管理和升级能力,从而提供一个比较好的服务等级保障。


另外,在 StarRocks 的核心应用场景上,我们也提供了很多企业级增强的能力。例如,使用 StarRocks 做一站式数仓的相对比较简单的 Data PipeLine 场景下,我们结合 OSS 和 EMR的 JindoCache 缓存的能力,使存算分离在我们的产品里面,具备上生产的可用性。一方面,我们在 MPP ETL 这个场景下,极大提升了落盘的稳定性。从而让 ETL 在我们的商业化产品上可以支持生产的使用。第二个方面,就是在基于数据湖去建设分层数仓的传统的 Data PipeLine 上面,相对比较复杂的 Data PipeLine 上,我们的商业化产品大幅的提升了外表物化视图,还有就是数据湖查询 DLA 的能力,为我们的用户提供了比较高的性价比。第三,在实时数据湖仓的这个方向上,我们主要是深度结合了 Paimon、DLF,通过 Paimon,我们能够极大的提升具体端到端的数据的新鲜度,我们能够把数据新鲜度几十分钟的粒度提升到五到十分钟的粒度。从而带来更好的业务效果。此外,我们结合了 DLF 去做数据的冷热分层,然后通过数据的冷热分层,可以让我们的客户拥有更高的性价比。




阿里云 EMR Serverless StarRocks 产品未来规划

在未来,我们会持续在 StarRocks 社区的合作共建,以及商业化产品上进行大力的投入。


我们将主要聚焦在以下三个方向。第一个方向,我们会继续大力的推动 StarRocks 从 OLAP 场景到湖仓分析融合的场景。开场的时候友东老师介绍,现在 StarRocks 的 Trino 兼容性大概在90%,我们会把它提升至100%。然后,在商业化的产品上,我们会尽量的去提供一个类似 AWS Athena 的产品能力。第二个方向,在存算分离方面,我们会和镜舟科技进一步的深入合作,主要去支撑 onedata,基于 onedata,提供 Virtual Warehouse 能力,在我们的商业化产品上,我们主要会专注于增强资源隔离,还有生产稳定性等能力。 第三个方向,我们会在云原生极致弹性方向做进一步的增强。我们会去加强资源负载,以及成本端到端的可观测性。同时我们也会去借助智能分析能力,去分析客户历史的负载,实现为客户推荐固定和弹性资源占比的更优方案。




以上,就是我今天分享的主要内容。欢迎大家钉钉扫码加入下方用户交流群,可以跟我们做更进一步的交流,谢谢大家。




欢迎钉钉扫码加入EMR Serverless StarRocks交流群(搜索钉钉群号加群:24010016636)

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
3月前
|
SQL 存储 数据管理
阿里云视觉智能开放平台的逻辑数仓基于统一的SQL语法
【2月更文挑战第9天】阿里云视觉智能开放平台的逻辑数仓基于统一的SQL语法
54 2
|
4月前
|
存储 关系型数据库 MySQL
在阿里云的AnalyticDB MySQL版中使用CREATE TABLE语句来创建内表
在阿里云的AnalyticDB MySQL版中使用CREATE TABLE语句来创建内表【1月更文挑战第16天】【1月更文挑战第78篇】
216 3
|
5月前
|
关系型数据库 MySQL BI
用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享
本文从用友畅捷通公司介绍及业务背景;数据仓库技术选型、实际案例及未来规划等方面,分享了用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓的实战经验。
607 0
用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享
|
8天前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库产品使用合集之阿里云云原生数据仓库AnalyticDB PostgreSQL版的重分布时间主要取决的是什么
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
5月前
电子好书发您分享《阿里云云原生一体化数仓新能力解读》
电子好书发您分享《阿里云云原生一体化数仓新能力解读》
266 2
|
2月前
|
分布式计算 关系型数据库 OLAP
阿里云AnalyticDB基于Flink CDC+Hudi实现多表全增量入湖实践
阿里云AnalyticDB基于Flink CDC+Hudi实现多表全增量入湖实践
82 0
|
4月前
|
SQL Java HIVE
使用 Paimon + StarRocks 极速批流一体湖仓分析
本文整理自阿里云智能高级开发工程师王日宇,在 Flink Forward Asia 2023 流式湖仓(二)专场的分享。
79866 3
使用 Paimon + StarRocks 极速批流一体湖仓分析
|
4月前
|
SQL Serverless OLAP
实战营|阿里云 x StarRocks 邀你现场体验云上极速湖仓--深圳站
1月20日深圳阿里中心,阿里云 x StarRocks 邀你现场体验云上极速湖仓实战营,从 0-1 轻松上手 StarRocks 湖仓分析。
606 0
|
5月前
|
SQL BI Apache
奇富科技基于阿里云数据库 SelectDB 版内核 Apache Doris 的统一 OLAP 场景探索实践
Apache Doris 作为整体 OLAP 场景,助力奇富科技信贷科技服务平台优化,使得报表分析场景 SLA 达标率提升至 99% 以上,平均查询耗时降低 50%,为营销活动、广告投放等提供强有力的数据支持。
奇富科技基于阿里云数据库 SelectDB 版内核 Apache Doris 的统一 OLAP 场景探索实践
|
5月前
电子好书发您分享《阿里云云原生一体化数仓新能力解读》
电子好书发您分享《阿里云云原生一体化数仓新能力解读》
74 1