本文根据 StarRocks Summit 2023 演讲实录整理而成,演讲信息如下:
演讲人:李钰 | 阿里云资深技术专家,阿里云开源大数据平台EMR负责人
阿里云 EMR 和 StarRocks 社区及镜舟的深度合作
大家上午好,我是阿里云 EMR 的负责人李钰。那接下来我先介绍一下阿里云和 StarRocks 的合作情况。其实阿里云 EMR 的团队早在2021年就开始深度的参与 StarRocks 开源社区。一方面,我们和社区一块在线下和线上组织了多次 meetup 和开发者训练营。另一方面,在社区的2.4、2.5版本,还有3.1版本,这三个重大的版本里面,我们都深度参与了研发和发布。
阿里云 EMR 在 StarRocks 社区的主要贡献
具体来说,我们主要聚焦在推动 StarRocks,从 OLAP 分析到湖仓融合的方向上。在2.4这个版本当中,我们主要是深度参与了异步物化视图特性的研发。在2.5版本当中,我们更多聚焦在数据湖查询 DLA 场景的研发上。在3.1版本当中,我们和镜舟科技深度合作,建设了 StarOS,并在社区推出存算分离功能。另外就是面向实时湖仓分析的这个新的方向,我们推出了 Paimon Catalog 的支持。在这整个过程当中,我们一共向社区贡献了超过200个 Patch,也在团队内部培养了一位 TSC 的成员,两位 Committer,还有多位活跃的贡献者,与此同时,我们认为开源和云是一个天然的结合。
阿里云 EMR Serverless StarRocks 产品的核心能力
开源软件给广大的开发者提供了一个非常开放透明、合作共建的一个途径。而云则为用户使用这种软件提供一种非常简单便捷的途径。所以,我们从去年就开始设计和研发了 EMR Serverless StarRocks 这款商业化产品。并且在今年的六月份,正式完成了商业化。到今天为止,大概半年左右的时间,我们已经在阿里云上服务了数百位客户。这款产品,它除了能够提供云原生免运维的能力之外,还在易用性、安全性,还有性能方面,都提供了很多企业级的 feature。
具体来说,一方面我们通过 StarRocks Manager,为我们的用户提供了一个方便管理 StarRocks 实例的方式,还有开发 SQL 作业的一站式平台。同时我们也提供了慢 SQL 分析,还有实例的智能诊断分析能力,从而能够比较大的降低我们的用户使用和运维 StarRocks 的复杂度。
另外我们通过 StarRocks 管控平台,支持快速部署集群,同时具备开箱即用的监控告警能力。另外我们还提供内核多版本的管理和升级能力,从而提供一个比较好的服务等级保障。
另外,在 StarRocks 的核心应用场景上,我们也提供了很多企业级增强的能力。例如,使用 StarRocks 做一站式数仓的相对比较简单的 Data PipeLine 场景下,我们结合 OSS 和 EMR的 JindoCache 缓存的能力,使存算分离在我们的产品里面,具备上生产的可用性。一方面,我们在 MPP ETL 这个场景下,极大提升了落盘的稳定性。从而让 ETL 在我们的商业化产品上可以支持生产的使用。第二个方面,就是在基于数据湖去建设分层数仓的传统的 Data PipeLine 上面,相对比较复杂的 Data PipeLine 上,我们的商业化产品大幅的提升了外表物化视图,还有就是数据湖查询 DLA 的能力,为我们的用户提供了比较高的性价比。第三,在实时数据湖仓的这个方向上,我们主要是深度结合了 Paimon、DLF,通过 Paimon,我们能够极大的提升具体端到端的数据的新鲜度,我们能够把数据新鲜度几十分钟的粒度提升到五到十分钟的粒度。从而带来更好的业务效果。此外,我们结合了 DLF 去做数据的冷热分层,然后通过数据的冷热分层,可以让我们的客户拥有更高的性价比。
阿里云 EMR Serverless StarRocks 产品未来规划
在未来,我们会持续在 StarRocks 社区的合作共建,以及商业化产品上进行大力的投入。
我们将主要聚焦在以下三个方向。第一个方向,我们会继续大力的推动 StarRocks 从 OLAP 场景到湖仓分析融合的场景。开场的时候友东老师介绍,现在 StarRocks 的 Trino 兼容性大概在90%,我们会把它提升至100%。然后,在商业化的产品上,我们会尽量的去提供一个类似 AWS Athena 的产品能力。第二个方向,在存算分离方面,我们会和镜舟科技进一步的深入合作,主要去支撑 onedata,基于 onedata,提供 Virtual Warehouse 能力,在我们的商业化产品上,我们主要会专注于增强资源隔离,还有生产稳定性等能力。 第三个方向,我们会在云原生极致弹性方向做进一步的增强。我们会去加强资源负载,以及成本端到端的可观测性。同时我们也会去借助智能分析能力,去分析客户历史的负载,实现为客户推荐固定和弹性资源占比的更优方案。
以上,就是我今天分享的主要内容。欢迎大家钉钉扫码加入下方用户交流群,可以跟我们做更进一步的交流,谢谢大家。
欢迎钉钉扫码加入EMR Serverless StarRocks交流群(搜索钉钉群号加群:24010016636)