李钰:从 OLAP 到湖仓,阿里云与 StarRocks 的共创共荣

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 本文根据 StarRocks Summit 2023 演讲实录整理而成

本文根据 StarRocks Summit 2023 演讲实录整理而成,演讲信息如下:


演讲人:李钰 | 阿里云资深技术专家,阿里云开源大数据平台EMR负责人


阿里云 EMR 和 StarRocks 社区及镜舟的深度合作

大家上午好,我是阿里云 EMR 的负责人李钰。那接下来我先介绍一下阿里云和 StarRocks 的合作情况。其实阿里云 EMR 的团队早在2021年就开始深度的参与 StarRocks 开源社区。一方面,我们和社区一块在线下和线上组织了多次 meetup 和开发者训练营。另一方面,在社区的2.4、2.5版本,还有3.1版本,这三个重大的版本里面,我们都深度参与了研发和发布。




阿里云 EMR 在 StarRocks 社区的主要贡献

具体来说,我们主要聚焦在推动 StarRocks,从 OLAP 分析到湖仓融合的方向上。在2.4这个版本当中,我们主要是深度参与了异步物化视图特性的研发。在2.5版本当中,我们更多聚焦在数据湖查询 DLA 场景的研发上。在3.1版本当中,我们和镜舟科技深度合作,建设了 StarOS,并在社区推出存算分离功能。另外就是面向实时湖仓分析的这个新的方向,我们推出了 Paimon Catalog 的支持。在这整个过程当中,我们一共向社区贡献了超过200个 Patch,也在团队内部培养了一位 TSC 的成员,两位 Committer,还有多位活跃的贡献者,与此同时,我们认为开源和云是一个天然的结合。




阿里云 EMR Serverless StarRocks 产品的核心能力

开源软件给广大的开发者提供了一个非常开放透明、合作共建的一个途径。而云则为用户使用这种软件提供一种非常简单便捷的途径。所以,我们从去年就开始设计和研发了 EMR Serverless StarRocks 这款商业化产品。并且在今年的六月份,正式完成了商业化。到今天为止,大概半年左右的时间,我们已经在阿里云上服务了数百位客户。这款产品,它除了能够提供云原生免运维的能力之外,还在易用性、安全性,还有性能方面,都提供了很多企业级的 feature。



具体来说,一方面我们通过 StarRocks Manager,为我们的用户提供了一个方便管理 StarRocks 实例的方式,还有开发 SQL 作业的一站式平台。同时我们也提供了慢 SQL 分析,还有实例的智能诊断分析能力,从而能够比较大的降低我们的用户使用和运维 StarRocks 的复杂度。


另外我们通过 StarRocks 管控平台,支持快速部署集群,同时具备开箱即用的监控告警能力。另外我们还提供内核多版本的管理和升级能力,从而提供一个比较好的服务等级保障。


另外,在 StarRocks 的核心应用场景上,我们也提供了很多企业级增强的能力。例如,使用 StarRocks 做一站式数仓的相对比较简单的 Data PipeLine 场景下,我们结合 OSS 和 EMR的 JindoCache 缓存的能力,使存算分离在我们的产品里面,具备上生产的可用性。一方面,我们在 MPP ETL 这个场景下,极大提升了落盘的稳定性。从而让 ETL 在我们的商业化产品上可以支持生产的使用。第二个方面,就是在基于数据湖去建设分层数仓的传统的 Data PipeLine 上面,相对比较复杂的 Data PipeLine 上,我们的商业化产品大幅的提升了外表物化视图,还有就是数据湖查询 DLA 的能力,为我们的用户提供了比较高的性价比。第三,在实时数据湖仓的这个方向上,我们主要是深度结合了 Paimon、DLF,通过 Paimon,我们能够极大的提升具体端到端的数据的新鲜度,我们能够把数据新鲜度几十分钟的粒度提升到五到十分钟的粒度。从而带来更好的业务效果。此外,我们结合了 DLF 去做数据的冷热分层,然后通过数据的冷热分层,可以让我们的客户拥有更高的性价比。




阿里云 EMR Serverless StarRocks 产品未来规划

在未来,我们会持续在 StarRocks 社区的合作共建,以及商业化产品上进行大力的投入。


我们将主要聚焦在以下三个方向。第一个方向,我们会继续大力的推动 StarRocks 从 OLAP 场景到湖仓分析融合的场景。开场的时候友东老师介绍,现在 StarRocks 的 Trino 兼容性大概在90%,我们会把它提升至100%。然后,在商业化的产品上,我们会尽量的去提供一个类似 AWS Athena 的产品能力。第二个方向,在存算分离方面,我们会和镜舟科技进一步的深入合作,主要去支撑 onedata,基于 onedata,提供 Virtual Warehouse 能力,在我们的商业化产品上,我们主要会专注于增强资源隔离,还有生产稳定性等能力。 第三个方向,我们会在云原生极致弹性方向做进一步的增强。我们会去加强资源负载,以及成本端到端的可观测性。同时我们也会去借助智能分析能力,去分析客户历史的负载,实现为客户推荐固定和弹性资源占比的更优方案。




以上,就是我今天分享的主要内容。欢迎大家钉钉扫码加入下方用户交流群,可以跟我们做更进一步的交流,谢谢大家。




欢迎钉钉扫码加入EMR Serverless StarRocks交流群(搜索钉钉群号加群:24010016636)

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
1月前
|
SQL 流计算 关系型数据库
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上,提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据,提供湖仓数据表和文件的安全访问及IO加速,并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎,通过流式数据湖仓Paimon(使用DLF 2.0存储)和EMR StarRocks搭建流式湖仓。
363 4
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
|
1月前
|
消息中间件 人工智能 监控
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
本文由喜马拉雅直播业务与仓库建设负责人王琛撰写,介绍了喜马拉雅直播业务的数据仓库架构迭代升级。文章重点分享了基于 Flink + Paimon + StarRocks 实现实时湖仓的架构及其成效,通过分钟级别的收入监控、实时榜单生成、流量监测和盈亏预警,大幅提升了运营效率与决策质量,并为未来的业务扩展和 AI 项目打下坚实基础。
218 5
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
|
1月前
|
数据采集 运维 DataWorks
DataWorks on EMR StarRocks,打造标准湖仓新范式
本文整理自阿里云计算平台产品专家周硕(簌篱)在阿里云DataWorks on EMR StarRocks解决方案介绍中的分享。介绍了阿里云DataWorks与EMR Serverless StarRocks的结合使用,详细阐述了在数据同步、数据消费、数据治理三大场景中的核心能力。DataWorks作为大数据开发治理平台,提供了从数据建模、数据集成、数据开发到数据治理的全链路解决方案,结合StarRocks的高性能分析能力,帮助企业实现OLAP分析、湖仓一体开发及数据综合治理,满足复杂业务场景下的需求,提升数据处理和分析效率。
80 4
|
2月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
3月前
|
存储 数据采集 OLAP
饿了么基于Flink+Paimon+StarRocks的实时湖仓探索
饿了么的实时数仓经历了多个阶段的演进。初期通过实时ETL、报表应用、联动及监控构建基础架构,随后形成了涵盖数据采集、加工和服务的整体数据架构。1.0版本通过日志和Binlog采集数据,但在研发效率和数据一致性方面存在问题。2.0版本通过Dataphin构建流批一体化系统,提升了数据一致性和研发效率,但仍面临新业务适应性等问题。最终,饿了么选择Paimon和StarRocks作为实时湖仓方案,显著降低了存储成本并提高了系统稳定性。未来,将进一步优化带宽瓶颈、小文件问题及权限控制,实现更多场景的应用。
434 7
饿了么基于Flink+Paimon+StarRocks的实时湖仓探索
|
2月前
|
人工智能 分布式计算 数据管理
阿里云位居 IDC MarketScape 中国实时湖仓评估领导者类别
国际数据公司( IDC )首次发布了《IDC MarketScape: 中国实时湖仓市场 2024 年厂商评估》,阿里云在首次报告发布即位居领导者类别。
|
2月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
248 0
|
3月前
|
存储 机器学习/深度学习 监控
阿里云 Hologres OLAP 解决方案评测
随着大数据时代的到来,企业面临着海量数据的挑战,如何高效地进行数据分析和决策变得尤为重要。阿里云推出的 Hologres OLAP(在线分析处理)解决方案,旨在为用户提供快速、高效的数据分析能力。本文将深入探讨 Hologres OLAP 的特点、优势以及应用场景,并针对方案的技术细节、部署指导、代码示例和数据分析需求进行评测。
139 7
|
3月前
|
运维 数据挖掘 OLAP
阿里云Hologres:一站式轻量级OLAP分析平台的全面评测
在数据驱动决策的今天,企业对高效、灵活的数据分析平台的需求日益增长。阿里云的Hologres,作为一站式实时数仓引擎,提供了强大的OLAP(在线分析处理)分析能力。本文将对Hologres进行深入评测,探讨其在多源集成、性能、易用性以及成本效益方面的表现。
171 7
|
4月前
|
分布式计算 安全 OLAP
7倍性能提升|阿里云AnalyticDB Spark向量化能力解析
AnalyticDB Spark如何通过向量化引擎提升性能?