李钰:从 OLAP 到湖仓,阿里云与 StarRocks 的共创共荣

简介: 本文根据 StarRocks Summit 2023 演讲实录整理而成

本文根据 StarRocks Summit 2023 演讲实录整理而成,演讲信息如下:


演讲人:李钰 | 阿里云资深技术专家,阿里云开源大数据平台EMR负责人


阿里云 EMR 和 StarRocks 社区及镜舟的深度合作

大家上午好,我是阿里云 EMR 的负责人李钰。那接下来我先介绍一下阿里云和 StarRocks 的合作情况。其实阿里云 EMR 的团队早在2021年就开始深度的参与 StarRocks 开源社区。一方面,我们和社区一块在线下和线上组织了多次 meetup 和开发者训练营。另一方面,在社区的2.4、2.5版本,还有3.1版本,这三个重大的版本里面,我们都深度参与了研发和发布。




阿里云 EMR 在 StarRocks 社区的主要贡献

具体来说,我们主要聚焦在推动 StarRocks,从 OLAP 分析到湖仓融合的方向上。在2.4这个版本当中,我们主要是深度参与了异步物化视图特性的研发。在2.5版本当中,我们更多聚焦在数据湖查询 DLA 场景的研发上。在3.1版本当中,我们和镜舟科技深度合作,建设了 StarOS,并在社区推出存算分离功能。另外就是面向实时湖仓分析的这个新的方向,我们推出了 Paimon Catalog 的支持。在这整个过程当中,我们一共向社区贡献了超过200个 Patch,也在团队内部培养了一位 TSC 的成员,两位 Committer,还有多位活跃的贡献者,与此同时,我们认为开源和云是一个天然的结合。




阿里云 EMR Serverless StarRocks 产品的核心能力

开源软件给广大的开发者提供了一个非常开放透明、合作共建的一个途径。而云则为用户使用这种软件提供一种非常简单便捷的途径。所以,我们从去年就开始设计和研发了 EMR Serverless StarRocks 这款商业化产品。并且在今年的六月份,正式完成了商业化。到今天为止,大概半年左右的时间,我们已经在阿里云上服务了数百位客户。这款产品,它除了能够提供云原生免运维的能力之外,还在易用性、安全性,还有性能方面,都提供了很多企业级的 feature。



具体来说,一方面我们通过 StarRocks Manager,为我们的用户提供了一个方便管理 StarRocks 实例的方式,还有开发 SQL 作业的一站式平台。同时我们也提供了慢 SQL 分析,还有实例的智能诊断分析能力,从而能够比较大的降低我们的用户使用和运维 StarRocks 的复杂度。


另外我们通过 StarRocks 管控平台,支持快速部署集群,同时具备开箱即用的监控告警能力。另外我们还提供内核多版本的管理和升级能力,从而提供一个比较好的服务等级保障。


另外,在 StarRocks 的核心应用场景上,我们也提供了很多企业级增强的能力。例如,使用 StarRocks 做一站式数仓的相对比较简单的 Data PipeLine 场景下,我们结合 OSS 和 EMR的 JindoCache 缓存的能力,使存算分离在我们的产品里面,具备上生产的可用性。一方面,我们在 MPP ETL 这个场景下,极大提升了落盘的稳定性。从而让 ETL 在我们的商业化产品上可以支持生产的使用。第二个方面,就是在基于数据湖去建设分层数仓的传统的 Data PipeLine 上面,相对比较复杂的 Data PipeLine 上,我们的商业化产品大幅的提升了外表物化视图,还有就是数据湖查询 DLA 的能力,为我们的用户提供了比较高的性价比。第三,在实时数据湖仓的这个方向上,我们主要是深度结合了 Paimon、DLF,通过 Paimon,我们能够极大的提升具体端到端的数据的新鲜度,我们能够把数据新鲜度几十分钟的粒度提升到五到十分钟的粒度。从而带来更好的业务效果。此外,我们结合了 DLF 去做数据的冷热分层,然后通过数据的冷热分层,可以让我们的客户拥有更高的性价比。




阿里云 EMR Serverless StarRocks 产品未来规划

在未来,我们会持续在 StarRocks 社区的合作共建,以及商业化产品上进行大力的投入。


我们将主要聚焦在以下三个方向。第一个方向,我们会继续大力的推动 StarRocks 从 OLAP 场景到湖仓分析融合的场景。开场的时候友东老师介绍,现在 StarRocks 的 Trino 兼容性大概在90%,我们会把它提升至100%。然后,在商业化的产品上,我们会尽量的去提供一个类似 AWS Athena 的产品能力。第二个方向,在存算分离方面,我们会和镜舟科技进一步的深入合作,主要去支撑 onedata,基于 onedata,提供 Virtual Warehouse 能力,在我们的商业化产品上,我们主要会专注于增强资源隔离,还有生产稳定性等能力。 第三个方向,我们会在云原生极致弹性方向做进一步的增强。我们会去加强资源负载,以及成本端到端的可观测性。同时我们也会去借助智能分析能力,去分析客户历史的负载,实现为客户推荐固定和弹性资源占比的更优方案。




以上,就是我今天分享的主要内容。欢迎大家钉钉扫码加入下方用户交流群,可以跟我们做更进一步的交流,谢谢大家。




欢迎钉钉扫码加入EMR Serverless StarRocks交流群(搜索钉钉群号加群:24010016636)

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
7月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
10月前
|
存储 监控 数据挖掘
京东物流基于Flink & StarRocks的湖仓建设实践
本文整理自京东物流高级数据开发工程师梁宝彬在Flink Forward Asia 2024的分享,聚焦实时湖仓的探索与建设、应用实践、问题思考及未来展望。内容涵盖京东物流通过Flink和Paimon等技术构建实时湖仓体系的过程,解决复杂业务场景下的数据分析挑战,如多维OLAP分析、大屏监控等。同时,文章详细介绍了基于StarRocks的湖仓一体方案,优化存储成本并提升查询效率,以及存算分离的应用实践。最后,对未来数据服务的发展方向进行了展望,计划推广长周期数据存储服务和原生数据湖建设,进一步提升数据分析能力。
967 1
京东物流基于Flink & StarRocks的湖仓建设实践
|
4月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
存储 缓存 数据挖掘
StarRocks 原理详解:探索高效 OLAP 的奥秘
StarRocks 是一款高性能分析型数据仓库,采用向量化、MPP架构、CBO等技术,实现多维、实时、高并发的数据分析。它支持从各类数据源高效导入数据,兼容MySQL协议,并具备水平扩展、高可用等特性,广泛应用于实时数仓、OLAP报表等场景。StarRocks 解决了传统数仓在查询性能、数据导入、扩展性和灵活性等方面的挑战,助力企业实现数据驱动的决策。其分布式架构和智能物化视图等功能显著提升了查询效率,适用于大数据生态中的各种复杂需求。
2218 15
|
6月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
5月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
593 0
|
9月前
|
存储 缓存 分布式计算
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
本文将深入探讨基于 StarRocks 和 Iceberg 构建的云原生湖仓分析技术,详细解析两者结合如何实现高效的查询性能优化。内容涵盖 StarRocks Lakehouse 架构、与 Iceberg 的性能协同、最佳实践应用以及未来的发展规划,为您提供全面的技术解读。 作者:杨关锁,北京镜舟科技研发工程师
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
|
7月前
|
存储 人工智能 关系型数据库
从“听指令”到“当参谋”,阿里云AnalyticDB GraphRAG如何让AI开窍
阿里云瑶池旗下的云原生数据仓库 AnalyticDB PostgreSQL 版 GraphRAG 技术,创新融合知识图谱动态推理+向量语义检索,通过实体关系映射与多跳路径优化,构建可应对复杂场景的决策引擎。本文将通过家电故障诊断和医疗预问诊两大高价值场景,解析其如何实现从“被动应答”到“主动决策”的跨越。