李钰:从 OLAP 到湖仓,阿里云与 StarRocks 的共创共荣

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 本文根据 StarRocks Summit 2023 演讲实录整理而成

本文根据 StarRocks Summit 2023 演讲实录整理而成,演讲信息如下:


演讲人:李钰 | 阿里云资深技术专家,阿里云开源大数据平台EMR负责人


阿里云 EMR 和 StarRocks 社区及镜舟的深度合作

大家上午好,我是阿里云 EMR 的负责人李钰。那接下来我先介绍一下阿里云和 StarRocks 的合作情况。其实阿里云 EMR 的团队早在2021年就开始深度的参与 StarRocks 开源社区。一方面,我们和社区一块在线下和线上组织了多次 meetup 和开发者训练营。另一方面,在社区的2.4、2.5版本,还有3.1版本,这三个重大的版本里面,我们都深度参与了研发和发布。




阿里云 EMR 在 StarRocks 社区的主要贡献

具体来说,我们主要聚焦在推动 StarRocks,从 OLAP 分析到湖仓融合的方向上。在2.4这个版本当中,我们主要是深度参与了异步物化视图特性的研发。在2.5版本当中,我们更多聚焦在数据湖查询 DLA 场景的研发上。在3.1版本当中,我们和镜舟科技深度合作,建设了 StarOS,并在社区推出存算分离功能。另外就是面向实时湖仓分析的这个新的方向,我们推出了 Paimon Catalog 的支持。在这整个过程当中,我们一共向社区贡献了超过200个 Patch,也在团队内部培养了一位 TSC 的成员,两位 Committer,还有多位活跃的贡献者,与此同时,我们认为开源和云是一个天然的结合。




阿里云 EMR Serverless StarRocks 产品的核心能力

开源软件给广大的开发者提供了一个非常开放透明、合作共建的一个途径。而云则为用户使用这种软件提供一种非常简单便捷的途径。所以,我们从去年就开始设计和研发了 EMR Serverless StarRocks 这款商业化产品。并且在今年的六月份,正式完成了商业化。到今天为止,大概半年左右的时间,我们已经在阿里云上服务了数百位客户。这款产品,它除了能够提供云原生免运维的能力之外,还在易用性、安全性,还有性能方面,都提供了很多企业级的 feature。



具体来说,一方面我们通过 StarRocks Manager,为我们的用户提供了一个方便管理 StarRocks 实例的方式,还有开发 SQL 作业的一站式平台。同时我们也提供了慢 SQL 分析,还有实例的智能诊断分析能力,从而能够比较大的降低我们的用户使用和运维 StarRocks 的复杂度。


另外我们通过 StarRocks 管控平台,支持快速部署集群,同时具备开箱即用的监控告警能力。另外我们还提供内核多版本的管理和升级能力,从而提供一个比较好的服务等级保障。


另外,在 StarRocks 的核心应用场景上,我们也提供了很多企业级增强的能力。例如,使用 StarRocks 做一站式数仓的相对比较简单的 Data PipeLine 场景下,我们结合 OSS 和 EMR的 JindoCache 缓存的能力,使存算分离在我们的产品里面,具备上生产的可用性。一方面,我们在 MPP ETL 这个场景下,极大提升了落盘的稳定性。从而让 ETL 在我们的商业化产品上可以支持生产的使用。第二个方面,就是在基于数据湖去建设分层数仓的传统的 Data PipeLine 上面,相对比较复杂的 Data PipeLine 上,我们的商业化产品大幅的提升了外表物化视图,还有就是数据湖查询 DLA 的能力,为我们的用户提供了比较高的性价比。第三,在实时数据湖仓的这个方向上,我们主要是深度结合了 Paimon、DLF,通过 Paimon,我们能够极大的提升具体端到端的数据的新鲜度,我们能够把数据新鲜度几十分钟的粒度提升到五到十分钟的粒度。从而带来更好的业务效果。此外,我们结合了 DLF 去做数据的冷热分层,然后通过数据的冷热分层,可以让我们的客户拥有更高的性价比。




阿里云 EMR Serverless StarRocks 产品未来规划

在未来,我们会持续在 StarRocks 社区的合作共建,以及商业化产品上进行大力的投入。


我们将主要聚焦在以下三个方向。第一个方向,我们会继续大力的推动 StarRocks 从 OLAP 场景到湖仓分析融合的场景。开场的时候友东老师介绍,现在 StarRocks 的 Trino 兼容性大概在90%,我们会把它提升至100%。然后,在商业化的产品上,我们会尽量的去提供一个类似 AWS Athena 的产品能力。第二个方向,在存算分离方面,我们会和镜舟科技进一步的深入合作,主要去支撑 onedata,基于 onedata,提供 Virtual Warehouse 能力,在我们的商业化产品上,我们主要会专注于增强资源隔离,还有生产稳定性等能力。 第三个方向,我们会在云原生极致弹性方向做进一步的增强。我们会去加强资源负载,以及成本端到端的可观测性。同时我们也会去借助智能分析能力,去分析客户历史的负载,实现为客户推荐固定和弹性资源占比的更优方案。




以上,就是我今天分享的主要内容。欢迎大家钉钉扫码加入下方用户交流群,可以跟我们做更进一步的交流,谢谢大家。




欢迎钉钉扫码加入EMR Serverless StarRocks交流群(搜索钉钉群号加群:24010016636)

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
1月前
|
存储 监控 数据挖掘
京东物流基于Flink & StarRocks的湖仓建设实践
本文整理自京东物流高级数据开发工程师梁宝彬在Flink Forward Asia 2024的分享,聚焦实时湖仓的探索与建设、应用实践、问题思考及未来展望。内容涵盖京东物流通过Flink和Paimon等技术构建实时湖仓体系的过程,解决复杂业务场景下的数据分析挑战,如多维OLAP分析、大屏监控等。同时,文章详细介绍了基于StarRocks的湖仓一体方案,优化存储成本并提升查询效率,以及存算分离的应用实践。最后,对未来数据服务的发展方向进行了展望,计划推广长周期数据存储服务和原生数据湖建设,进一步提升数据分析能力。
157 1
京东物流基于Flink & StarRocks的湖仓建设实践
|
4月前
|
存储 缓存 数据挖掘
StarRocks 原理详解:探索高效 OLAP 的奥秘
StarRocks 是一款高性能分析型数据仓库,采用向量化、MPP架构、CBO等技术,实现多维、实时、高并发的数据分析。它支持从各类数据源高效导入数据,兼容MySQL协议,并具备水平扩展、高可用等特性,广泛应用于实时数仓、OLAP报表等场景。StarRocks 解决了传统数仓在查询性能、数据导入、扩展性和灵活性等方面的挑战,助力企业实现数据驱动的决策。其分布式架构和智能物化视图等功能显著提升了查询效率,适用于大数据生态中的各种复杂需求。
759 15
|
1天前
|
SQL 关系型数据库 MySQL
客户说|保险极客引入阿里云AnalyticDB,多业务场景效率大幅提升
“通过引入AnalyticDB,我们在复杂数据查询和实时同步方面取得了显著突破,其分布式、弹性与云计算的优势得以充分体现,帮助企业快速响应业务变化,实现降本增效。AnalyticDB的卓越表现保障了保险极客数据服务的品质和效率。”
|
3月前
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
385 58
|
3月前
|
SQL 存储 OLAP
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
|
5月前
|
SQL 存储 缓存
EMR Serverless StarRocks 全面升级:重新定义实时湖仓分析
本文介绍了EMR Serverless StarRocks的发展路径及其架构演进。首先回顾了Serverless Spark在EMR中的发展,并指出2021年9月StarRocks开源后,OLAP引擎迅速向其靠拢。随后,EMR引入StarRocks并推出全托管产品,至2023年8月商业化,已有500家客户使用,覆盖20多个行业。 文章重点阐述了EMR Serverless StarRocks 1.0的存算一体架构,包括健康诊断、SQL调优和物化视图等核心功能。接着分析了存算一体架构的挑战,如湖访问不优雅、资源隔离不足及冷热数据分层困难等。
|
6月前
|
SQL 流计算 关系型数据库
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上,提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据,提供湖仓数据表和文件的安全访问及IO加速,并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎,通过流式数据湖仓Paimon(使用DLF 2.0存储)和EMR StarRocks搭建流式湖仓。
754 5
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
|
6月前
|
消息中间件 人工智能 监控
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
本文由喜马拉雅直播业务与仓库建设负责人王琛撰写,介绍了喜马拉雅直播业务的数据仓库架构迭代升级。文章重点分享了基于 Flink + Paimon + StarRocks 实现实时湖仓的架构及其成效,通过分钟级别的收入监控、实时榜单生成、流量监测和盈亏预警,大幅提升了运营效率与决策质量,并为未来的业务扩展和 AI 项目打下坚实基础。
396 5
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
|
6月前
|
数据采集 运维 DataWorks
DataWorks on EMR StarRocks,打造标准湖仓新范式
本文整理自阿里云计算平台产品专家周硕(簌篱)在阿里云DataWorks on EMR StarRocks解决方案介绍中的分享。介绍了阿里云DataWorks与EMR Serverless StarRocks的结合使用,详细阐述了在数据同步、数据消费、数据治理三大场景中的核心能力。DataWorks作为大数据开发治理平台,提供了从数据建模、数据集成、数据开发到数据治理的全链路解决方案,结合StarRocks的高性能分析能力,帮助企业实现OLAP分析、湖仓一体开发及数据综合治理,满足复杂业务场景下的需求,提升数据处理和分析效率。
|
8月前
|
存储 数据采集 OLAP
饿了么基于Flink+Paimon+StarRocks的实时湖仓探索
饿了么的实时数仓经历了多个阶段的演进。初期通过实时ETL、报表应用、联动及监控构建基础架构,随后形成了涵盖数据采集、加工和服务的整体数据架构。1.0版本通过日志和Binlog采集数据,但在研发效率和数据一致性方面存在问题。2.0版本通过Dataphin构建流批一体化系统,提升了数据一致性和研发效率,但仍面临新业务适应性等问题。最终,饿了么选择Paimon和StarRocks作为实时湖仓方案,显著降低了存储成本并提高了系统稳定性。未来,将进一步优化带宽瓶颈、小文件问题及权限控制,实现更多场景的应用。
737 7
饿了么基于Flink+Paimon+StarRocks的实时湖仓探索