StarRocks 4.0:Real-Time Intelligence on Lakehouse

简介: 全面解析 4.0 的核心特性,文末还有 1024 特别福利等你来领 🎁

1.PNG

回顾 StarRocks 的进化之路,每一次大版本迭代都紧扣时代对数据分析的核心诉求。

  • StarRocks 1.x,打造极速查询性能,解决 BI 报表、数据探寻慢的痛点问题。
  • StarRocks 2.x,解决‘实时分析’的难题,帮助用户更快的洞察业务。
  • StarRocks 3.x,升级存算分离架构,打造极速统一的湖仓分析能力,让数据分析更加的简单高效。

在新的 AI 时代,模型训练推理与 AI Agent 构建对数据平台提出新挑战;数据新鲜度要求更实时,查询延时与并发要求更高、数据处理效率与性价比要求更高,StarRocks 4.x 大版本将以 Real-Time Intelligence on Lakehouse 为核心,打造 Agent-ready 的数据分析引擎。

实时分析更高效

StarRocks 3.x 在存算分离架构下,基于低成本的对象存储构建实时分析能力,相比存算一体的方案在存储成本上有了数量级的下降。对象存储存储成本低,但有额外的 API 调用成本,尤其是在实时场景,高并发小批量的写入会导致极高的 API 调用成本,为了进一步提升实时分析的效率/性价比,StarRocks 4.0 对实时链路进行了端到端优化:

  • File Bundle:将多个小文件打包合并为大文件,减少写放大,显著降低 API 调用次数;
  • 元数据缓存:元数据优先从 BE 缓存读取,避免频繁访问 S3;
  • Compaction 策略优化:在保持数据整洁的同时,避免过度消耗资源。

得益于这些改进,StarRocks 4.0 在实时导入与查询场景中表现更为出色。相比 3.3 版本,API 调用减少 70%–90%,导入与查询延迟几乎无变化,部分场景甚至更快。


极速分析再进化

StarRocks 一直以卓越的性能表现闻名,StarRocks 4.0 将性能优势进一步扩大,并覆盖更多数据分析场景。

算子性能持续优化

StarRocks 4.0 针对 Join、聚合、去重、溢出处理等核心算子进行了深度优化。

  • 优化覆盖内表和外表,无论数据存储在何处,都能获得同样的加速体验。

半结构化数据性能飞跃

在实时分析场景中,日志、点击流、埋点、用户画像等数据几乎无处不在。这些数据通常以 JSON 格式存储,结构灵活,却也给查询和分析带来挑战。传统做法往往需要先经过复杂的 ETL,将 JSON 拉平成宽表,不仅耗时、也削弱了 JSON 的灵活性与可扩展性。

StarRocks 4.0 更进一步:正式将 JSON 升级为一等数据类型,并在执行层面加入了一系列深度优化,如索引、全局字典、延迟物化及谓词下推。让 JSON 可以享受和结构化列同样的加速手段:相比 3.5 版本,StarRocks 4.0 在 JSON 查询上的性能提升 3–15 倍。

更重要的是,用户无需修改原有数据管道:只需将 JSON 数据直接导入 StarRocks,即可通过原生 SQL 与 JSON 函数进行查询。底层的存储与执行优化将自动生效,带来接近列式存储的查询性能。这意味着你可以在 StarRocks 上直接进行 JSON 的实时分析——无论是日志监控、用户行为分析、点击流还是运营监控,JSON 数据分析不再是性能瓶颈。

查询性能可预测

在真实的生产环境中,数据分布会不断变化,集群也可能因为扩缩容或节点重启而波动,这些都会导致优化器生成不同的执行计划,从而引发查询性能的不稳定。

为此,StarRocks 4.0 引入了 SQL Plan Manager。它能够将查询与执行计划绑定,在相同的 SQL 下尽量保持一致的执行路径。即使底层数据更新,或者集群发生节点故障、升级重启,查询也能维持稳定的性能表现。

在报表平台、用户画像分析、金融风控等对 SLA 要求极高的场景中,SQL Plan Manager 能有效降低因执行计划变化带来的性能波动,让查询结果更稳定、可预测。

拓展更多严苛场景

在金融、支付、Web3、IoT 等场景中,数据的精度、一致性与时间序列分析能力往往决定了业务的可靠性和决策的准确度。相比常规分析任务,这些场景对系统提出了更高要求:既要保证数据处理的“快”,又要确保计算的“准”。

为此,StarRocks 4.0 新增并强化了三项关键能力:

  • Decimal256 高精度计算:提供更大数值范围和更高精度,满足货币结算、交易对账、风控分析等对精确度要求极高的场景。
  • 多语句事务(Multi-Statement Transaction):在一定条件下拓宽事务支持范畴,支持 BEGIN / COMMIT / ROLLBACK 显式控制,允许跨表 INSERT、DELETE、UPDATE,保证原子性和一致性。减少额外数据一致性协调,从而让后续分析更快、更可靠。
  • ASOF JOIN:针对时序和区间型数据的连接场景,支持基于时间戳或序列号的“最近匹配”。无论是金融市场中对齐行情与成交量,还是 IoT 场景下对齐多源传感器数据,都能高效完成。

借助这三项能力,StarRocks 在金融级精度、事务一致性、时序分析领域实现了体系化增强,为更多关键业务场景提供实时分析的新可能。

湖仓原生分析

自 2.0 起,StarRocks 就支持直接查询外部表,并在此后持续进行了大量引擎级优化。但现实是,数据湖往往是“杂乱”未经治理的——文件并非为查询而组织,再强大的引擎也难以在“脏湖”中创造奇迹。

StarRocks 4.0 大版本将实现湖仓原生分析 ——将 StarRocks 多年来在数仓场景积累的优化经验,应用到开放格式之上,让用户基于 Iceberg 构建湖仓像使用 StarRocks 内表一样简单。在使用内表时,用户无需关注文件布局或统计信息,数据写入即可查询;而如今,这种“写入即查询”的体验,同样适用于 Iceberg 等开放格式。

文件层面:写入即查询

StarRocks 4.0 对文件写入与管理进行了全面增强,不仅提升了写入性能,也让写入的数据天然适合高效查询。

主要优化包括三方面:

  • 能力补全:全面支持 Iceberg Hidden Partition 表的创建与写入,支持建表时设置排序键
  • 写入性能提升
    全局 Shuffle 避免产生小文件
    Spill 写入提升大规模导入的内存效率
    Local Sort 生成更利于查询的文件
  • 文件主动治理:提供 Compaction API,用户可以根据业务需要随时合并文件,保持数据高效可查

查询层面:稳定与加速

数据湖表往往庞大且松散,统计信息难以获取,且一旦数据更新便容易过期。为此,4.0 在查询路径上持续升级:

  • 优化器增强:即使在缺少统计信息的情况下,也能做出合理假设,生成具备成本效益的执行计划
  • 统计信息优化:更快、更轻量地收集统计信息
  • 元数据刷新优化:优化刷新策略,提升元数据新鲜度

基于这些优化,StarRocks 4.0 为数据湖查询构建了多级加速体系:

在文件层,实现数据 “一次写入,即刻可查”;在查询层,从更新鲜的统计信息到更智能的算子与缓存系统,确保查询更快、更稳定;在需要亚秒级延迟与高并发的场景下,物化视图则提供额外加速能力,同时保持单一数据源,不增加任何额外数据管道。

企业级安全

当然,这一切的前提是安全。StarRocks 4.0 在 Iceberg REST Catalog 中引入 JWT Session Catalog,并全面支持 AWS、GCP、Azure 的临时凭证机制

这意味着用户信息可以完整传递至 Catalog 侧进行统一鉴权,存储凭证也无需反复配置。用户不仅能获得极致的访问速度,更能享有企业级的安全保障

展望未来

StarRocks 4.0 是 Real-Time Intelligent on Lakehouse 的新起点,StarRocks 4.x 系列版本将继续深化核心能力,打造 Agent-ready 的数据分析引擎。接下来,StarRocks 社区将重点聚焦:

  • Fast Query:极速统一是 StarRocks 持续发展的主线,为多样化的场景提供稳定、可预期的极速查询性能。
  • Fast Delivery:Lakehouse 架构是 AI 时代的数据基座,StarRocks 持续优化 Lakehouse 构建、治理与分析的能力,让数据到业务价值的交付变得更加高效。
  • AI Assitant:将 AI 工具融入数据库生态,帮助用户更好的使用 StarRocks。例如提供更智能的建表、分区与查询优化建议简化建模,提供自然语言接口简化分析师的数据洞察。
  • Agent Ready:面向大模型与智能 Agent 的新形态应用,持续优化实时分析、数据处理效率、向量/文本等多维检索的能力等,以满足 AI Agent 对实时性、可扩展性和语义检索的需求。

更详细的 feature 介绍参考:

Release Notes:https://docs.mirrorship.cn/zh/releasenotes/release-4.0/

下载:https://www.mirrorship.cn/zh-CN/download/starrocks

相关文章
|
4月前
|
存储 SQL 缓存
|
Java Linux API
flink入门-流处理
flink入门-流处理
1125 0
|
5月前
|
人工智能 监控 安全
提效40%?揭秘AI驱动的支付方式“一键接入”系统
本项目构建AI驱动的研发提效系统,通过Qwen Coder与MCP工具链协同,实现跨境支付渠道接入的自动化闭环。采用多智能体协作模式,结合结构化Prompt、任务拆解、流程管控与安全约束,显著提升研发效率与交付质量,探索大模型在复杂业务场景下的高采纳率编码实践。
675 26
提效40%?揭秘AI驱动的支付方式“一键接入”系统
|
4月前
|
存储 安全 Apache
StarRocks 4.0:基于 Apache Iceberg 的 Catalog 中心化访问控制
StarRocks 4.0 已正式发布!这一版本带来了多项关键升级。接下来,我们将以每周一篇的节奏,逐一解析 4.0 的核心新特性。 在多引擎协同访问同一数据湖的场景下,如何实现安全、统一且可审计的权限管理,是 Lakehouse 架构演进中的一项关键挑战。StarRocks 4.0 联合 Apache Iceberg,借助 REST Catalog 的统一治理能力与 JWT 身份认证、临时凭证机制(Vended Credential),为多引擎湖仓架构提供了一种全新的安全访问方式。
|
5月前
|
存储 运维 分布式计算
零售数据湖的进化之路:滔搏从Lambda架构到阿里云Flink+Paimon统一架构的实战实践
在数字化浪潮席卷全球的今天,传统零售企业面临着前所未有的技术挑战和转型压力。本文整理自 Flink Forward Asia 2025 城市巡回上海站,滔搏技术负责人分享了滔搏从传统 Lambda 架构向阿里云实时计算 Flink 版+Paimon 统一架构转型的完整实战历程。这不仅是一次技术架构的重大升级,更是中国零售企业拥抱实时数据湖仓一体化的典型案例。
406 0
|
5月前
|
存储 SQL 消息中间件
从 ClickHouse 到 StarRocks 存算分离: 携程 UBT 架构升级实践
查询性能实现从秒级到毫秒级的跨越式提升
|
6月前
|
存储 人工智能 数据挖掘
StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来
StarRocks Connect 2025 聚焦“连接”,汇聚全球技术领袖,探讨数据分析的现在与未来。从性能引擎到AI Native平台,StarRocks 持续进化,赋能 Shopee、携程、Cisco 等企业实现高效实时分析,并推动开源生态与商业化协同发展。
|
6月前
|
存储 分布式计算 数据库
数据湖技术选型指南:Iceberg vs Delta Lake vs Paimon
对比当前最主流的三种开源湖格式:Iceberg、Delta Lake 和 Paimon,深入分析它们的差异,帮助大家更好地进行技术选型。
1320 4
|
10月前
|
存储 缓存 分布式计算
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
本文将深入探讨基于 StarRocks 和 Iceberg 构建的云原生湖仓分析技术,详细解析两者结合如何实现高效的查询性能优化。内容涵盖 StarRocks Lakehouse 架构、与 Iceberg 的性能协同、最佳实践应用以及未来的发展规划,为您提供全面的技术解读。 作者:杨关锁,北京镜舟科技研发工程师
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
|
4月前
|
存储 JSON 数据库
StarRocks 4.0:FlatJSON,让 JSON 查询像列存一样高效
StarRocks 4.0 已正式发布!这一版本带来了多项关键升级。本篇聚焦 JSON 查询性能的系统性提升——通过全新的 FlatJSON 列式存储与执行优化机制,StarRocks 4.0 让 JSON 在实时分析场景中具备接近原生列存的性能。