Apache Doris 登顶 RTABench —— 实时分析领域的性能王者

本文涉及的产品
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
简介: Apache Doris 在最新 RTABench 实时分析榜单中登顶,性能达 ClickHouse 的6倍、PostgreSQL 的30倍、MongoDB 的100倍。依托 MPP 架构、列式存储、Pipeline 引擎与智能优化器,Doris 在多表关联、实时查询等场景表现卓越,成为实时分析新标杆。

近日,实时分析领域知名 Benchmark —— RTABench(Real-Time Analytics Benchmark) 最新榜单公布,Apache Doris 以绝对领先的成绩登顶,结果表明,Apache Doris 在实时分析场景下性能是 ClickHouse 的 6 倍,PostgresSQL 的 30 倍,MongoDB 的 100 倍

Real-Time Analytics Benchmark.png

什么是 RTABench?

RTABench 是一套专为实时分析(Real-Time Analytics)场景设计的开源数据库性能基准测试工具(Benchmark)。它基于 Clickbench 框架开发,通过引入更贴合真实业务的数据模型与查询集,有效弥补了传统基准测试工具在 “实时性测试” 维度的不足,为实时分析类数据库的性能评估提供了更具参考价值的标准。

01 归一化多表数据库模型

不同于传统基准工具的 “单表设计”,RTABench 模拟电子商务场景中的订单追踪系统,构建了更贴近实际应用的多表关联结构,具体包含 5 张核心表:

  • customers(用户表)
  • products(商品表)
  • orders(订单主表)
  • order_items(订单明细表)
  • order_events(订单状态事件表)

这种结构能更真实地复现业务系统中 “跨表关联查询” 的高频场景,避免单表设计对实时数据库性能评估的偏差。

02 规模适中的真实数据集

RTABench 提供的数据集兼顾 “真实性” 与 “可执行性”,具体规模如下:

  • 订单状态事件记录:约 1.71 亿条(核心高频数据)
  • 用户数:1102 位
  • 商品数:9255 件
  • 订单数:约 1001 万个

该规模既能支撑对数据库 “实时处理能力” 的有效测试,又不会因数据量过大导致测试成本过高或扩展困难。

03 查询类型与场景模拟

RTABench 提供 31 条代表性查询,全面覆盖实时分析场景中的典型查询模式,具体可分为四类:

查询类型与场景模拟.png

通过这些查询,能够清晰对比出不同数据库在“灵活性”(如原始查询适配度)与 “性能”(如预聚合响应速度)上的表现,更精准地匹配实时业务需求。

04 数据库系统分类

RTABench 针对不同类型的数据库进行分类测试,覆盖实时分析场景的主流技术选型,具体包括三大类:

  • 通用型数据库(General-Purpose):如 PostgreSQL、MySQL(用于对比实时场景下的通用数据库表现);
  • 实时分析型数据库(Real-Time Analytics):如 TimescaleDB、ClickHouse、Apache Doris(核心测试对象,聚焦实时性能评估);
  • 批处理分析型数据库(Batch Analytics):如 DuckDB(仅作为对照组,非实时场景的核心关注对象)。

Apache Doris 领跑全场,性能优势明显

01 性能对比

在最新榜单中,Apache Doris 表现惊艳:

Doris(c6a.4xlarge,500GB gp2)查询性能得分仅为 ×1.28,在此项指标上位列第一,其性能接近排名第二的 TimescaleDB 的 4 倍,ClickHouse 的 6 倍,PostgresSQL 的 30 倍,MongoDB 的 100 倍。

02 固定机型下的竞争

固定机型下的竞争.png

在 c6a.4xlarge 的同机型条件下,与部分传统数据库相比,Apache Doris 展现出数十倍的性能优势。即使与近年来在实时分析数据库领域大热的 ClickHouse 相比,Doris 同样拥有数倍的性能领先。

固定机型下的竞争-2.png

性能领先背后的秘密

Apache Doris 能够在 RTABench 中脱颖而出,并非偶然,而是源于其在执行引擎与优化器方面的持续创新与深度优化:

  1. MPP 架构与列式存储 Doris 采用大规模并行处理(MPP)架构,结合列式存储和高效压缩算法,从而确保计算任务充分分布且并行执行。在查询过程中,仅需读取相关列,极大降低了 I/O 开销,为大规模数据的实时分析提供了坚实基础。
  2. Pipeline 引擎 Doris 使用 Pipeline 将查询分解为多个子任务并行执行,充分利用多核 CPU 的能力。
    1. 通过限制查询线程数,有效解决了传统执行模式下线程膨胀的问题;
    2. 减少数据拷贝与共享,降低了系统开销;
    3. 针对排序、聚合等核心操作进行深度优化,大幅提升查询效率和整体吞吐量。
  3. 向量化执行 Doris 支持批量处理数据(向量化执行),充分利用现代 CPU 指令集,减少函数调用开销。与 Pipeline 执行引擎配合,进一步提升了复杂分析查询的响应速度。
  4. 智能优化器(CBO + RBO) Doris 的优化器融合了 RBO(基于规则)、CBO(基于代价)的多重策略,多层次优化策略确保 Doris 在各种复杂查询场景下,都能生成性能最优的执行计划。

正是凭借这些组合,Apache Doris 在 RTABench 的实时分析测试中,取得了远超 TimescaleDB、ClickHouse、MongoDB、PostgreSQL 等数据库的成绩,登顶榜首。

实时分析的新王者

在 RTABench 的测试场景下,Apache Doris 证明了自己是实时分析领域最值得信赖的数据库之一

  • 兼顾多表关联与单表点查;
  • 保持卓越的查询性能;
  • 面向大规模实时数据的处理游刃有余。

无论是初创团队还是大型企业,Apache Doris 都能帮助业务在 毫秒级洞察 中抢占先机。

推荐阅读

目录
相关文章
|
3月前
|
关系型数据库 MySQL BI
为什么实时更新场景下 Doris 查询性能是 ClickHouse 的 34 倍
企业数据分析能力从TP系统起步,随业务发展历经扩展优化,最终走向AP系统独立建设。Apache Doris凭借高并发、低延迟、实时更新与强查询性能,成为实时分析架构升级的理想选择,助力网易云音乐、快手、拉卡拉等企业实现性能倍增与成本优化。
273 12
为什么实时更新场景下 Doris 查询性能是 ClickHouse 的 34 倍
|
11天前
|
存储 人工智能 Cloud Native
上市大模型企业数据基础设施的选择:MiniMax 基于阿里云 SelectDB 版,打造全球统一AI可观测中台
MiniMax 作为上市大模型企业,基于阿里云 SelectDB 打造 AI 可观测中台,实现“一个平台,全球覆盖”。这一成功实践足以表明:SelectDB 能够很好满足 AI 时代海量数据实时处理与分析的需求,为同样需求的 AI 大模型企业提供了一个高性能、低成本的可靠技术解决方案。
101 5
上市大模型企业数据基础设施的选择:MiniMax 基于阿里云 SelectDB 版,打造全球统一AI可观测中台
|
26天前
|
SQL 存储 运维
从 Greenplum 到 Doris:集群缩减 2/3、年省数百万,度小满构建超大规模数据分析平台经验
面对日益增长的业务体量与复杂多变的分析需求,选用一个高效、可靠的数据库系统,已成为支撑业务稳健发展与快速创新的关键。Apache Doris 以其出色的性能表现与高度灵活的架构,成为众多场景下的优选方案,详情阅读原文。
134 1
从 Greenplum 到 Doris:集群缩减 2/3、年省数百万,度小满构建超大规模数据分析平台经验
|
17天前
|
SQL 存储 人工智能
AI 能力揭秘(五):Apache Doris 原生向量检索的设计及实现
随着大模型和多模态 AI 的快速发展,向量已成为文本、图像、音视频等多元数据的通用语义表示。在这种背景下,检索增强生成(RAG)技术成为连接私有知识与大模型的核心桥梁,而高效的向量检索则是其关键支柱。 与将向量检索视为独立外挂服务的方案不同,Apache Doris 4.0 选择将向量检索能力深度集成于其 MPP 分析型数据库内核。实现向量检索与 SQL 计算、实时分析和事务保障的无缝融合。 本文旨在深入剖析 Doris 向量检索的系统级设计与工程实践,展示其如何在性能、易用性与规模扩展之间取得的平衡。
171 0
AI 能力揭秘(五):Apache Doris 原生向量检索的设计及实现
|
3月前
|
存储 消息中间件 关系型数据库
Apache Doris 数据导入原理与性能优化 | Deep Dive
Apache Doris 数据导入机制基于分布式架构,通过 FE 与 BE 协同实现高效、可靠的数据写入。本文深入解析其核心流程、事务管理与性能瓶颈,涵盖 Stream Load、Broker Load 等多种导入方式,重点剖析 MemTable 前移、存算分离优化等关键技术,并提供表结构设计、攒批策略、分桶配置等实战优化方案,帮助用户在延迟与吞吐间取得平衡,显著提升数据导入效率。
538 4
Apache Doris 数据导入原理与性能优化 | Deep Dive
|
3月前
|
存储 JSON 搜索推荐
深入理解 Doris Variant:如何让 JSON 查询性能追平列存,还能承载万列索引字段?|Deep Dive
在如 Snowflake、ElasticSearch、ClickHouse.... 等传统系统中,对于 JSON 的处理往往面临灵活性及性能无法兼得的困境,而 Apache Doris 的 VARIANT 类型,通过动态子列、稀疏列存储、延迟物化和路径索引等能力,实现了灵活结构 + 列存性能的平衡。本文将对该能力的实现一一讲解,全面展示其优势。
146 7
深入理解 Doris Variant:如何让 JSON 查询性能追平列存,还能承载万列索引字段?|Deep Dive
|
2月前
|
SQL 人工智能 Apache
字节跳动:Apache Doris + AI 一站式融合数据引擎的探索与实践
随着人工智能技术在业务中的渗透,我们逐渐意识到:AI 不仅是提升效率的工具,更是重构数据处理与消费方式的核心驱动力。在这一背景下,我们思考:**能否构建一款「AI + Data」一站式融合的数据引擎?** 它不仅能够统一处理文本、音视频等非结构化数据与传统结构化数据,还能为算法工程师提供流畅的数据开发体验,实现数据处理与 AI 模型无缝衔接,并能确保数据处理负载与在线服务负载完全隔离。这是 2024 年末启动 DataMind 项目的初衷。
201 0
字节跳动:Apache Doris + AI 一站式融合数据引擎的探索与实践
|
5月前
|
存储 自然语言处理 分布式计算
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
Apache Doris 3.1 正式发布!全面升级半结构化分析,支持 VARIANT 稀疏列与模板化 Schema,提升湖仓一体能力,增强 Iceberg/Paimon 集成,优化存储引擎与查询性能,助力高效数据分析。
737 4
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
|
6月前
|
存储 分布式计算 Apache
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
小米通过将 Apache Doris(数据库)与 Apache Paimon(数据湖)深度融合,不仅解决了数据湖分析的性能瓶颈,更实现了 “1+1>2” 的协同效应。在这些实践下,小米在湖仓数据分析场景下获得了可观的业务收益。
1160 9
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
|
5月前
|
SQL 人工智能 数据挖掘
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
Apache Doris 4.0 原生集成 LLM 函数,将大语言模型能力深度融入 SQL 引擎,实现文本处理智能化与数据分析一体化。通过十大函数,支持智能客服、内容分析、金融风控等场景,提升实时决策效率。采用资源池化管理,保障数据一致性,降低传输开销,毫秒级完成 AI 分析。结合缓存复用、并行执行与权限控制,兼顾性能、成本与安全,推动数据库向 AI 原生演进。
446 0
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践