Apache Druid性能测评

简介: 一.集群配置二.角色分布三.集群版本四.性能测试Ⅰ).数据时效性测试a).测试案例模拟生产由5000个agent、5000个URL和2类请求方式做为聚合字段的1亿条明细数据,来测试Druid集群在配置不同TaksCount数时,Druid聚合任务的执行时长明细数据:1亿...

一.集群配置

二.角色分布

三.集群版本

四.性能测试

Ⅰ).数据时效性测试

a).测试案例

模拟生产由5000个agent、5000个URL和2类请求方式做为聚合字段的1亿条明细数据,来测试Druid集群在配置不同TaksCount数时,Druid聚合任务的执行时长

  • 明细数据:1亿条
  • 聚合组合:5000个agent 5000个URL 2类Method Type = 5千万
  • 创建Topic的partition等于配置TaksCount的个数
  • 执行任务,统计kafka磁盘占用和druid任务执行时长

b).测试数据

c).测试结果

  • 在相同数据量的情况下,增加TaksCount可以提高druid聚合任务的处理速度
  • 同时增加TaksCount会带来系统内存的线性增加

Ⅱ).Druid生成segment合理性测试

a).测试案例

模拟生产由5000个agent、5000个URL和2类请求方式做为聚合字段的1亿条明细数据,来测试Druid集群在配置不同TaksCount数和不同MaxRowsPerSegment时,Druid聚合任务生成segment大小的合理配置

  • 明细数据:1亿条
  • 聚合组合:5000个agent 5000个URL 2类Method Type = 5千万
  • 创建Topic的partition等于配置TaksCount的个数
  • 配置不同TaksCount数和不同MaxRowsPerSegment组合

b).测试数据


c).性能数据

System Summary

Memory

Network I/O

Disk Read

Disk Write

d).测试结果

  • 为提高查询响应,建议segment在300M~700M之间
  • 在源数据基础上需统计的dimensions字段一定的情况下,segment大小受MaxRowsPerSegment和TaksCount的共同影响
  • 可根据实际测试数据的信息量来选择合理的MaxRowsPerSegment和TaksCount配置

Ⅲ).冷热数据隔离测试

a).测试案例

模拟生产由5000个agent、5000个URL和2类请求方式做为聚合字段的1亿条明细数据,来测试Druid集群在配置不同TaksCount数和不同MaxRowsPerSegment时,Druid聚合任务生成segment的冷热数据隔离测试

  • 明细数据:1亿条
  • 聚合组合:5000个agent 5000个URL 2类Method Type = 5千万
  • 创建Topic的partition等于配置TaksCount的个数
  • 根据配置将数据存储分为冷热数据集群,然后依据数据查询场景,将数据加载至对应集群

b).测试数据

集群配置规则

数据加载规则

d).测试结果

  • 集群规模大于7个节点,使用冷热数据隔离可提高查询效率
  • druid.server.priority=100d的节点,查询热数据时,查询不会路由至冷数据节点

e).备注热数据节点配置

druid.server.tier=hot
druid.server.priority=100
目录
相关文章
|
6月前
|
SQL 存储 JSON
阿里云数据库 SelectDB 内核 Apache Doris 2.1.0 版本发布:开箱盲测性能大幅优化,复杂查询性能提升 100%
亲爱的社区小伙伴们,Apache Doris 2.1.0 版本已于 2024 年 3 月 8 日正式发布,新版本开箱盲测性能大幅优化,在复杂查询性能方面提升100%,新增Arrow Flight接口加速数据读取千倍,支持半结构化数据类型与分析函数。异步多表物化视图优化查询并助力仓库分层建模。引入自增列、自动分区等存储优化,提升实时写入效率。Workload Group 资源隔离强化及运行时监控功能升级,保障多负载场景下的稳定性。新版本已经上线,欢迎大家下载使用!
阿里云数据库 SelectDB 内核 Apache Doris 2.1.0 版本发布:开箱盲测性能大幅优化,复杂查询性能提升 100%
|
6月前
|
存储 测试技术 分布式数据库
提升 Apache Hudi Upsert 性能的三个建议
提升 Apache Hudi Upsert 性能的三个建议
107 1
|
21天前
|
消息中间件 监控 大数据
优化Apache Kafka性能:最佳实践与调优策略
【10月更文挑战第24天】作为一名已经对Apache Kafka有所了解并有实际使用经验的开发者,我深知在大数据处理和实时数据流传输中,Kafka的重要性不言而喻。然而,在面对日益增长的数据量和业务需求时,如何保证系统的高性能和稳定性成为了摆在我们面前的一个挑战。本文将从我的个人视角出发,分享一些关于如何通过合理的配置和调优来提高Kafka性能的经验和建议。
54 4
|
1月前
|
存储 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
39 1
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
|
1月前
|
存储 分布式计算 druid
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
58 1
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
|
2月前
|
存储 JSON 物联网
查询性能提升 10 倍、存储空间节省 65%,Apache Doris 半结构化数据分析方案及典型场景
本文我们将聚焦企业最普遍使用的 JSON 数据,分别介绍业界传统方案以及 Apache Doris 半结构化数据存储分析的三种方案,并通过图表直观展示这些方案的优势与不足。同时,结合具体应用场景,分享不同需求场景下的使用方式,帮助用户快速选择最合适的 JSON 数据存储及分析方案。
查询性能提升 10 倍、存储空间节省 65%,Apache Doris 半结构化数据分析方案及典型场景
|
1月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
40 3
|
1月前
|
存储 分布式计算 druid
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
53 3
|
1月前
|
消息中间件 分布式计算 druid
大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进
大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进
39 2
|
1月前
|
消息中间件 druid 大数据
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
32 2

推荐镜像

更多