【数据库评测】[续]Cloudwave 4.0 集群版(4节点) VS Starrocks 3.0 集群版(4节点)

简介: 【数据库评测】[续]Cloudwave 4.0 集群版(4节点) VS Starrocks 3.0 集群版(4节点)

一、写在前头




在写上一篇【数据库评测】Cloudwave 4.0 集群版(4节点) VS Starrocks 3.0 集群版(4节点)

,评测的过程中,意外发现starrocks3.0版本在我预先设置hdfs副本数=2的配置下,自行把starrocks自己的hdfs副本数改成3。为了保持环境的一致性,七镜还是决定测一测Cloudwave4.0在hdfs副本数=3的配置下,是什么表现。




二、评测环境


  • 硬件环境:4台 64核256g 云服务器(组成4节点的集群),essd pl1 高效云盘
  • 软件环境:jdk19(Cloudwave4.0官方推荐版本,官方基于jdk19版本里头的的vector api,实现全面向量化引擎)、jdk8(starrocks安装推荐jdk版本,主要用于fe,亦可少踩坑)、mysql8(作为starrocks的客户端)、hadoop 3.2.2(作为cloudwave 和 starrocks 共同的分布式存储,副本数=3
  • 软件版本:Cloudwave 4.0(最新版在2023年5月份发版),Starrocks 3.0(最新版在2023年4月份发版)
  • 评测数据集:ssb1000
表名 行数 说明
lineorder 60 亿 SSB 商品订单表
customer 3000 万 SSB 客户表
part 200 万 SSB 零部件表
supplier 200 万 SSB 供应商表
dates 2556 日期表





三、评测方法


  • 执行19轮测试脚本,每轮执行13条标准测试sql,去除第1轮的测试数据(由于IO原因,第1次查询两边的性能均受IO影响,本测试主要测数据库引擎的算法在同等计算资源的条件下的优劣,因此去除第一轮测试数据),将余下的18轮测试数据做平均,获得每条sql的平均耗时;
  • 观察最大CPU占用
  • 观察存储压缩比
  • 观察数据加载时间



多表联合join测试


  • 测试方法:执行19轮SQL测试脚本,每轮执行1条多表联合join拓展测试sql,去除第1轮的测试数据(由于IO原因,第1次查询两边的性能均受IO影响,本测试主要测数据库引擎的算法在同等计算资源的条件下的优劣,因此去除第一轮测试数据),将余下的18轮测试数据做平均,获得sql的平均耗时
  • 观察最大CPU占用
  • 统计耗时
  • 多表联合join拓展测试SQL1:select count(*) from lineorder,customer where lo_custkey = c_custkey;
  • 多表联合join拓展测试SQL2:select count(*) from lineorder,customer,supplier where lo_custkey = c_custkey and lo_suppkey = s_suppkey;




四、开始测试cloudwave4.0


1. 配置hdfs的副本数=3

26608654-1b7d35860447a048.png


2. 加载ssb1000数据

  • 使用的也是57分37秒



3. 查看压缩比

  • ssb1000原始数据的文件系统占用为606G,导入到Cloudwave4.0之后,是360G,压缩比还是59%(360g/606g)



4. 测试13条标准测试SQL

  • 从上图可以看到CPU最大占用是89.5%(5731%/6400%)


26608654-b95af2ee1e9ac3b4.png

  • 从上图可以看到13条标准SQL的总耗时,19轮查询去掉第一轮查询的平均耗时是:7.42秒




四、评测结论


结合Starrocks3.0的测试数据,汇总出下表

26608654-f2bd43dc83ac4b28.png


Cloudwave4.0集群版在4台64核256g内存的云服务器上,hdfs副本数=3的环境下,测ssb1000国际标准测试集,优于Starrocks3.0集群版近0.4倍


[附]13条标准测试SQL测试结果表:

数据库 数据集 响应时间(s) CPU 最大占用率 存储压缩比 数据导入时间
Cloudwave4.0 ssb1000 7.416 89.5%(5731%/6400%) 59%(360g/606g) 57分37秒
Starrocks3.0 ssb1000 10.397 66.6%(4266%/6400%) 169%(1024g/606g) 112分钟

翰云云原生数据仓库(Cloudwave4.0)未来可期,七镜后续还将带来翰云云原生数仓在S3对象存储上的性能表现、更大的数据集上的表现、不同的数据集上的表现、以及在云的加持下,Cloudwave4.0的云原生架构是如何发挥其自身优势的,敬请期待。

目录
相关文章
|
14天前
|
存储 数据采集 数据挖掘
CSV vs 数据库:数据存储的最佳选择是什么
本文介绍了爬虫数据存储中CSV和数据库的优缺点,分析了两者在不同场景下的适用性。CSV简单易用、资源消耗低,适合小量数据;数据库则在处理大量数据和复杂查询时表现出色,支持并发操作。通过Python代码示例,展示了如何使用多线程和爬虫代理IP技术将百度搜索数据存储到MySQL数据库中,适用于大型项目和复杂数据分析需求。
|
1月前
|
缓存 物联网 数据库
InfluxDB vs TDengine :2025 年了,谁家用的数据库还不能高效读缓存?
在工业互联网和物联网的大数据应用场景中,实时数据的写入和查询性能至关重要。如何快速获取最新设备状态并实时处理数据,直接影响到业务的高效运转。本文将深入分析 TDengine 和 InfluxDB 在缓存机制上的差异,帮助读者更好地理解这两款主流时序数据库在性能优化方面的优劣。
91 1
|
2月前
|
存储 数据库
快速搭建南大通用GBase 8s数据库SSC共享存储集群
本文介绍如何GBase8s 数据库 在单机环境中快速部署SSC共享存储集群,涵盖准备工作、安装数据库、创建环境变量文件、准备数据存储目录、修改sqlhost、设置onconfig、搭建sds集群及集群检查等步骤,助你轻松完成集群功能验证。
|
2月前
|
Shell 数据库
GBase8a 数据库新集群第一次创建dblink
GBase8a 数据库新集群第一次创建dblink
|
2月前
|
SQL 数据库
GBase8a 数据库集群v953扩容案例问题分享
GBase8a 数据库集群v953扩容案例问题分享
|
2月前
|
存储 缓存 网络安全
南大通用GBase 8s 数据库 RHAC集群基本原理和搭建步骤
南大通用GBase 8s 数据库 RHAC集群基本原理和搭建步骤
|
2月前
|
存储 关系型数据库 数据库
【赵渝强老师】PostgreSQL的数据库集群
PostgreSQL的逻辑存储结构涵盖了数据库集群、数据库、表、索引、视图等对象,每个对象都有唯一的oid标识。数据库集群是由单个PostgreSQL实例管理的所有数据库集合,共享同一配置和资源。集群的数据存储在一个称为数据目录的单一目录中,可通过-D选项或PGDATA环境变量指定。
|
2月前
|
存储 关系型数据库 MySQL
MySQL vs. PostgreSQL:选择适合你的开源数据库
在众多开源数据库中,MySQL和PostgreSQL无疑是最受欢迎的两个。它们都有着强大的功能、广泛的社区支持和丰富的生态系统。然而,它们在设计理念、性能特点、功能特性等方面存在着显著的差异。本文将从这三个方面对MySQL和PostgreSQL进行比较,以帮助您选择更适合您需求的开源数据库。
222 4
|
4月前
|
存储 缓存 关系型数据库
阿里云数据库 SelectDB 多计算集群核心设计要点揭秘与场景应用
在云原生存算分离架构下,多计算集群的实现从技术方案上看似乎并不存在过多难题。但从产品的角度而言,具备成熟易用的多计算集群能力且能运用于用户实际业务场景中,还有较多核心要点需要深度设计
阿里云数据库 SelectDB 多计算集群核心设计要点揭秘与场景应用
|
17天前
|
存储 Oracle 关系型数据库
数据库传奇:MySQL创世之父的两千金My、Maria
《数据库传奇:MySQL创世之父的两千金My、Maria》介绍了MySQL的发展历程及其分支MariaDB。MySQL由Michael Widenius等人于1994年创建,现归Oracle所有,广泛应用于阿里巴巴、腾讯等企业。2009年,Widenius因担心Oracle收购影响MySQL的开源性,创建了MariaDB,提供额外功能和改进。维基百科、Google等已逐步替换为MariaDB,以确保更好的性能和社区支持。掌握MariaDB作为备用方案,对未来发展至关重要。
42 3
下一篇
开通oss服务