倚天性能优化--基于倚天优化后的zstd在大数据场景应用:降低存储成本+提升重IO场景性能

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 倚天性能优化--基于倚天优化后的zstd在大数据场景应用:降低存储成本+提升重IO场景性能

ZSTD VS Snappy算法多核(8cores)性能对比

x86 snappy vs 倚天ptg-zstd: snappy算法的压缩率高36%;ptg-zstd解压性能高16.8%,压缩性能持平

x86 snappy vs 倚天开源zstd: snappy算法的压缩率高36%开源zstd解压性能低2%,压缩性能低13%

image.png

Spark使用方法

ztsd-jni-ali.jar包可联系zhuzhangqi.zzq@alibaba-inc.com获取

该jar包包含了x86的jni so, 所以在x86上也是可以运行的,其调用的是开源的没有优化的jni实现,倚天上会调用aarch64的so,其针对倚天做过特殊优化

存储成本降低

数据库名称

OSS存储(TB)

g8y_snappy_oss_parquet_db_5000

1.5

g8y_zstd_oss_parquet_db_5000

1.1

存储成本降低比例

27%

数据表存储格式性能对比

数据表存储格式

tpc-ds性能

5T数据量

性能提升

snappy

16444s

zstd

16042s

+3%

shuffle ztsd性能对比

tpcds 2.4 5T OSS性能

LZ4

zstd-ori

zstd-ptg

zstd-ptg/zstd-ori

q24a

1703

1093

1005

8.7%

q24b

1768

1218

1044

16%


测试多轮数据(q24a/q24b)

zstd-ori:1069/1286      1152/1096  1093/1218  1104/1191     38min

zstd-ptg:1008/982      1005/1044  988/1072   1022/1008    35min

image.png

zstd-ori

image.png

image.png


zstd-ptg

image.png

image.png


stage

解压缩类型

zstd-ori(min)

zstd-ori数据量(GB)

zstd-ptg(min)

zstd-ptg数据量(GB)

性能提升

压缩率提升

q24a

3

压缩

( shuffle write)

2.0

230.5

1.9

207.1

5%

11%

10

解压缩

( shuffle read)

8.0

241.2

6.5

216.9

23%

11%

34

解压缩

( shuffle read)

8.5

241.2

7.4

216.9

15%

11%

q24b

94

压缩

( shuffle write)

2.0

230.5

1.9

207.1

5%

11%

100

解压缩

( shuffle read)

8.0

241.2

7.5

216.9

7%

11%

124

解压缩

( shuffle read)

7.8

241.2

7.1

216.9

10%

11%

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
29天前
|
SQL 缓存 分布式计算
【跨国数仓迁移最佳实践5】MaxCompute近线查询解决方案助力物流电商等实时场景实现高效查询
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第5篇,解析跨国数仓迁移背后的性能优化技术。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
|
5月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
4月前
|
存储 缓存 分布式计算
OSS大数据分析集成:MaxCompute直读OSS外部表优化查询性能(减少数据迁移的ETL成本)
MaxCompute直读OSS外部表优化方案,解决传统ETL架构中数据同步延迟高、传输成本大、维护复杂等问题。通过存储格式优化(ORC/Parquet)、分区剪枝、谓词下推与元数据缓存等技术,显著提升查询性能并降低成本。结合冷热数据分层与并发控制策略,实现高效数据分析。
|
7月前
|
SQL 分布式计算 运维
StarRocks 在爱奇艺大数据场景的实践
本文介绍了爱奇艺大数据OLAP服务负责人林豪在StarRocks年度峰会上的分享,重点讲述了爱奇艺OLAP引擎的演进及引入StarRocks后的显著效果。在广告业务中,StarRocks替换Impala+Kudu后,接口性能提升400%,P90查询延迟缩短4.6倍;在“魔镜”数据分析平台中,StarRocks替代Spark达67%,P50查询速度提升33倍,P90提升15倍,节省4.6个人天。未来,爱奇艺计划进一步优化存算一体和存算分离架构,提升整体数据处理效率。
StarRocks 在爱奇艺大数据场景的实践
|
8月前
|
SQL 缓存 数据处理
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)
Apache Doris 提出“数据无界”和“湖仓无界”理念,提供高效的数据管理方案。本文聚焦三个典型应用场景:湖仓分析加速、多源联邦分析、湖仓数据处理,深入介绍 Apache Doris 的最佳实践,帮助企业快速响应业务需求,提升数据处理和分析效率
388 3
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)
|
9月前
|
存储 弹性计算 固态存储
阿里云服务器ESSD Entry系统盘测评IOPS、IO读写和时延性能参数
阿里云ESSD Entry云盘是新一代企业级云盘,具备高IOPS、低延迟特性,适合开发与测试场景。它提供10~32,768 GiB容量范围,最大IOPS达6,000,吞吐量150 MB/s,时延1~3 ms。支持按量付费和包年包月,性价比高,特别适合个人开发者和中小企业。详情及价格参考阿里云官网。
|
10月前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
187 6
|
11月前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
249 4
|
11月前
|
存储 大数据 数据管理
大数据分区提高查询性能
大数据分区提高查询性能
282 2
|
12月前
|
存储 分布式计算 druid
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
248 1
大数据-149 Apache Druid 基本介绍 技术特点 应用场景