倚天使用zstd优化Spark以降低存储成本并提升Shuffle性能-开发者社区-阿里云

倚天性能优化--基于倚天优化后的zstd在大数据场景应用：降低存储成本+提升重IO场景性能

2023-08-25 1966

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 倚天性能优化--基于倚天优化后的zstd在大数据场景应用：降低存储成本+提升重IO场景性能

x86 snappy vs 倚天ptg-zstd: snappy算法的压缩率高36%；ptg-zstd解压性能高16.8%，压缩性能持平

x86 snappy vs 倚天开源zstd: snappy算法的压缩率高36%；开源zstd解压性能低2%，压缩性能低13%

ztsd-jni-ali.jar包可联系zhuzhangqi.zzq@alibaba-inc.com获取

该jar包包含了x86的jni so, 所以在x86上也是可以运行的，其调用的是开源的没有优化的jni实现，倚天上会调用aarch64的so，其针对倚天做过特殊优化

数据表存储格式

tpc-ds性能

5T数据量

性能提升

snappy

16444s

zstd

16042s

+3%

tpcds 2.4 5T OSS性能

测试多轮数据（q24a/q24b）

zstd-ori：1069/1286 1152/1096 1093/1218 1104/1191 38min

zstd-ptg：1008/982 1005/1044 988/1072 1022/1008 35min

zstd-ori

zstd-ptg

倚天性能优化--基于倚天优化后的zstd在大数据场景应用：降低存储成本+提升重IO场景性能