ZSTD VS Snappy算法多核(8cores)性能对比
x86 snappy vs 倚天ptg-zstd: snappy算法的压缩率高36%;ptg-zstd解压性能高16.8%,压缩性能持平
x86 snappy vs 倚天开源zstd: snappy算法的压缩率高36%;开源zstd解压性能低2%,压缩性能低13%
Spark使用方法
ztsd-jni-ali.jar包可联系zhuzhangqi.zzq@alibaba-inc.com获取
该jar包包含了x86的jni so, 所以在x86上也是可以运行的,其调用的是开源的没有优化的jni实现,倚天上会调用aarch64的so,其针对倚天做过特殊优化
存储成本降低
数据库名称 |
OSS存储(TB) |
g8y_snappy_oss_parquet_db_5000 |
1.5 |
g8y_zstd_oss_parquet_db_5000 |
1.1 |
存储成本降低比例 |
27% |
数据表存储格式性能对比
数据表存储格式 |
tpc-ds性能 5T数据量 |
性能提升 |
snappy |
16444s |
|
zstd |
16042s |
+3% |
shuffle ztsd性能对比
tpcds 2.4 5T OSS性能
LZ4 |
zstd-ori |
zstd-ptg |
zstd-ptg/zstd-ori |
|
q24a |
1703 |
1093 |
1005 |
8.7% |
q24b |
1768 |
1218 |
1044 |
16% |
测试多轮数据(q24a/q24b)
zstd-ori:1069/1286 1152/1096 1093/1218 1104/1191 38min
zstd-ptg:1008/982 1005/1044 988/1072 1022/1008 35min
zstd-ori
zstd-ptg
stage |
解压缩类型 |
zstd-ori(min) |
zstd-ori数据量(GB) |
zstd-ptg(min) |
zstd-ptg数据量(GB) |
性能提升 |
压缩率提升 |
|
q24a |
3 |
压缩 ( shuffle write) |
2.0 |
230.5 |
1.9 |
207.1 |
5% |
11% |
10 |
解压缩 ( shuffle read) |
8.0 |
241.2 |
6.5 |
216.9 |
23% |
11% |
|
34 |
解压缩 ( shuffle read) |
8.5 |
241.2 |
7.4 |
216.9 |
15% |
11% |
|
q24b |
94 |
压缩 ( shuffle write) |
2.0 |
230.5 |
1.9 |
207.1 |
5% |
11% |
100 |
解压缩 ( shuffle read) |
8.0 |
241.2 |
7.5 |
216.9 |
7% |
11% |
|
124 |
解压缩 ( shuffle read) |
7.8 |
241.2 |
7.1 |
216.9 |
10% |
11% |