倚天性能优化--基于倚天优化后的zstd在大数据场景应用:降低存储成本+提升重IO场景性能

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
简介: 倚天性能优化--基于倚天优化后的zstd在大数据场景应用:降低存储成本+提升重IO场景性能

ZSTD VS Snappy算法多核(8cores)性能对比

x86 snappy vs 倚天ptg-zstd: snappy算法的压缩率高36%;ptg-zstd解压性能高16.8%,压缩性能持平

x86 snappy vs 倚天开源zstd: snappy算法的压缩率高36%开源zstd解压性能低2%,压缩性能低13%

image.png

Spark使用方法

ztsd-jni-ali.jar包可联系zhuzhangqi.zzq@alibaba-inc.com获取

该jar包包含了x86的jni so, 所以在x86上也是可以运行的,其调用的是开源的没有优化的jni实现,倚天上会调用aarch64的so,其针对倚天做过特殊优化

存储成本降低

数据库名称

OSS存储(TB)

g8y_snappy_oss_parquet_db_5000

1.5

g8y_zstd_oss_parquet_db_5000

1.1

存储成本降低比例

27%

数据表存储格式性能对比

数据表存储格式

tpc-ds性能

5T数据量

性能提升

snappy

16444s

zstd

16042s

+3%

shuffle ztsd性能对比

tpcds 2.4 5T OSS性能

LZ4

zstd-ori

zstd-ptg

zstd-ptg/zstd-ori

q24a

1703

1093

1005

8.7%

q24b

1768

1218

1044

16%


测试多轮数据(q24a/q24b)

zstd-ori:1069/1286      1152/1096  1093/1218  1104/1191     38min

zstd-ptg:1008/982      1005/1044  988/1072   1022/1008    35min

image.png

zstd-ori

image.png

image.png


zstd-ptg

image.png

image.png


stage

解压缩类型

zstd-ori(min)

zstd-ori数据量(GB)

zstd-ptg(min)

zstd-ptg数据量(GB)

性能提升

压缩率提升

q24a

3

压缩

( shuffle write)

2.0

230.5

1.9

207.1

5%

11%

10

解压缩

( shuffle read)

8.0

241.2

6.5

216.9

23%

11%

34

解压缩

( shuffle read)

8.5

241.2

7.4

216.9

15%

11%

q24b

94

压缩

( shuffle write)

2.0

230.5

1.9

207.1

5%

11%

100

解压缩

( shuffle read)

8.0

241.2

7.5

216.9

7%

11%

124

解压缩

( shuffle read)

7.8

241.2

7.1

216.9

10%

11%

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 分布式计算 大数据
数据湖——大数据存储的新思维,如何打破传统束缚?
数据湖——大数据存储的新思维,如何打破传统束缚?
116 16
|
5月前
|
存储 弹性计算 固态存储
阿里云服务器ESSD Entry系统盘测评IOPS、IO读写和时延性能参数
阿里云ESSD Entry云盘是新一代企业级云盘,具备高IOPS、低延迟特性,适合开发与测试场景。它提供10~32,768 GiB容量范围,最大IOPS达6,000,吞吐量150 MB/s,时延1~3 ms。支持按量付费和包年包月,性价比高,特别适合个人开发者和中小企业。详情及价格参考阿里云官网。
|
5月前
|
编解码 弹性计算 大数据
软硬结合助力倚天云原生算力再进化,加速大数据、视频转码上云步伐
本文介绍了云原生算力的进化,重点讨论了倚天710 CPU在大数据和视频转码场景中的应用与优势。倚天710采用ARM架构,通过物理核设计和CIPU加速卡优化,显著提升了高负载下的性能稳定性,并在实际应用中帮助客户实现了20%-40%的性能提升和成本降低。此外,文章还探讨了操作系统、编译器等底层软件的优化,以及如何通过龙蜥社区和阿里云平台支持更多应用场景,助力企业实现高效迁移和性能优化。
|
7月前
|
存储 算法 固态存储
大数据分区优化存储成本
大数据分区优化存储成本
180 4
|
7月前
|
存储 大数据 数据处理
大数据环境下的性能优化策略
大数据环境下的性能优化策略
273 2
|
7月前
|
机器学习/深度学习 存储 数据采集
大数据性能优化
【10月更文挑战第24天】
450 3
|
8月前
|
存储 缓存 算法
如何优化阻塞IO的性能?
【10月更文挑战第6天】如何优化阻塞IO的性能?
130 5
|
7月前
|
存储 弹性计算 固态存储
阿里云服务器ESSD Entry系统盘测评IOPS、IO读写和时延性能参数
ESSD Entry云盘是阿里云推出的新一代云盘,具备高IOPS、低延迟和企业级数据保护能力。适用于开发与测试场景,支持按量付费和包年包月计费模式。99元和199元的ECS经济型e实例和通用算力型u1实例均采用ESSD Entry系统盘,性价比高。详细性能参数和价格请参考阿里云官方页面。
357 0
|
8月前
|
存储 算法 NoSQL
大数据-138 - ClickHouse 集群 表引擎详解3 - MergeTree 存储结构 数据标记 分区 索引 标记 压缩协同
大数据-138 - ClickHouse 集群 表引擎详解3 - MergeTree 存储结构 数据标记 分区 索引 标记 压缩协同
154 0
|
1月前
|
存储 机器学习/深度学习 人工智能
数据与生命的对话:当大数据遇上生物信息学
数据与生命的对话:当大数据遇上生物信息学
77 17