倚天性能优化--基于倚天优化后的zstd在大数据场景应用:降低存储成本+提升重IO场景性能

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
云服务器ECS,u1 2核4GB 1个月
简介: 倚天性能优化--基于倚天优化后的zstd在大数据场景应用:降低存储成本+提升重IO场景性能

ZSTD VS Snappy算法多核(8cores)性能对比

x86 snappy vs 倚天ptg-zstd: snappy算法的压缩率高36%;ptg-zstd解压性能高16.8%,压缩性能持平

x86 snappy vs 倚天开源zstd: snappy算法的压缩率高36%开源zstd解压性能低2%,压缩性能低13%

image.png

Spark使用方法

ztsd-jni-ali.jar包可联系zhuzhangqi.zzq@alibaba-inc.com获取

该jar包包含了x86的jni so, 所以在x86上也是可以运行的,其调用的是开源的没有优化的jni实现,倚天上会调用aarch64的so,其针对倚天做过特殊优化

存储成本降低

数据库名称

OSS存储(TB)

g8y_snappy_oss_parquet_db_5000

1.5

g8y_zstd_oss_parquet_db_5000

1.1

存储成本降低比例

27%

数据表存储格式性能对比

数据表存储格式

tpc-ds性能

5T数据量

性能提升

snappy

16444s

zstd

16042s

+3%

shuffle ztsd性能对比

tpcds 2.4 5T OSS性能

LZ4

zstd-ori

zstd-ptg

zstd-ptg/zstd-ori

q24a

1703

1093

1005

8.7%

q24b

1768

1218

1044

16%


测试多轮数据(q24a/q24b)

zstd-ori:1069/1286      1152/1096  1093/1218  1104/1191     38min

zstd-ptg:1008/982      1005/1044  988/1072   1022/1008    35min

image.png

zstd-ori

image.png

image.png


zstd-ptg

image.png

image.png


stage

解压缩类型

zstd-ori(min)

zstd-ori数据量(GB)

zstd-ptg(min)

zstd-ptg数据量(GB)

性能提升

压缩率提升

q24a

3

压缩

( shuffle write)

2.0

230.5

1.9

207.1

5%

11%

10

解压缩

( shuffle read)

8.0

241.2

6.5

216.9

23%

11%

34

解压缩

( shuffle read)

8.5

241.2

7.4

216.9

15%

11%

q24b

94

压缩

( shuffle write)

2.0

230.5

1.9

207.1

5%

11%

100

解压缩

( shuffle read)

8.0

241.2

7.5

216.9

7%

11%

124

解压缩

( shuffle read)

7.8

241.2

7.1

216.9

10%

11%

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
iOS开发
iOS 分享 第三方登录 Twitter 注册应用以及读写权限
iOS 分享 第三方登录 Twitter 注册应用以及读写权限
277 0
|
1月前
|
传感器 编解码 C语言
【软件设计师备考 专题 】IO设备、通信设备的性能,以及基本工作原理
【软件设计师备考 专题 】IO设备、通信设备的性能,以及基本工作原理
38 1
|
1月前
|
JavaScript Unix Linux
IO多路复用:提高网络应用性能的利器
IO多路复用:提高网络应用性能的利器
|
1月前
|
分布式计算 JavaScript Java
非阻塞IO:提高应用程序的效率与性能
非阻塞IO:提高应用程序的效率与性能
|
3月前
|
vr&ar 开发者 Python
探索未来的现实世界:混合现实(AR)与增强现实(VR)技术的应用Python异步编程:解放性能的重要利器——异步IO库深入解析
在当今科技飞速发展的时代,混合现实(AR)和增强现实(VR)技术正迅速改变着我们对现实世界的认知和体验。本文将介绍这两种技术的基本原理以及它们在不同领域的广泛应用,包括教育、医疗、旅游、娱乐等。混合现实和增强现实技术为我们带来了全新的沉浸式体验,将人与数字世界融合在一起,为未来的现实世界带来无限可能。 在当今信息爆炸的时代,高效的编程方式成为开发者追求的目标。Python异步编程与其强大的异步IO库(例如asyncio)成为了解放性能的重要利器。本文将深入解析Python异步编程以及异步IO库的原理和使用方法,帮助读者进一步掌握这一技术,提升开发效率。
|
8月前
|
存储 网络协议 Linux
如何使用io_uring构建快速响应的I/O密集型应用
当涉及构建快速响应的I/O密集型应用时,io_uring技术展现出了其卓越的潜力。本文摘要将深入探讨如何充分利用io_uring的特性来优化应用程序性能。通过异步I/O操作和高效事件处理,io_uring为开发人员提供了一种强大工具,能够显著减少I/O等待时间并实现更高的吞吐量。文章将引导读者了解如何使用io_uring的先进功能,如批量操作和SQPOLL模式,来最大限度地减少系统调用次数,从而降低了开销。同时,我们将探讨如何在不同的应用场景中利用io_uring的灵活性,为数据库、网络服务和存储系统等领域创建出色的性能。通过本文,读者将获得构建高效I/O密集型应用所需的关键见解和实用指南。
151 0
如何使用io_uring构建快速响应的I/O密集型应用
|
3月前
|
Linux 测试技术
百度搜索:蓝易云【linux系统磁盘IO性能检测教程】
这些是在Linux系统中检测磁盘IO性能的常见方法。根据您的需求和具体环境,您可以选择适合您的方法来监视和测试磁盘IO性能。请注意,在进行性能测试时要小心,以避免对系统造成不必要的负载或影响正常运行。
46 0
|
6月前
|
Java Unix Linux
深入探讨I/O模型:Java中的阻塞和非阻塞和其他高级IO应用
I/O(Input/Output)模型是计算机科学中的一个关键概念,它涉及到如何进行输入和输出操作,而这在计算机应用中是不可或缺的一部分。在不同的应用场景下,选择正确的I/O模型是至关重要的,因为它会影响到应用程序的性能和响应性。本文将深入探讨四种主要I/O模型:阻塞,非阻塞,多路复用,signal driven I/O,异步IO,以及它们的应用。
深入探讨I/O模型:Java中的阻塞和非阻塞和其他高级IO应用
|
7月前
|
分布式计算 大数据 Java
大数据Flink性能优化
大数据Flink性能优化
75 0
|
8月前
|
分布式计算 运维 大数据
MaxCompute资源管理——使用成本优化功能实现包年包月计算资源降本增效
MaxCompute提供成本优化(计算资源优化推荐)功能,可基于实际作业请求量和资源配置期望,对包年包月一级Quota类型的计算资源生成更优的资源配置方案,帮助进一步提升计算资源利用率,优化计算成本。本文我们一起通过典型场景案例来看看如何通过成本优化(计算资源优化推荐)功能提供降本增效的参考建议。
416 0