压缩概述 | 学习笔记

简介: 快速学习压缩概述

开发者学堂课程【Hadoop 分布式计算框架 MapReduce:压缩概述】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/94/detail/1556


压缩概述


内容介绍:

一、压缩概述

二、压缩策略

三、压缩的基本原则


一、压缩概述

压缩技术能够有效减少底层存储系统 (HDFS )读写字节数。压缩提高了网络带宽和磁盘空间的效率。

在运行 MR 程序时,IO 操作、网络数据传输、Shuffle 和 Merge 要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。

鉴于磁盘 I/O  和网络带宽是 Hadoop 的宝贵资源,数据压缩对于节省资源、最小化磁盘 I/O 和网络传输非常有帮助。可以在任意 MapReduce 阶段启用压缩。不过、尽管压缩与解压操作的 CPU 开销不高,其性能的提升和资源的节省并非没有代价。

二、压缩策略

压缩是提高 Hadoop 运行效率的一种优化策略。

通过对 Mapper、Reducer 运行过程的数据进行压缩,以减少磁盘 IO ,提高 MR 程序运行速度。

注意:采用压缩技术减少了磁盘 IO,但同时增加了 CPU 运算负担。所以,压缩特性运用得当能提高性能,但运用不当也可能降低性能。

三、压缩的基本原则

(1)运算密集型的  job,少用压缩

(2)IO 密集型的 job,多用压缩

相关文章
|
5月前
|
Windows
Qt5.14.2 轻松掌握Qt中的压缩与解压缩:QuaZIP的神秘面纱与实战演练之使用QuaZIP
Qt5.14.2 轻松掌握Qt中的压缩与解压缩:QuaZIP的神秘面纱与实战演练之使用QuaZIP
217 0
|
4月前
|
存储 算法 文件存储
详细解读7z文件格式及其源码的分析(三)
详细解读7z文件格式及其源码的分析(三)
42 0
|
5月前
|
存储 NoSQL 关系型数据库
第5章:知识存储:概述、方法、实战
第5章:知识存储:概述、方法、实战
第5章:知识存储:概述、方法、实战
|
5月前
|
监控 算法 数据安全/隐私保护
使用Python实现批量文件的压缩处理
使用Python实现批量文件的压缩处理
73 0
|
5月前
|
SQL 存储 编解码
Hive中的压缩技术是如何实现的?请解释其原理和常用压缩算法。
Hive中的压缩技术是如何实现的?请解释其原理和常用压缩算法。
55 0
|
10月前
|
存储 API C++
C/C++ 使用API实现数据压缩与解压缩
在Windows编程中,经常会遇到需要对数据进行压缩和解压缩的情况,数据压缩是一种常见的优化手段,能够减小数据的存储空间并提高传输效率。Windows提供了这些API函数,本文将深入探讨使用Windows API进行数据压缩与解压缩的过程,主要使用`ntdll.dll`库中的相关函数。
67 0
|
XML JSON 数据格式
< Python全景系列-4 > 史上最全文件类型读写库大盘点!什么?还包括音频、视频?
< Python全景系列-4 > 史上最全文件类型读写库大盘点!什么?还包括音频、视频?
83 0
|
Unix Linux
R语言-文件归档压缩方法
本文简单分享了一种在 R语言 中压缩文件的实现方法,以供参考学习
572 0
R语言-文件归档压缩方法
|
分布式计算 Hadoop
几种压缩方式及各自优缺点【重点】
几种压缩方式及各自优缺点【重点】
763 0
|
机器学习/深度学习 数据采集 算法
模型压缩部署概述
模型压缩部署概述
403 0