压缩概述 | 学习笔记

简介: 快速学习压缩概述

开发者学堂课程【Hadoop 分布式计算框架 MapReduce:压缩概述】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/94/detail/1556


压缩概述


内容介绍:

一、压缩概述

二、压缩策略

三、压缩的基本原则


一、压缩概述

压缩技术能够有效减少底层存储系统 (HDFS )读写字节数。压缩提高了网络带宽和磁盘空间的效率。

在运行 MR 程序时,IO 操作、网络数据传输、Shuffle 和 Merge 要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。

鉴于磁盘 I/O  和网络带宽是 Hadoop 的宝贵资源,数据压缩对于节省资源、最小化磁盘 I/O 和网络传输非常有帮助。可以在任意 MapReduce 阶段启用压缩。不过、尽管压缩与解压操作的 CPU 开销不高,其性能的提升和资源的节省并非没有代价。

二、压缩策略

压缩是提高 Hadoop 运行效率的一种优化策略。

通过对 Mapper、Reducer 运行过程的数据进行压缩,以减少磁盘 IO ,提高 MR 程序运行速度。

注意:采用压缩技术减少了磁盘 IO,但同时增加了 CPU 运算负担。所以,压缩特性运用得当能提高性能,但运用不当也可能降低性能。

三、压缩的基本原则

(1)运算密集型的  job,少用压缩

(2)IO 密集型的 job,多用压缩

相关文章
|
2月前
|
存储 JSON 算法
TDengine 检测数据最佳压缩算法工具,助你一键找出最优压缩方案
在使用 TDengine 存储时序数据时,压缩数据以节省磁盘空间是至关重要的。TDengine 支持用户根据自身数据特性灵活指定压缩算法,从而实现更高效的存储。然而,如何选择最合适的压缩算法,才能最大限度地降低存储开销?为了解决这一问题,我们特别推出了一个实用工具,帮助用户快速判断并选择最适合其数据特征的压缩算法。
57 0
|
6月前
|
Python
gzip模块概述
gzip模块概述
|
8月前
|
存储 安全 数据处理
文件I/O:基础与实战
文件I/O:基础与实战
|
8月前
|
存储 NoSQL 关系型数据库
第5章:知识存储:概述、方法、实战
第5章:知识存储:概述、方法、实战
第5章:知识存储:概述、方法、实战
|
8月前
|
SQL 存储 编解码
Hive中的压缩技术是如何实现的?请解释其原理和常用压缩算法。
Hive中的压缩技术是如何实现的?请解释其原理和常用压缩算法。
79 0
|
存储 Kubernetes API
k8s教程(Volume篇)-k8s存储机制概述
k8s教程(Volume篇)-k8s存储机制概述
575 0
|
Unix Linux
R语言-文件归档压缩方法
本文简单分享了一种在 R语言 中压缩文件的实现方法,以供参考学习
619 0
R语言-文件归档压缩方法
|
分布式计算 Hadoop
几种压缩方式及各自优缺点【重点】
几种压缩方式及各自优缺点【重点】
876 0
带你读《5G 系统技术原理与实现》——2.1 概述
带你读《5G 系统技术原理与实现》——2.1 概述
|
自动驾驶 物联网 5G
带你读《5G 系统技术原理与实现》——3.1 概述
带你读《5G 系统技术原理与实现》——3.1 概述