开发者学堂课程【Hadoop 分布式计算框架 MapReduce:压缩概述】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/94/detail/1556
压缩概述
内容介绍:
一、压缩概述
二、压缩策略
三、压缩的基本原则
一、压缩概述
压缩技术能够有效减少底层存储系统 (HDFS )读写字节数。压缩提高了网络带宽和磁盘空间的效率。
在运行 MR 程序时,IO 操作、网络数据传输、Shuffle 和 Merge 要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。
鉴于磁盘 I/O 和网络带宽是 Hadoop 的宝贵资源,数据压缩对于节省资源、最小化磁盘 I/O 和网络传输非常有帮助。可以在任意 MapReduce 阶段启用压缩。不过、尽管压缩与解压操作的 CPU 开销不高,其性能的提升和资源的节省并非没有代价。
二、压缩策略
压缩是提高 Hadoop 运行效率的一种优化策略。
通过对 Mapper、Reducer 运行过程的数据进行压缩,以减少磁盘 IO ,提高 MR 程序运行速度。
注意:采用压缩技术减少了磁盘 IO,但同时增加了 CPU 运算负担。所以,压缩特性运用得当能提高性能,但运用不当也可能降低性能。
三、压缩的基本原则
(1)运算密集型的 job,少用压缩
(2)IO 密集型的 job,多用压缩