Hadoop 压缩文件方式比较-阿里云开发者社区

Hadoop 压缩文件方式比较

2017-11-15 1192

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

对于Hadoop文件常用的几种压缩方法，我写了一个java程序进行比较。

期望是，给出一个大文件(bigfile.txt) ,我们用各种方式压缩他们然后最终复制到HDFS中。

代码很简单：就是构造codec的实例,然后让它来创建到HDFS的输出流

/*
*/
package com.charles.hadoop.fs;
import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionCodecFactory;
import org.apache.hadoop.io.compress.GzipCodec;
import org.apache.hadoop.util.ReflectionUtils;
/**
*
* Description:
*
* @author charles.wang
* @created May 26, 2012 3:23:21 PM
*
*/
public class HadoopCodec {
/**
* @param args
*/
public static void main(String[] args) throws Exception {
// TODO Auto-generated method stub
String inputFile = "bigfile.txt";
String outputFolder = "hdfs://192.168.129.35:9000/user/hadoop-user/codec/";
// String outputFile="bigfile.gz";
// 读取hadoop文件系统的配置
Configuration conf = new Configuration();
conf.set("hadoop.job.ugi", "hadoop-user,hadoop-user");
//测试各种压缩格式的效率
//gzip
long gzipTime = copyAndZipFile(conf, inputFile, outputFolder, "org.apache.hadoop.io.compress.GzipCodec", "gz");
//bzip2
long bzip2Time = copyAndZipFile(conf, inputFile, outputFolder, "org.apache.hadoop.io.compress.BZip2Codec", "bz2");
//deflate
long deflateTime = copyAndZipFile(conf, inputFile, outputFolder, "org.apache.hadoop.io.compress.DefaultCodec", "deflate");
System.out.println("被压缩的文件名为： "+inputFile);
System.out.println("使用gzip压缩，时间为： "+gzipTime+"毫秒!");
System.out.println("使用bzip2压缩，时间为： "+bzip2Time+"毫秒!");
System.out.println("使用deflate压缩，时间为： "+deflateTime+"毫秒!");
}
public static long copyAndZipFile(Configuration conf, String inputFile, String outputFolder, String codecClassName,
String suffixName) throws Exception {
long startTime = System.currentTimeMillis();
// 因为本地文件系统是基于java.io包的，所以我们创建一个本地文件输入流
InputStream in = new BufferedInputStream(new FileInputStream(inputFile));
//去掉扩展名提取basename
String baseName = inputFile.substring(0, inputFile.indexOf("."));
//构造输出文件名，它是路径名+基本名+扩展名
String outputFile = outputFolder + baseName + "."+suffixName;
FileSystem fs = FileSystem.get(URI.create(outputFile), conf);
// 创建一个编码解码器，通过反射机制根据传入的类名来动态生成其实例
CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(Class.forName(codecClassName), conf);
// 创建一个指向HDFS目标文件的压缩文件输出流
OutputStream out = codec.createOutputStream(fs.create(new Path(outputFile)));
// 用IOUtils工具将文件从本地文件系统复制到HDFS目标文件中
try {
IOUtils.copyBytes(in, out, conf);
} finally {
IOUtils.closeStream(in);
IOUtils.closeStream(out);
}
long endTime = System.currentTimeMillis();
return endTime - startTime;
}
}

最终显示结果为：

被压缩的文件名为： bigfile.txt
使用gzip压缩，时间为： 11807毫秒!
使用bzip2压缩，时间为： 44982毫秒!
使用deflate压缩，时间为： 3696毫秒!

同时我们查看HDFS文件目录，可以证实，这几个文件的确存在：

分析结果：

我们可以从性能和压缩比率2个方面来进行对比：

性能：一目了然 deflate>bzip2>gzip，而且gzip的性能差好大一截。

压缩比：

我们的原文件大小为114,576,640 字节

gzip 压缩比率为：9513416/114576640=8.3%,bzip2 压缩比率为5006568/114576640=4.37%,deflate压缩比率为9513404/114576640=8.3%

所以压缩比： bzip2>deflate=gzip

综上所述：压缩效果最好的是bzip2,压缩速度最快的是deflate

本文转自 charles_wang888 51CTO博客，原文链接：http://blog.51cto.com/supercharles888/879179，如需转载请自行联系原作者

Hadoop 压缩文件方式比较

热门文章

最新文章

相关课程

相关电子书

相关实验场景