在EMR中使用snappy压缩的时候快速查看压缩前文本的内容

简介:

在EMR的项目中,按理阿里云目前提供的解决方案,大多数的同学可能都是使用的logtail做的日志收集,然后通过logshipper投递到oss中存储。这么配置以后,存储在oss里面的文件都是snappy格式了,但是怎么使用估计大部分同学是一脸懵逼的。


有两个小的配置,可以方便的和使用gzip一样使用snappy文件。


1 hadoop fs -text的命令直接查看。如果是直接使用的话,你看到的都是二进制,直接把shell搞死。需要用下面的格式查看

    hadoop fs -Dio.compression.codec.snappy.native=true -text oss://xxx/xx.snappy


2使用MR脚本的时候,需要配置下,这个可能大部分同学都会,因为之前使用gzip的时候,也需要添加类似的配置项才能跑起来

    hadoop ....... -jobconf io.compression.codec.snappy.native=true




目录
相关文章
|
7月前
|
存储 SQL 分布式计算
数据计算MaxCompute读取外部表(数据在oss gz压缩)速度非常慢,有什么方法可以提升效率么?
数据计算MaxCompute读取外部表(数据在oss gz压缩)速度非常慢,有什么方法可以提升效率么?
104 1
|
6月前
|
分布式计算 算法 Hadoop
Hadoop支持的压缩编码
【6月更文挑战第9天】
52 8
|
SQL 存储 分布式计算
Hive学习---6、文件格式和压缩
Hive学习---6、文件格式和压缩
Hive学习---6、文件格式和压缩
|
7月前
|
存储 分布式计算 Hadoop
hadoop中压缩及存储常见格式图解
hadoop中压缩及存储常见格式图解
79 0
|
存储 算法 Java
解压缩流和压缩流
解压缩流和压缩流
|
Unix Linux
R语言-文件归档压缩方法
本文简单分享了一种在 R语言 中压缩文件的实现方法,以供参考学习
606 0
R语言-文件归档压缩方法
|
分布式计算 算法 Hadoop
hadoop当中支持的压缩算法
hadoop当中支持的压缩算法
119 0
|
存储 SQL JSON
hive文件与压缩
hive文件与压缩
hive文件与压缩