在EMR中使用snappy压缩的时候快速查看压缩前文本的内容

简介:

在EMR的项目中,按理阿里云目前提供的解决方案,大多数的同学可能都是使用的logtail做的日志收集,然后通过logshipper投递到oss中存储。这么配置以后,存储在oss里面的文件都是snappy格式了,但是怎么使用估计大部分同学是一脸懵逼的。


有两个小的配置,可以方便的和使用gzip一样使用snappy文件。


1 hadoop fs -text的命令直接查看。如果是直接使用的话,你看到的都是二进制,直接把shell搞死。需要用下面的格式查看

    hadoop fs -Dio.compression.codec.snappy.native=true -text oss://xxx/xx.snappy


2使用MR脚本的时候,需要配置下,这个可能大部分同学都会,因为之前使用gzip的时候,也需要添加类似的配置项才能跑起来

    hadoop ....... -jobconf io.compression.codec.snappy.native=true




目录
相关文章
|
4月前
|
存储 SQL 分布式计算
数据计算MaxCompute读取外部表(数据在oss gz压缩)速度非常慢,有什么方法可以提升效率么?
数据计算MaxCompute读取外部表(数据在oss gz压缩)速度非常慢,有什么方法可以提升效率么?
48 1
|
8月前
|
SQL 存储 分布式计算
Hive学习---6、文件格式和压缩
Hive学习---6、文件格式和压缩
Hive学习---6、文件格式和压缩
|
4月前
|
存储 分布式计算 Hadoop
hadoop中压缩及存储常见格式图解
hadoop中压缩及存储常见格式图解
29 0
|
8月前
|
存储 算法 Java
解压缩流和压缩流
解压缩流和压缩流
50 0
|
10月前
|
Unix Linux
R语言-文件归档压缩方法
本文简单分享了一种在 R语言 中压缩文件的实现方法,以供参考学习
380 0
R语言-文件归档压缩方法
|
存储 SQL JSON
hive文件与压缩
hive文件与压缩
hive文件与压缩
|
分布式计算 算法 Hadoop
MR 支持的压缩编码 | 学习笔记
快速学习 MR 支持的压缩编码
174 0
MR 支持的压缩编码 | 学习笔记
|
SQL 分布式计算 HIVE
记一个压缩格式的问题
问题描述 Hive ORC table常规小文件过多问题,于是用Spark写了一个Application来自动的Merge分区数据,思路很简单大概就是 insert overwrite table partition (分区 XXX) select * from table where (分区 XXX)当然已经把该dataframe repartition到想要的目标并发度,来控制最终分区下的文件个数 但是发现生成的文件个数虽然是对的,但是最后整个分区的Size竟然几乎翻倍。
记一个压缩格式的问题