备案控制台

开发者社区大数据文章正文

在EMR中使用snappy压缩的时候快速查看压缩前文本的内容

2017-12-19 1895

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

在EMR的项目中，按理阿里云目前提供的解决方案，大多数的同学可能都是使用的logtail做的日志收集，然后通过logshipper投递到oss中存储。这么配置以后，存储在oss里面的文件都是snappy格式了，但是怎么使用估计大部分同学是一脸懵逼的。

有两个小的配置，可以方便的和使用gzip一样使用snappy文件。

1 hadoop fs -text的命令直接查看。如果是直接使用的话，你看到的都是二进制，直接把shell搞死。需要用下面的格式查看

hadoop fs -Dio.compression.codec.snappy.native=true -text oss://xxx/xx.snappy

2使用MR脚本的时候，需要配置下，这个可能大部分同学都会，因为之前使用gzip的时候，也需要添加类似的配置项才能跑起来

hadoop ....... -jobconf io.compression.codec.snappy.native=true

文章标签：

Shell

存储

分布式计算

Hadoop

对象存储

很赞

目录

相关文章

sunrr

|

7月前

|

存储 SQL 分布式计算

数据计算MaxCompute读取外部表（数据在oss gz压缩）速度非常慢，有什么方法可以提升效率么？

数据计算MaxCompute读取外部表（数据在oss gz压缩）速度非常慢，有什么方法可以提升效率么？

sunrr

104 1 2

听风de歌

|

6月前

|

分布式计算算法 Hadoop

Hadoop支持的压缩编码

【6月更文挑战第9天】

听风de歌

52 8 8

星光下的赶路人

|

SQL 存储分布式计算

Hive学习---6、文件格式和压缩

Hive学习---6、文件格式和压缩

星光下的赶路人

231 0 0

Hive学习---6、文件格式和压缩

Maynor

|

7月前

|

存储分布式计算 Hadoop

hadoop中压缩及存储常见格式图解

hadoop中压缩及存储常见格式图解

Maynor

79 0 0

豫下洛子-26139

|

存储算法 Java

解压缩流和压缩流

解压缩流和压缩流

豫下洛子-26139

101 0 0

倪桦

|

Unix Linux

R语言-文件归档压缩方法

本文简单分享了一种在 R语言中压缩文件的实现方法，以供参考学习

倪桦

606 0 0

embelfe_segge

|

分布式计算算法 Hadoop

hadoop当中支持的压缩算法

hadoop当中支持的压缩算法

embelfe_segge

119 0 0

大数据启示录

|

存储 SQL JSON

hive文件与压缩

hive文件与压缩

大数据启示录

191 0 0

知与谁同

|

SQL 算法 HIVE

Hive支持的文件格式与压缩算法

知与谁同

4357 0 0

游客wkxim4agoo6le

|

存储 SQL 分布式计算

Hive数据压缩和存储格式

笔记

游客wkxim4agoo6le

211 0 0

热门文章

最新文章

天猫精灵开放平台-之小百科测评

语义检索系统：基于Milvus 搭建召回系统抽取向量进行检索，加速索引

Jetty使用总结

Exchange 2010迁移Exchange 2013(二)本地用户移动

Server 2008 R2 AD RMS完整部署

《并行计算的编程模型》一2.4.3　阻塞与非阻塞

数据中心在多云世界中还有未来吗？

[20170420]关于延迟块清除3.txt

求101-200以内的素数

拼接字符串常量

「Mac畅玩鸿蒙与硬件41」UI互动应用篇18 - 多滑块联动控制器

Python处理数据库：MySQL与SQLite详解 | python小知识

Agent-Based概率模型让多无人机野外搜救更高效

Python-打印99乘法表的两种方法

Selenium：强大的 Web 自动化测试工具

《docker高级篇（大厂进阶）：7.Docker容器监控之CAdvisor+InfluxDB+Granfana》包括：原生命令、是什么、compose容器编排，一套带走

基于波特图的控制系统设计算法

java实现从HDFS上下载文件及文件夹的功能，以流形式输出，便于用户自定义保存任何路径下

【Azure Function App】Azure Function 从.Net6 升级到 .Net8 后 Function出现运行时版本错误

Mock神器：Easy-Mock 私有化部署及使用介绍

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云无影云电脑免费试用，最长可试用3个月