文档备案控制台

开发者社区大数据文章正文

lzo文件的并行map处理

2017-11-16 891

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

Hadoop集群中启用了lzo后，还需要一些配置，才能使集群能够对单个的lzo文件进行并行的map操作，以提升job的执行速度。

首先，要为lzo文件创建index。下面的命令对某个目录里的lzo文件创建index：

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar com.hadoop.compression.lzo.LzoIndexer /log/source/cd/

使用该命令创建index要花些时间的，我一个7.5GB大小的文件，创建index，花了2分30秒的样子。其实创建index时还有另外一个参数，即com.hadoop.compression.lzo.DistributedLzoIndexer。两个选项可以参考：https://github.com/kevinweil/hadoop-lzo，该文章对这两个选项的解释，我不是很明白，但使用后一个参数可以减少创建index时所花费的时间，而对mapreduce任务的执行没有影响。如下：

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar com.hadoop.compression.lzo.DistributedLzoIndexer /log/source/cd/

然后，在Hive中创建表时，要指定INPUTFORMAT和OUTPUTFORMAT，否则集群仍然不能对lzo进行并行的map处理。在hive中创建表时加入下列语句：

SET FILEFORMAT
INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"
OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat";

执行了这两步操作后，对hive执行速度的提升还是很明显的。在测试中，我们使用一个7.5GB大小的lzo文件，执行稍微复杂一点的Hive命令，使用上述配置后仅需34秒的时间，而原来要180秒。

本文转自 li_qinshan 51CTO博客，原文链接:http://blog.51cto.com/share/663555

文章标签：

SQL

HIVE

Java

分布式计算

Hadoop

关键词：

文件Map

Map文件

并行Map

科技小能手

目录

相关文章

闻缺陷则喜何志丹

VC6和VC8(VS2005)生成map和cod文件

VC6和VC8(VS2005)生成map和cod文件

闻缺陷则喜何志丹

192 0 0

刘大猫.

|

JavaScript

vue尚品汇商城项目-day07【52.打包文件，处理map文件】

vue尚品汇商城项目-day07【52.打包文件，处理map文件】

刘大猫.

123 3 3

yuanzhengme

|

Java

Java【代码分享 11】yaml配置List和Map参数对象的配置信息及类文件实例分享（效仿GatewayDynamic+DynamicDataSource的注入方法）

Java【代码分享 11】yaml配置List和Map参数对象的配置信息及类文件实例分享（效仿GatewayDynamic+DynamicDataSource的注入方法）

yuanzhengme

647 0 0

yuanzhengme

|

Java

【Java代码】反射机制处理传递给mapper文件的非Map类型参数对象（指定属性为空则设置默认值）

【Java代码】反射机制处理传递给mapper文件的非Map类型参数对象（指定属性为空则设置默认值）

yuanzhengme

192 0 0

闻缺陷则喜何志丹

利用map和cod文件定位崩溃位置的例子和习题

利用map和cod文件定位崩溃位置的例子和习题

闻缺陷则喜何志丹

102 0 0

学吧太深了

|

Java 数据库连接 mybatis

mybatis映射文件使用Map

mybatis映射文件使用Map

学吧太深了

306 0 0

矜辰所致

|

存储程序员编译器

STM32的内存管理相关（内存架构，内存管理，map文件分析）

STM32 的内存架构，内存管理以及 map 文件分析

矜辰所致

596 0 0

STM32的内存管理相关（内存架构，内存管理，map文件分析）

dituinao技术

|

Java

无法为JSP编译类：无法解析类型java.util.Map $ Entry从所需的.class文件间接引用它

无法为JSP编译类：无法解析类型java.util.Map $ Entry从所需的.class文件间接引用它

dituinao技术

281 0 0

我是咔咔

|

JSON Go 数据格式

【GO】json文件解码为map和结构体

【GO】json文件解码为map和结构体

我是咔咔

330 0 0

【GO】json文件解码为map和结构体

我是咔咔

|

JSON Go PHP

【GO】编码map为json文件

【GO】编码map为json文件

我是咔咔

275 0 0

【GO】编码map为json文件

热门文章

最新文章

解析 Java 数据结构：深入了解映射（Map）的特点与应用

Python函数式编程-map/reduce

go语言map[string]string 转map[string]interface{}

python filter, map, 和reduce

Map的两种遍历

图解大数据 | 分布式平台Hadoop与Map-Reduce详解

Creating a Map Service Browser

如何使用Charles进行map remote

STL中map用法详解

MessagePack Java Jackson Dataformat 在 Map 中不使用 String 为 Key 的序列化

set_map的实现+set/map加持秒杀高频算法题锻炼算法思维

【Golang】（3）条件判断与循环？切片和数组的关系？映射表与Map？三组关系傻傻分不清？本文带你了解基本的复杂类型与执行判断语句

（Python基础）新时代语言！一起学习Python吧！（四）：dict字典和set类型；切片类型、列表生成式；map和reduce迭代器；filter过滤函数、sorted排序函数；lambda函数

深入理解 go sync.Map - 基本原理

如何在Map中获取元素的数量？

在JavaScript中，Set和Map的性能有什么区别？

Set和Map有什么区别？

让我们讲解一下 Map 集合遍历的方式

基于Logistic-Map混沌序列的数字信息加解密算法matlab仿真,支持对文字,灰度图,彩色图,语音进行加解密

for...of循环在遍历Set和Map时的注意事项有哪些？

相关课程

更多

Go语言核心编程 - 基础语法、数组、切片、Map

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

云安全中心：病毒查杀