文档备案控制台

开发者社区大数据文章正文

通过CombineTextInputFormat实现小文件优化(调优技能)

2022-06-18 235

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通过CombineTextInputFormat实现小文件优化(调优技能)

0x00 文章内容

未修改前情况
CombineTextInputFormat实现小文件优化

说明：本文章在MapReduce编程例子之Combiner与Partitioner 的Combiner例子基础上执行。

0x01 未修改前情况

1. 当前文件情况

a. 目前/files文件夹有4个文件

[hadoop-sny@master jar]$ hadoop fs -ls /files/
Found 4 items
-rw-r--r--   1 hadoop-sny supergroup         39 2019-04-18 21:20 /files/put.txt
-rw-r--r--   1 hadoop-sny supergroup         50 2019-12-30 17:12 /files/small1.txt
-rw-r--r--   1 hadoop-sny supergroup         31 2019-12-30 17:10 /files/small2.txt
-rw-r--r--   1 hadoop-sny supergroup         49 2019-12-30 17:11 /files/small3.txt

2. 执行未修改前作业

a. 执行命令如下：

hadoop jar hadoop-learning-1.0.jar com.shaonaiyi.hadoop.CombinerWC /files/* /output/comwc/

3. 查看结果

a. 可在YARN的Web UI界面上看到有4个Map Task

0x02 CombineTextInputFormat实现小文件优化

1. 修改代码

a. 添加一行代码

   //合并小文件CombineTextInputFormat
        job.setInputFormatClass(CombineTextInputFormat.class);

2. 执行修改后作业

a. 执行命令如下（与前面一样）：

hadoop jar hadoop-learning-1.0.jar com.shaonaiyi.hadoop.CombinerWC /files/* /output/comwc/

3. 查看结果

a. 可在YARN的Web UI界面上看到只有1个Map Task

0xFF 总结

一个Map Task就是一个JVM进程，将一个目录下的所有文件当成了一个split来执行，可以减少JVM的启动，从而提高性能。

文章标签：

Java

分布式计算

资源调度

Hadoop

邵奈一2018

目录

相关文章

叫个什么名字

|

Rust JavaScript 前端开发

WebAssembly 技术：解锁浏览器的无限潜能

随着互联网的快速发展，Web 应用程序的功能需求也越来越复杂。传统的 JavaScript 语言在处理大规模数据和高性能计算方面存在一些局限性。然而，WebAssembly 技术的出现改变了这一切。本文将介绍什么是 WebAssembly，它的应用领域以及如何使用它来提升 Web 应用程序的性能和体验。

叫个什么名字

395 0 0

嗯哼9925

|

Ubuntu

ubuntu制作本地源

嗯哼9925

5074 0 0

双鱼座的猫斯基-20148

|

安全 Linux 程序员

一招解决开发环境问题——远程容器开发指南

使用C++作为主要开发语言的程序猿们应该会认同搭建开发环境是一件烦人的事情。笔者在运营iLogtail开源社区的过程中发现开发和调试环境问题也是成员问的最多的问题之一。利用 VSCode 的 Remote-Development 插件可以使整个开发环境运行在远程容器中，利用容器技术做到一致、可移植、天然隔离的环境开发编译。本文由浅到深带大家搭建这样的远端容器开发环境。

双鱼座的猫斯基-20148

3928 0 1

可达鸭long

|

人工智能自然语言处理测试技术

🧠 用 AI 提升你的编程效率 —— 在 PyCharm 中体验通义灵码

通义灵码是一款基于大模型的智能编程辅助工具，现已上线PyCharm插件V2.5+版本。它能根据自然语言描述、注释或上下文生成高质量代码，支持多语言（Python、Java等），提供代码补全、优化建议、单元测试生成及异常排查等功能。集成魔搭MCP市场3000+服务，具备编程智能体模式与长期记忆能力，助开发者提升效率。适用初学者、资深开发者及团队协作场景。小红书、B站、抖音、微博均有相关资源分享。小红书： http://xhslink.com/a/SvabuxSObf3db bilibili：https://b23.tv/1HJAdIx 抖音： https://v.douyin.com/1DAG

可达鸭long

8746 6 8

源码星辰

|

机器学习/深度学习人工智能算法

神经网络之光线追踪

基于神经网络的光线追踪（Neural Network-based Ray Tracing）结合了光线追踪算法与神经网络的强大能力，用于加速光线追踪渲染过程，提升图像质量，并降低计算资源消耗。

源码星辰

487 3 3

龙大吉

|

JavaScript 前端开发开发者

如何在 VSCode 中使用 ESLint 和 Prettier 检查并自动格式化 Vue.js 代码，提升团队协作效率和代码质量。

【10月更文挑战第9天】随着前端开发技术的发展，代码规范和格式化工具变得至关重要。本文介绍如何在 VSCode 中使用 ESLint 和 Prettier 检查并自动格式化 Vue.js 代码，提升团队协作效率和代码质量。通过安装插件、配置 ESLint 和 Prettier，以及设置 VSCode，实现代码实时检查和格式化，确保代码风格一致。

龙大吉

2604 2 2

游客j4mujezz7vm7y

|

Docker Windows 容器

7-12|在window上运行docker-compose文件

7-12|在window上运行docker-compose文件

游客j4mujezz7vm7y

1803 1 1

热爱技术的小郑

|

Linux

成功解决：CentOS7中无法连接网络

这篇文章介绍了如何解决CentOS 7虚拟机无法连接网络的问题。作者猜测问题可能是由于虚拟机软件的网关和CentOS 7系统的网关不一致导致的。文章提供了两种解决方案：修改虚拟网络编辑器的网关或修改CentOS系统的网关和IP地址。作者选择了后者，并演示了如何在CentOS终端中以root用户身份修改IP和网关。

热爱技术的小郑

6063 0 0

成功解决：CentOS7中无法连接网络

sumith

|

编译器数据库索引

数据结构篇：树形数据结构的基本概念及其遍历方法

数据结构篇：树形数据结构的基本概念及其遍历方法

sumith

701 0 0

赵舒涵

|

Serverless Python

Python开根号的几种方式

Python开根号的几种方式

赵舒涵

9201 0 0

热门文章

最新文章

《树莓派Python编程入门与实战》——2.3　使用Raspbian图形用户界面

nfs client高性能参数设置

nvm安装教程与nvm常见命令，超详细！

AntV 图可视分析解决方案，来啦！

筑巢引凤、珠联璧合、潜龙出海，蚂蚁金服开放平台如何将“开放”做好？

Ansible自动化工具copy复制用法

xshell 连接报错 Disconnected from remote host

第一章导言的笔记与思考

Jquery Ajax WebService

在应用程序或全局主题目录中无法找到主题

衣物颜色检测 5500张YOLO颜色识别数据集分享

田间杂草定位与检测4200张YOLO智慧农业数据集分享

光伏面板状态1674张光伏分类数据集分享

纺织瑕疵检测5595张YOLO纺织质检数据集分享

养殖场鸡只计数监控9000张YOLO智慧养殖数据集

【Azure AI】Work smarter in 90 days: A real-world guide to using AI / 90 天内更⾼效地⼯作：⼀本关于使⽤ AI 的实⽤指南 [逐句翻译版] 【转】

Cline + Cursor 组合拳：从代码清理到 Git 提交，我的标准化发布流程

接手祖传老项目？用 Cline 搭一条自动化流水线，半天盘活

Claude 插件市场进企业怎么用？我会先做白名单，而不是让大家随便装

Claude 插件市场突然起飞：我按开发者视角拆了一遍，发现它不只是“插件合集”

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！