开发者社区> 问答> 正文

TextInputFormat怎么进行文件切分?

TextInputFormat怎么进行文件切分?

展开
收起
真的很搞笑 2021-12-05 23:44:39 251 0
1 条回答
写回答
取消 提交回答
  • TextInputFormat根据文件大小将文件拆分成splits,如果单个文件较小,则每个文件为一个split,并将文件按分割形成<key,value>对,如果单个文件较大。超过block块默认大小的1.1倍,则会将文件切分为多个split。这一步由MapReduce框架自动完成,其中偏移量包括了回车所占的字符数。将分割好的<key,value>对交给用户自定义的map方法进行处理,生成新的<key,value>对。得到map方法输出的<key,value>对后,Mapper会将它们按照key值进行排序,并执行Combine过程,将key值相同value值累加,得到Mapper的最终输出结果。Reducer先对从Mapper接收的数据进行排序,再交由用户自定义的reduce方法进行处理,得到新的<key,value>对,并作为任务的输出结果。

    2021-12-05 23:44:57
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载