MultipleOutputFormat多文件输出

简介:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import  java.io.IOException;
import  org.apache.hadoop.conf.Configuration;
import  org.apache.hadoop.fs.FileSystem;
import  org.apache.hadoop.io.IntWritable;
import  org.apache.hadoop.mapred.JobConf;
import  org.apache.hadoop.mapred.RecordWriter;
import  org.apache.hadoop.mapred.lib.MultipleOutputFormat;
import  org.apache.hadoop.util.Progressable;
import  org.w3c.dom.Text;
public  class  MultipleOutputFormatTest  extends  MultipleOutputFormat<Text, IntWritable>{
     protected  String generateFileNameForKeyValue(Text key, IntWritable value, Configuration conf) {
         char  c = key.toString().toLowerCase().charAt( 0 );
         if (c >=  'a'  && c <=  'z' ){
             return  c +  ".txt" ;
         }
         return  "other.txt" ;
     }
     @Override
     protected  RecordWriter<Text, IntWritable> getBaseRecordWriter(
             FileSystem fs, JobConf job, String name, Progressable arg3)
             throws  IOException {
         // TODO Auto-generated method stub
         return  null ;
     }
}


在教程当中只需要重写generateFileNameForKeyValue 就能达到分文件的效果 但是在实践当中

还需要重写另一个方法 getBaseRecordWriter 还没有清楚其功能 先写着先

conf.setOutputFormat() //通过这个设定我们输出格式

本文转自    拖鞋崽      51CTO博客,原文链接:http://blog.51cto.com/1992mrwang/1206459
相关文章
|
JSON 算法 物联网
物联网中利用OTA技术升级的基本原理与方法
物联网中利用OTA技术升级的基本原理与方法
598 0
|
9月前
|
人工智能 自然语言处理 程序员
开测: AI智能编码辅助工具通义灵码V2.0 来了
通义灵码2.0是阿里云推出的AI编程助手,基于DeepSeek大模型进行快速迭代,显著提升了代码生成、多任务协作和模型性能。
408 12
开测: AI智能编码辅助工具通义灵码V2.0 来了
|
8月前
|
监控 搜索推荐 数据挖掘
【开发者必看—电商篇】数据赋能电商App活跃度重焕新生
通过友盟+数据分析工具的综合数据分析和个性化推送功能,解决APP用户活跃度迅速下降的问题。
|
存储 调度 网络架构
计算机网络各层设备及功能讲解大汇总~
计算机网络各层设备及功能讲解大汇总~
802 0
|
API Windows
介绍一款API浏览器--Dash
介绍一款API浏览器--Dash
278 0
|
容器 Kubernetes 网络协议
在Istio上创建自定义的ingress-gateway
我们都知道,在istio中可以通过ingress gateway将服务暴露给外部使用,但是我们使用的ingress规则都是落在istio部署时默认创建的istio-ingressgateway上,如果我们希望创建自定义的ingressgateway该怎么操作呢,本文就带大家一步步操作,创建一个自定义的ingressgateway 环境准备 创建Kubernetes集群 阿里云容器服务Kubernetes 1.11.2目前已经上线,可以通过容器服务管理控制台非常方便地快速创建 Kubernetes 集群。
6147 0
|
小程序 API
微信小程序跳转到外部小程序
微信小程序跳转到外部小程序
389 0
|
人工智能 Cloud Native API
阿里云推出大模型助手魔搭GPT
据了解,阿里云的灵积模型服务平台,将面向所有业界模型开放。平台建设了一系列自动化的模型上云统一工具链路,支持模型的自主接入,所有接入灵积平台的模型都能自动获取平台的强大服务能力,包括基于阿里云强大算力的跨区域自适应弹性能力,并提供基于云原生的公共部署以及用户自定义独占部署等多种形式,来满足不同模型的需求。灵积平台还积累了模型自适应推理优化和高效微调训练的能力,并提供了基于插件进行模型能力拓展的系统框架。通过灵积,丰富多样化的模型不仅能通过推理API被集成,也能通过训练微调API实现模型定制化。对于AI开发者而言,这些不同模型的能力都能通过统一的SDK方便地获取并集成到自己的AI应用中去。当前灵
|
存储 安全 数据安全/隐私保护
Windows7文件与文件管理
2.3Windows 7的文件和文件夹管理 2.3.1文件和文件夹的概念 存放在计算机中的所有程序以及各种类型的数据,都是以文件的形式存储在磁盘上的,因此文件的组织和管理师操作系统要完成的主要功能之一。 在Windows 7中,可以使用“计算机”和“Windows资源管理器”来完成对文件、文件夹后果其他资源的管理。 所谓文件(File),是指存放在外存储器上的一组相关信息的集合。每个文件都有一个名字,称为文件名。文件名是操作系统中区分不同文件的唯一标志。 文件名是操作系统中区分不同文件的唯一标志,同一文件夹下,文件与文件不能重名,文件与文件夹不能重名,文件夹与文件夹不能重名。 文件名
|
监控 测试技术 项目管理
CMMI-质量保证
CMMI-质量保证
446 0
下一篇
开通oss服务