MapReduce编程:检索特定群体搜索记录和定义分片操作

简介: MapReduce编程:检索特定群体搜索记录和定义分片操作


MapReduce 编程:检索特定群体搜索记录和定义分片操作

一、实验目标

  1. 熟悉MapReduce编程涉及的主要类和接口的含义和用法
  2. 熟练掌握Mapper类,Reducer类和main函数的编写
  3. 熟练掌握在本地测试方法
  4. 熟练掌握集群上进行分布式程序测试

二、实验要求及注意事项

  1. 给出每个实验的主要实验步骤、实现代码和测试效果截图。
  2. 对本次实验工作进行全面的总结分析。
  3. 所有程序需要本地测试和集群测试,给出相应截图。
  4. 建议工程名,类名或包名等做适当修改,显示个人学号或者姓名

三、实验内容及步骤

实验任务1:检索特定偏好用户和群体操作:使用mapreduce编程,读取文本文件sogou.500w.utf8,查找搜索过“仙剑奇侠传”用户的uid,利用mapreduce的特性对uid进行去重并输出,实现效果参考图1。

图1 搜索过“仙剑奇侠传”用户的uid及搜索次数输出结果

主要实现步骤和运行效果图:

(1)进入虚拟机并启动Hadoop集群,完成文件上传。

(2)启动Eclipse客户端,新建一个java工程;在该工程中创建package,导入jar包,完成环境配置,依次创建包、Mapper类,Reducer类和主类等;

(3)完成代码编写。

SearchMap

package hadoop;
import java.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.io.*;
public class WjwSearchMap extends Mapper<Object, Text, Text, Text>{
  public void map(Object key, Text value, Context context) throws IOException,InterruptedException{
    String arr[] = value.toString().split("\t");
    if(arr != null && arr.length==6){
      String uid = arr[1];
      String keyword = arr[2];
      if(keyword.indexOf("仙剑奇侠")>=0){
        context.write(new Text(uid), new Text(keyword));
      }
    }
  }
}

SearchReduce

package hadoop;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import java.io.*;
public class WjwSearchReduce extends Reducer<Text, Text, Text, IntWritable>{
  @SuppressWarnings("unused")
  protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException{
    int s=0;
    for(Text word:values){
      s++;
    }
    context.write(key, new IntWritable(s));
  }
}

SearchMain

package hadoop;
import java.io.IOException;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.fs.*;
@SuppressWarnings("unused")
public class WjwSearchMain {
  @SuppressWarnings("deprecation")
  public static void main(String[] args) throws IllegalArgumentException,
  IOException,ClassNotFoundException,InterruptedException{
    if(args.length != 2 || args == null){
      System.out.println("please input args");
    }
    Job job = new Job(new Configuration(), "WjwSearchMain");
    job.setJarByClass(WjwSearchMain.class);
    job.setMapperClass(WjwSearchMap.class);
    job.setReducerClass(WjwSearchReduce.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(Text.class);
    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    System.exit(job.waitForCompletion(true)?0:1);
  }
}

(4)测试程序,并查看输出结果。

实验任务2:MapReduce自定义分片(Split)操作:使用mapreduce编程,设置mr过程中Map Task读取文件时的split大小。实现效果:

主要实现步骤和运行效果图:

(1)进入虚拟机并启动Hadoop集群,完成文件上传。

(2)启动Eclipse客户端,新建一个java工程;在该工程中创建package,导入jar包,完成环境配置,依次创建包、Mapper类,Reducer类和主类等;

(3)完成代码编写。

SplitMap

package hadoop;
import java.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.io.*;
public class WjwSplitMap extends Mapper<Object, Text, Text, IntWritable>{
  public void map(Object key, Text value, Context context) throws IOException,InterruptedException{
    String arr[] = value.toString().split("\t");
    if(arr != null && arr.length==6){
      String uid = arr[1];
      String keyword = arr[2];
      if(keyword.indexOf("电影")>=0){
        context.write(new Text(uid), new IntWritable(1));
      }
    }
  }
}

SplitMain

package hadoop;
import java.io.IOException;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.fs.*;
@SuppressWarnings("unused")
public class WjwSplitMain {
  @SuppressWarnings("deprecation")
  public static void main(String[] args) throws IllegalArgumentException,
  IOException,ClassNotFoundException,InterruptedException{
    if(args.length != 2 || args == null){
      System.out.println("please input args");
    }
    Job job = new Job(new Configuration(), "WjwSplitMain");
    job.setJarByClass(WjwSplitMain.class);
    job.setMapperClass(WjwSplitMap.class);
    job.setNumReduceTasks(0);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.setMinInputSplitSize(job, 256*1024*1024);
    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    System.exit(job.waitForCompletion(true)?0:1);
  }
}

(4)测试程序,并查看输出结果。

目录
相关文章
|
5月前
|
分布式计算 Hadoop Java
MapReduce编程:自定义分区和自定义计数器
MapReduce编程:自定义分区和自定义计数器
57 0
|
2月前
|
分布式计算 大数据 Hadoop
揭秘MapReduce背后的魔法:从基础类型到高级格式,带你深入理解这一大数据处理利器的奥秘与实战技巧,让你从此不再是编程门外汉!
【8月更文挑战第17天】MapReduce作为分布式计算模型,是大数据处理的基石。它通过Map和Reduce函数处理大规模数据集,简化编程模型,使开发者聚焦业务逻辑。MapReduce分单阶段和多阶段,支持多种输入输出格式如`TextInputFormat`和`SequenceFileInputFormat`。例如,简单的单词计数程序利用`TextInputFormat`读取文本行并计数;而`SequenceFileInputFormat`适用于高效处理二进制序列文件。合理选择类型和格式可有效解决大数据问题。
30 1
|
5月前
|
存储 分布式计算 算法
【底层服务/编程功底系列】「大数据算法体系」带你深入分析MapReduce算法 — Shuffle的执行过程
【底层服务/编程功底系列】「大数据算法体系」带你深入分析MapReduce算法 — Shuffle的执行过程
78 0
|
4月前
|
分布式计算 Hadoop Java
MapReduce编程模型——在idea里面邂逅CDH MapReduce
MapReduce编程模型——在idea里面邂逅CDH MapReduce
65 15
|
4月前
|
分布式计算 Hadoop Java
Hadoop MapReduce编程
该教程指导编写Hadoop MapReduce程序处理天气数据。任务包括计算每个城市ID的最高、最低气温、气温出现次数和平均气温。在读取数据时需忽略表头,且数据应为整数。教程中提供了环境变量设置、Java编译、jar包创建及MapReduce执行的步骤说明,但假设读者已具备基础操作技能。此外,还提到一个扩展练习,通过分区功能将具有相同尾数的数字分组到不同文件。
47 1
|
4月前
|
存储 分布式计算 Hadoop
MapReduce编程模型——自定义序列化类实现多指标统计
MapReduce编程模型——自定义序列化类实现多指标统计
33 0
|
4月前
|
机器学习/深度学习 分布式计算 并行计算
MapReduce是一种用于并行计算的编程模型和处理大规模数据集的实现
MapReduce是一种用于并行计算的编程模型和处理大规模数据集的实现
54 0
|
5月前
|
分布式计算 资源调度 Hadoop
MapReduce分布式编程
MapReduce分布式编程
56 1
|
4月前
|
存储 分布式计算 Hadoop
Hadoop生态系统详解:HDFS与MapReduce编程
Apache Hadoop是大数据处理的关键,其核心包括HDFS(分布式文件系统)和MapReduce(并行计算框架)。HDFS为大数据存储提供高容错性和高吞吐量,采用主从结构,通过数据复制保证可靠性。MapReduce将任务分解为Map和Reduce阶段,适合大规模数据集的处理。通过代码示例展示了如何使用MapReduce实现Word Count功能。HDFS和MapReduce的结合,加上YARN的资源管理,构成处理和分析大数据的强大力量。了解和掌握这些基础对于有效管理大数据至关重要。【6月更文挑战第12天】
125 0
|
4月前
|
分布式计算 自然语言处理 大数据
【大数据】MapReduce JAVA API编程实践及适用场景介绍
【大数据】MapReduce JAVA API编程实践及适用场景介绍
89 0
下一篇
无影云桌面