hadoop 原生MapReduce 实现数据连接

简介:

 其实很简单,输入两个文件,一个作为基础数据(学生信息文件),一个是分数信息文件。 
学生信息文件:存放学生数据:包括学号,学生名称

分数信息数据:存放学生的分数信息:包括学号,学科,分数。

我们将通过M/R实现根据学号,进行数据关联,最终结果为:学生名称,学科,分数。

模拟数据

学生数据

[hadoop@hadoop11 student_data]$ cat students.txt
1       Randy
2       Tom
3       kitty
4       Lucy
5       Lily
6       Bruce
7       King
8       Jay
9       Melody
10      Kimy
/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

分数数据

[hadoop@hadoop11 student_data]$ cat scores.txt
1       English 89
2       English 77
3       English 54
4       English 98
5       English 83
6       English 99
7       English 30
8       English 76
9       English 56
10      English 88
1       Math    79
2       Math    37
3       Math    65
4       Math    88
5       Math    89
6       Math    59
7       Math    60
8       Math    86
9       Math    56
10      Math    68
1       China   89
2       China   67
3       China   84
4       China   68
5       China   43
6       China   89
7       China   70
8       China   96
9       China   56
10      China   78
///////////////////////////////////////////////////////////////////////////////////////////////////////

实现

1)两个文本解析器,分别解析两个文本文件。

 



本文转自 randy_shandong 51CTO博客,原文链接:http://blog.51cto.com/dba10g/1565697,如需转载请自行联系原作者

相关文章
|
24天前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
54 2
|
25天前
|
分布式计算 Java Hadoop
Hadoop-18 Flume HelloWorld 第一个Flume尝试!编写conf实现Source+Channel+Sink 控制台查看收集到的数据 流式收集
Hadoop-18 Flume HelloWorld 第一个Flume尝试!编写conf实现Source+Channel+Sink 控制台查看收集到的数据 流式收集
28 1
|
25天前
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
25 4
|
25天前
|
SQL 分布式计算 关系型数据库
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
44 3
|
25天前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
77 3
|
25天前
|
SQL
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
28 2
|
25天前
|
分布式计算 Java Hadoop
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
54 1
|
25天前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
68 0
|
25天前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
32 0
|
25天前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
40 0