map端 join算法实现

简介: map端 join算法实现

1、原理阐述

适用于关联表中有小表的情形;

可以将小表分发到所有的map节点,这样,map节点就可以在本地对自己所读到的大表数据进行join并输出最终结果,可以大大提高join操作的并发度,加快处理速度


2、实现示例

–先在mapper类中预先定义好小表,进行join

–引入实际场景中的解决方案:一次加载数据库或者用


第一步:定义mapJoin

public class Map extends Mapper<LongWritable, Text,Text,Text> {
    HashMap<String, String> map = new HashMap<>();
    String line="";
    @Override
    protected void setup(Context context) throws IOException, InterruptedException {
        URI[] cacheFiles = DistributedCache.getCacheFiles(context.getConfiguration());
        FileSystem fileSystem = FileSystem.get(cacheFiles[0], context.getConfiguration());
        FSDataInputStream open = fileSystem.open(new Path(cacheFiles[0]));
        BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(open));
        while ((line=bufferedReader.readLine())!=null){
            String[] split = line.split(",");
            map.put(split[0],split[1]+" "+split[2]+"  "+split[3]);
        }
        bufferedReader.close();
        fileSystem.close();
    }
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] split = value.toString().split(",");
        String s = map.get(split[2]);
        context.write(new Text(split[2]),new Text(s+" "+split[0]+"  "+split[1]+"  "+split[3]));
    }
}

第二步:定义程序运行main方法

public class Driver {
    public static void main(String[] args)throws Exception {
        Configuration configuration = new Configuration();
        //注意,这里的缓存文件的添加,只能将缓存文件放到hdfs文件系统当中
        DistributedCache.addCacheFile(new URI("hdfs:// IP :8020/目录"),configuration);
        Job job = Job.getInstance(configuration, "方法名");
        job.setJarByClass(Driver.class);
        job.setMapperClass(Map.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        FileInputFormat.addInputPath(job,new Path("加载路径"));
        FileOutputFormat.setOutputPath(job,new Path("写入路径"));
        boolean b = job.waitForCompletion(true);
        System.exit(b?0:1);
    }
}


相关文章
|
7月前
|
算法 5G
基于LDPC编译码和FP-MAP球形检测算法的协作MIMO系统误码率matlab仿真
基于LDPC编译码和FP-MAP球形检测算法的协作MIMO系统误码率matlab仿真
|
SQL 算法 关系型数据库
深入理解MySQL中的Join算法
在数据库处理中,Join操作是最基本且最重要的操作之一,它能将不同的表连接起来,实现对数据集的更深层次分析。
1111 8
深入理解MySQL中的Join算法
|
分布式计算 算法 数据库
32 MAPREDUCE的map端join算法实现
32 MAPREDUCE的map端join算法实现
48 0
|
5月前
|
人工智能 算法 大数据
算法金 | 推导式、生成器、向量化、map、filter、reduce、itertools,再见 for 循环
这篇内容介绍了编程中避免使用 for 循环的一些方法,特别是针对 Python 语言。它强调了 for 循环在处理大数据或复杂逻辑时可能导致的性能、可读性和复杂度问题。
60 6
算法金 | 推导式、生成器、向量化、map、filter、reduce、itertools,再见 for 循环
|
5月前
|
监控 前端开发 SQL
ODPS SQL问题之在何种情况下建议使用Distributed Map Join
ODPS SQL问题之在何种情况下建议使用Distributed Map Join
|
6月前
|
算法 关系型数据库 MySQL
深入理解MySQL中的JOIN算法
深入理解MySQL中的JOIN算法
|
7月前
|
Python
Python内置函数map、split、join讲解
Python内置函数map、split、join讲解
304 0
|
7月前
|
算法 测试技术 C++
【动态规划】【map】【C++算法】1289. 下降路径最小和 II
【动态规划】【map】【C++算法】1289. 下降路径最小和 II
|
7月前
|
算法 测试技术 C#
【map】【滑动窗口】【字典树】C++算法:最长合法子字符串的长度
【map】【滑动窗口】【字典树】C++算法:最长合法子字符串的长度
|
7月前
|
算法 测试技术 C#
【map】【滑动窗口】C++算法:最小区间
【map】【滑动窗口】C++算法:最小区间