备案控制台

开发者社区大数据文章正文

hadoop 排重优化

2017-06-09 1141

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： java hadoop 排重优化

如果觉得有帮助的话就顶下吧

在统计的时候经常会用到排重，比如想统计每日登陆用户，但是一个用户一次多次登陆情况，或者一个产品被多少个用户下载。。等等情况

截图一是我之前写的代码：

下面是我优化后代码

public static class ReduceTask extends Reducer<Text, Text, Text, IntWritable> {

    private IntWritable rval = new IntWritable();
    private Multiset<Text> multiset=HashMultiset.create();

    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException {

        multiset.clear();
        for (Text item:values){
            multiset.add(item);
        }

        rval.set(multiset.elementSet().size());
        context.write(key, rval);
    }
}

Multiset，会将相同的key,存到value种，只要将key遍历出来取值的个数就是排重后的数据。

前者是循环嵌套查找但是占用内存少 ,1179个组，平均每个组被分到6万条，最坏情况下(6w/2)^2*1179级别的循环，后者利用hashmap高效的存取值方式，是O(n)的级别，但是占用内存比较大

性能对比，下图是输入的数据,经过map的筛选，，

下图是代码1执行的用时

执行了一小时还没结束，下图是代码二的时间只要俩分钟不到，执行速度有大幅提升

文章转载自开源中国社区[https://www.oschina.net]

文章标签：

分布式计算

Hadoop

关键词：

hadoop优化

行者武松

目录

相关文章

Cloudera小二

|

SQL 存储缓存

Hadoop-Impala优化十大指导原则和最佳实践(二)

简介：以下是性能准则和最佳做法。您可以使用在规划过程中实验，和hadoop集群一起进行impala的性能调整。所有这些信息也可在文档的其他地方更详细的impala文档；以下是优化的方法措施，强调优化调优技术提供最高的投资回报

Cloudera小二

1323 0 0

阿甘兄

|

5月前

|

分布式计算 Hadoop Java

hadoop sdk 优化小结（裁剪、集成kerberos组件、定制等)

hadoop sdk 优化小结（裁剪、集成kerberos组件、定制等)

阿甘兄

44 0 0

阿甘兄

|

9月前

|

分布式计算 Kubernetes Hadoop

hadoop sdk 优化小结（裁剪、集成kerberos组件、定制等)

hadoop sdk优化、裁剪、集成kerberos组件、定制化等

阿甘兄

87 0 0

@dailidong@

|

存储分布式计算 Java

大数据存储平台调优之Hadoop优化

大数据存储平台调优之Hadoop优化在搭建完集群、完成Linux系统配置(优化)后以及建好HDFS上的目录后，我们接下来需要对Hadoop集群做一些优化的工作。我们从两个方面来说：一是HDFS存储方面，一是计算方面 1、 HDFS方面： 1> 存储格式的选择对于分析类型的业务来说，最好的存储格式自然是列存储，因为数据量巨大，只扫关心的数据列无疑具有很大优势。

@dailidong@

4782 0 0

chad_chang

|

SQL 分布式计算 Hadoop

【Hadoop技术篇】hive的优化，经典面试

1）开启配置：set hive.optimize.bucketmapjoin = true; 2）一个表的bucket数是另一个表bucket数的==整数倍== 3） bucket列 == join列 4）满足map join条件

chad_chang

254 0 0

【Hadoop技术篇】hive的优化，经典面试

Cloudera小二

|

SQL 存储分布式计算

Hadoop-Impala优化十大指导原则和最佳实践(一)

以下是性能准则和最佳做法。您可以使用在规划过程中实验，和hadoop集群一起进行impala的性能调整。所有这些信息也可在文档的其他地方更详细的impala文档；以下是优化的方法措施，强调优化调优技术提供最高的投资回报

Cloudera小二

1612 0 1

余二五

|

SQL 分布式计算关系型数据库

EnterpriseDB剑指Hadoop:优化数据处理

余二五

1569 0 0

范大脚脚

|

分布式计算安全 Hadoop

Centos优化Hadoop

范大脚脚

1090 0 0

技术小哥哥

|

SQL 分布式计算负载均衡

Hadoop Hive概念学习系列之hive里的优化和高级功能（十四）

技术小哥哥

1297 0 0

轩墨

|

分布式计算算法大数据

Hadoop集群环境下网络架构的设计与优化

轩墨

1300 0 0

热门文章

最新文章

利用Hive与Hadoop构建大数据仓库：从零到一

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】

大数据处理架构Hadoop

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【Hadoop】HDFS 读写流程

Hadoop【基础知识 04】【HDFS常用shell命令】（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop【问题记录 02】【hadoop-3.1.3 单机版】ResourceManager无法启动NodeManager启动后过自动关闭 javax/activation/DataSource

Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】（图片来源于网络）

Apache Hadoop YARN基本架构

使用Hadoop和Nutch构建音频爬虫：实现数据收集与分析

Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)

百度搜索：蓝易云【Ubuntu搭建全分布式Hadoop】

hadoop升级流程

使用Sqoop将数据从Hadoop导出到关系型数据库

使用Sqoop将数据导入Hadoop的详细教程

Hadoop和Hive中的数据倾斜问题及其解决方案

Hadoop生态各个组件的关系

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

搭建Hadoop环境

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）