Hadoop

首页 标签 Hadoop
# Hadoop #
关注
11377内容
Hadoop大数据平台实战(01):Impala vs Hive的区别
Hadoop大数据生态系统重要的2个框架Apache Hive和Impala,用于在HDFS和HBase上进行大数据分析。 但Hive和Impala之间存在一些差异--Hadoop生态系统中的SQL分析引擎的竞争。本文中我们会来对比两种技术Impala vs Hive区别?
Hadoop 集群启动后,从节点的NodeManager没有启动解决
1.slaves节点报错,报的是启动nodemanager 所需内存不足 解决: a: 修改 yarn-site.
深入浅出:Hadoop的start-balancer.sh与hdfs balancer分布式数据均衡
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如:1、MR程序无法很好地利用本地计算的优势2、机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。
Hadoop streaming 排序、分桶参数设置
编写hadoop任务经常需要用到partition和排序。这里记录一下几个参数。 1. 概念 Partition:分桶过程,用户输出的key经过partition分发到不同的reduce里,因而partitioner就是分桶器,一般用平台默认的hash分桶也可以自己指定。
Hadoop DistCp
本文讲的是Hadoop DistCp,DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。
免费试用