开发者社区> 问答> 正文

Hadoop性能调优?

Hadoop性能调优?

展开
收起
茶什i 2019-10-29 14:35:45 1817 0
2 条回答
写回答
取消 提交回答
  • 1)操作系统调优 Hadoop的运行环境,硬件配置起得至关重要的作用,硬件的参数配置对性能影响非常大,在部署Hadoop时,合理的硬件选择是一种优化思路。

    (2)从应用程序角度进行优化。 由于mapreduce是迭代逐行解析数据文件的,怎样在迭代的情况下,编写高效率的应用程序,是一种优化思路。

    (3)对Hadoop参数进行调优。 当前hadoop系统有190多个配置参数,怎样调整这些参数,使hadoop作业运行尽可能的快,也是一种优化思路。

    (4)从系统实现角度进行优化。 这种优化难度是最大的,它是从hadoop实现机制角度,发现当前Hadoop设计和实现上的缺点,然后进行源码级地修改。该方法虽难度大,但往往效果明显。

    2019-10-30 21:21:41
    赞同 展开评论 打赏
  • 调优可以通过系统配置、程序编写和作业调度算法来进行。
    hdfs的block.size可以调到128/256(网络很好的情况下,默认为64)
    调优的大头:mapred.map.tasks、mapred.reduce.tasks设置mr任务数(默认都是1)
    mapred.tasktracker.map.tasks.maximum每台机器上的最大map任务数
    mapred.tasktracker.reduce.tasks.maximum每台机器上的最大reduce任务数
    mapred.reduce.slowstart.completed.maps配置reduce任务在map任务完成到百分之几的时候开始进入
    这个几个参数要看实际节点的情况进行配置,reduce任务是在33%的时候完成copy,要在这之前完成map任务,(map可以提前完成)
    mapred.compress.map.output,mapred.output.compress配置压缩项,消耗cpu提升网络和磁盘io
    合理利用combiner
    注意重用writable对象

    2019-10-30 15:43:48
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
《构建Hadoop生态批流一体的实时数仓》 立即下载
零基础实现hadoop 迁移 MaxCompute 之 数据 立即下载
CIO 指南:如何在SAP软件架构中使用Hadoop 立即下载

相关实验场景

更多