1.Group By的执行任务
2.distinct的执行任务:
尽量用group by
3.join 执行任务:
从这个实现可以看出,我们在写Hive Join的时候,应该尽可能把小表(分布均匀的表)写在左边,大表(或倾斜表)写在右边。这样可以有效利用内存和硬盘的关系,提高Hive的处理能力。
学会用explain 查看hive sql 执行计划
参考:
1.Group By的执行任务
2.distinct的执行任务:
尽量用group by
3.join 执行任务:
从这个实现可以看出,我们在写Hive Join的时候,应该尽可能把小表(分布均匀的表)写在左边,大表(或倾斜表)写在右边。这样可以有效利用内存和硬盘的关系,提高Hive的处理能力。
学会用explain 查看hive sql 执行计划
参考: