开发者社区 问答 正文

热点数据单独处理/SkewJoin的核心思路是什么?

热点数据单独处理/SkewJoin的核心思路是什么?

展开
收起
花开富贵111 2024-05-23 15:33:05 100 分享 版权
2 条回答
写回答
取消 提交回答
  • 热点数据单独处理/SkewJoin的核心思路是将热点数据提取出来单独处理,热点数据使用Mapjoin的方式完成关联,非热点数据则使用普通的shuffle模式的join方案完成关联。最终将两部分结果合并,完成整体的数据关联。

    2024-05-23 15:49:02
    赞同 展开评论
  • 当两张表Join存在热点,导致出现长尾问题时,您可以通过取出热点key,将数据分为热点数据和非热点数据两部分处理,最后合并的方式,提高Join效率。SkewJoin Hint可以通过自动或手动方式获取两张表的热点key,分别计算热点数据和非热点数据的Join结果并合并,加快Join的执行速度。
    https://help.aliyun.com/zh/maxcompute/user-guide/skewjoin-hint

    2024-05-23 15:38:52
    赞同 展开评论
问答地址: