开发者社区> 问答> 正文

批处理是怎么去处理两个表 join 的?

批处理是怎么去处理两个表 join 的?

展开
收起
芯在这 2021-12-09 23:56:04 395 0
1 条回答
写回答
取消 提交回答
  • 一般批处理引擎实现的时候,会采用两个思路。

    一个是基于排序的 Sort-Merge join。另外一个是转化为 Hash table 加载到内存里做 Hash join。在双流 join 场景里面要处理的对象不再是这种批数据、有限的数据,而是是无穷数据集,对于无穷数据集来说,我们没有办法排序以后再做处理,同样也没有办法把无穷数据集全部转成 Cache 加载到内存去做处理。所以这两种方式基本是不能够适用的。同时在双流 join 场景里面,我们的 join 对象是两个流,数据也是不断在进入的,所以我们 join 的结果也是需要持续更新的。

    2021-12-09 23:56:25
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Phoenix 全局索引原理与实践 立即下载
大批量处理excel文件到ODPS中方案 立即下载
低代码开发师(初级)实战教程 立即下载