开发者社区> 问答> 正文

在map端简单缓存、排序分组,在reduce端合并组合要怎么做?

在map端简单缓存、排序分组,在reduce端合并组合要怎么做?

展开
收起
游客fbdr25iajcjto 2021-12-06 22:04:46 614 0
1 条回答
写回答
取消 提交回答
  • 在缓存中利用指定的排序函数对数据按照partition或者key进行排序,最后按partition顺序合并写入同一文件。

    当没有指定聚合函数,且partition数量大时,一般采用这种方式,见如下图。此种方式将多个bucket合并到同一个文件,通过减少map输出的文件数量,节省了磁盘I/O,提升了性能;对SizeTrackingPairBuffer的缓存进行溢出判断,当超过myMemoryThreshold的大小时,将数据写入磁盘,防止内存溢出。

    2021-12-06 22:05:20
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
基于英特尔 SSD 的虚拟机缓存解决SSD 立即下载
用户态高速块缓存方案 立即下载
高性能Web架构之缓存体系 立即下载