在Hudi的Append写入场景下,你们进行了哪些优化来提升吞吐能力?
在Hudi的Append写入场景下,我们进行了以下优化来提升吞吐能力:
1.优化了小文件的查找过程。由于Append场景不存在文件大小不均匀的问题,我们简化了update模式下每次checkpoint后重新list文件并查找小文件的操作。
2.替换了keyby操作。在Append场景下,由于没有重复key,我们使用chain代替keyby,减少了节点之间序列化传输的开销。
3.避免了内存合并。Append场景下不存在内存合并的需求,整体效率更高。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。