转自钉钉群21789141:
blink 使用 streaming 的 runtime 实现 batch,效率会降低吗?
在享受到流式处理优势的同时不会以牺牲吞吐位代价,首先checkpoint是增量异步的,overhead比较小对正常数据处理的影响很小,网络层的shuffle是以buffer为单位进行的,相当于micro batch吞吐很好,相比batch模式,下游提前启动了参与拉数据和处理,所以整体性能上会更好,除了资源占用会更多一些
绝顶:
可以看一下FFC上蒋晓伟研究员讲的keynote,上面有tpc-ds和spark的对比数据
https://files.alicdn.com/tpsservice/62fa5ebcd23ea0b8a956f2a06197b57a.pdf
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。