近期我需要做一个 Flink/SparkStreaming 吞吐/延时的性能分析, 我发现网上这方面资料很少, 只有17年美团/15年yahoo 做了一个类似的分析. 问题如下: 1. 简单的读kafka写kafka 要如何记录数据进flink/出flink 的时间? 如果是打时间戳要怎么打? 打的话会不会影响性能? 2. 我想到的场景是: 简单插数etl, 基本的过滤, 窗口. 请问还有没有什么定性定量的方式可以测量框架性能?
yahoo: https://yahooeng.tumblr.com/post/135321837876/benchmarking-streaming-computation-engines-at
*来自志愿者整理的flink邮件归档
我们最近做了一个基于beam nexmark的性能对比测试[1],你可以参考一下。 和beam的测试不同的是,我们用各自引擎的API对着测试case描述的场景重新写了一下,并不是像这个里面一样全都用 beam的api写测试case,然后翻译到多个runner之上。
[1] https://beam.apache.org/documentation/sdks/java/testing/nexmark/
*来自志愿者整理的flink邮件归档
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。