Flink 的集群规模一般由数据规模、计算复杂度、服务可用性等因素决定。如果数据量较大、计算复杂度高,服务的可用性和并发性也要求较高,那么需要更大的集群。相反,如果数据量较小,计算复杂度低,服务可用性和并发性的要求也较低,那么可以使用较小的集群来满足我们的需求。
具体如何部署需要根据实际情况来确定集群规模,一般建议按照以下步骤进行规划:
执行压测:通过压测模拟真实的业务场景,观察Flink的性能表现,包括:容错、吞吐量、延迟等指标。
按数据量规划:根据数据规模来规划,以数据量100GB ~ 200GB为一个节点规模。
按计算量规划:根据计算复杂度和计算任务类型,规划任务执行的并行度和slot数,并根据每个slot的配置规划节点规模。
按用户并发度规划:根据服务的并发请求量,规划节点规模,一般情况下,每个节点可以承载一定数量的并发请求。
看数据大小,任务复杂度,本身的资源和机器性能四个方面,大概100G,复杂度不高,但是想处理的速度能达到100m/s,大概是需要五台16个cpu128g内存左右的机器,这样我们可以有1000个并行任务,大概60多个taskmanager,每台运行25个左右
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。