使用Helm集群管理模式在实际生产过程中遇到哪些问题?
使用Helm集群管理模式在实际生产过程中也遇到了不少问题:
• 第一是 K8s 资源瓶颈问题。因为每启动一个 JobManager 就会创建一个NodePort Service,而这个Service 会在整个集群范围内占用一个端口和一个 ClusterIP。当作业规模达到一定程度的时候,这些端口资源以及 IP 资源就会遇到性能瓶颈;
• 第二个是 ServiceMesh 配置成本过高。由于 TaskManager 内部会访问第三方服务,比如说小红书自研的redkv service,那么每增加一个 redkv service,就需要去修改对应的配置并完成发版,成本是很高的;
• 第三个是存在一定的资源泄露问题。所有的资源创建以及销毁都是通过执行 Helm 命令来完成的,在某些异常情况下,job 失败会导致 Helm delete 命令没有被执行,这个时候就有可能会存在资源泄露的问题;
• 第四个是镜像版本比较难以收敛。在日常的生产过程中,某些线上任务出现了问题,会临时出一个hotfix 版本镜像并上线运行,久而久之线上就会存在很多版本镜像在运行,这对于后面的运维工作以及问题排查产生了非常大的挑战;
• 最后一个问题是 UDF 管理复杂度比较高,这是任何分布式计算平台都会遇到的一个问题。
以上内容摘自《Apache Flink 案例集(2022版)》电子书,点击https://developer.aliyun.com/ebook/download/7718 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。