开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

使用Helm集群管理模式在实际生产过程中遇到哪些问题?

已解决

使用Helm集群管理模式在实际生产过程中遇到哪些问题?

展开
收起
游客lmkkns5ck6auu 2022-08-31 10:56:02 260 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    使用Helm集群管理模式在实际生产过程中也遇到了不少问题:

    • 第一是 K8s 资源瓶颈问题。因为每启动一个 JobManager 就会创建一个NodePort Service,而这个Service 会在整个集群范围内占用一个端口和一个 ClusterIP。当作业规模达到一定程度的时候,这些端口资源以及 IP 资源就会遇到性能瓶颈;

    • 第二个是 ServiceMesh 配置成本过高。由于 TaskManager 内部会访问第三方服务,比如说小红书自研的redkv service,那么每增加一个 redkv service,就需要去修改对应的配置并完成发版,成本是很高的;

    • 第三个是存在一定的资源泄露问题。所有的资源创建以及销毁都是通过执行 Helm 命令来完成的,在某些异常情况下,job 失败会导致 Helm delete 命令没有被执行,这个时候就有可能会存在资源泄露的问题;

    • 第四个是镜像版本比较难以收敛。在日常的生产过程中,某些线上任务出现了问题,会临时出一个hotfix 版本镜像并上线运行,久而久之线上就会存在很多版本镜像在运行,这对于后面的运维工作以及问题排查产生了非常大的挑战;

    • 最后一个问题是 UDF 管理复杂度比较高,这是任何分布式计算平台都会遇到的一个问题。

    以上内容摘自《Apache Flink 案例集(2022版)》电子书,点击https://developer.aliyun.com/ebook/download/7718 可下载完整版

    2022-08-31 13:02:20
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
王青:如何一天发布10次?基于元数据的持续交付方法 立即下载
一天发布10次-基于元数据的持续交付方法 立即下载
京东JDOS2.0容器平台有状态服务编排实践 立即下载