《Apache Flink 案例集(2022版)》——4.云原生——京东-Flink on K8s 在京东的持续优化实践(下)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 《Apache Flink 案例集(2022版)》——4.云原生——京东-Flink on K8s 在京东的持续优化实践(下)

《Apache Flink 案例集(2022版)》——4.云原生——京东-Flink on K8s 在京东的持续优化实践(上) https://developer.aliyun.com/article/1228060



接下来是磁盘的性能问题。容器中的存储空间由两部分组成,如上图所示,底层是只读的镜像层,顶部是可读写的容器层。容器运行的时候涉及到文件的写操作都是在容器层中完成的,这里需要一个存储驱动提供联合文件系统来管理。  


存储驱动一般来说为空间效率进行了优化,额外的抽象会带来一定的性能损耗 (取决于具体存储驱动),写入速度要低于本地文件系统,特别是使用了写时复制的存储驱动来说,损耗更大。这对于写密集型的应用来说,会有更大的性能影响。而在 Flink 中,很多地方都涉及到本地磁盘的读写,比如日志输出、RocksDB 读写、批任务 shuffle 等。那么该如何处理来减小影响?  


一是可以考虑使用外挂的 Volume,使用本地存储卷,直接写数据到 主机文件系统来提升性能;


此外也可以调优磁盘 IO 相关参数,比如调优 RocksDB 参数,提升磁盘的访问性能;


最后也可以考虑采用一些存储计算分离的方案,比如使用 Remote Shuffle,提升本地Shuffle的性能和稳定性。


image.png

在实践过程中经常会发现,很多业务的计算任务配置不合理,占用了过多的资源造成了资源浪费。此外,流量存在波峰波谷,如何在洪峰时自动扩容,在波谷时自动缩容,在减少人工干预、保证业务稳定的同时提高资源利用率,这都涉及到资源弹性伸缩的问题。为此京东开发了弹性伸缩的服务,根据作业运行情况动态调整任务的并行度以及 Taskmanager 的规格,来解决作业吞吐不足、资源浪费等问题。  


通过弹性伸缩服务,可以较好地解决一些场景的资源浪费问题,以及任务吞吐与算子并行度呈线性关系条件下的性能问题。不过它还是存在一定的局限性,比如对于外部的系统瓶颈、数据倾斜以及任务本身的性能瓶颈还有无法通过扩并行度提升的场景,不能很好地应对解决。  


此外结合弹性伸缩,京东进行了一些实时流任务和离线批任务错峰混部的尝试。如上图右所示,在凌晨前后,流任务比较空闲,会缩容释放出一些资源给批任务;之后可以使用这些释放的资源在夜间运行批任务;到了白天批任务运行完释放的资源又可以还给流任务,用于扩容以应对流量洪峰,从而提高资源的整体利用率。


image.png

相比物理机或 YARN 环境,Flink on K8s 出现问题以后的排查相对要更困难,因为这里面还涉及到 K8s 许多组件,比如容器网络、DNS 解析、K8s 调度等各方面的问题,都存在一定的门槛。  


为了解决这个问题,京东开发了智能诊断的服务,将作业相关的各个维度的监控指标 (包括物理机的、容器的、集群的和任务的指标) 与任务拓扑结合起来并与 K8s 打通,结合Pod日志和任务日志联合进行分析,并将日常人工运维的一些方法进行归纳总结应用到分析策略中,诊断出作业的问题并给出优化建议。目前支持对任务重启、任务背压、Checkpoint失败、集群资源利用率低等一些常见问题进行诊断。


用户收益

全部 on K8s 后收益还是比较明显的:  


首先混合部署服务和资源共享能力获得了提升,节省机器资源 30%;


其次,具有更好的资源隔离和弹性自愈能力,比较容易实现根据业务的负载进行资源的弹性伸缩,保证了业务的稳定性;


最后开发、测试、生产一致性的环境,避免环境给整个开发过程带来问题,同时极大提升了部署和运营自动化的能力,降低了管理运维的成本。


未来规划

未来京东会在以下几方面继续探索:  


1. 调度优化:


一方面是 K8s 层面资源调度优化,更高效地管理大数据的在线服务和离线作业,提升 K8s 集群的利用率和运行效率;


另一方面是 Flink 作业调度优化,支持更丰富、更细粒度的调度策略,提升 Flink 作业资源的利用率和稳定性,满足不同的业务场景需要。  


2. 服务混部:将不同负载的服务混部在一起,在保证服务稳定的前提下尽量提升资源利用率,使服务器的价值最大化;  

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1天前
|
运维 Cloud Native Devops
云原生架构的演进与实践:面向未来的企业技术战略
在数字化转型的浪潮中,云原生架构已成为推动企业技术创新和业务敏捷性的核心力量。本文旨在深入探讨云原生架构的发展历程、关键技术组件以及在实际应用中的效益与挑战。通过分析来自全球不同行业的实证数据和案例研究,文章揭示云原生技术如何助力企业实现资源的高效利用、应用的快速迭代和系统的弹性扩展。同时,结合最新的研究成果和行业报告,为读者提供一套系统化的云原生采纳指南和战略规划建议,以期帮助企业构建面向未来的技术体系,并在激烈的市场竞争中保持领先地位。
17 0
|
2天前
|
运维 监控 Cloud Native
云原生架构的演化与实践
【6月更文挑战第29天】云原生技术,作为现代软件开发和运维的前沿阵地,其核心理念在于构建可弹性扩展、高度可靠且易于管理的系统。本文将深入探讨云原生架构的发展脉络,解析其关键技术组件,并通过实际案例展示如何将这些原则应用于日常开发和运维中。我们还将讨论在采纳云原生技术时所面临的挑战及应对策略,以期为读者提供一套全面而实用的云原生解决方案。
115 1
|
3天前
|
Cloud Native 安全 开发者
云原生架构的演进与实践:从微服务到无服务器计算
本文深入探讨了云原生技术的最新进展,特别关注微服务和无服务器计算模型。通过分析相关研究数据和行业案例,文章揭示了云原生架构如何推动现代应用开发,提升运维效率,并实现资源的最优化配置。文中详细讨论了云原生生态系统中的关键组成部分,包括容器化、自动化管理工具和服务网格,以及它们如何共同促进敏捷性和可扩展性。此外,文章还分析了云原生安全策略的重要性,以及如何在保障安全的同时,保持系统的灵活性和高效性。
|
3天前
|
运维 监控 负载均衡
云原生架构下的微服务治理实践
【6月更文挑战第28天】在数字化转型的浪潮中,云原生技术以其高效、灵活的特性成为企业IT架构升级的首选。本文将深入探讨在云原生环境下,如何通过微服务治理提升系统的可维护性、可扩展性和韧性。我们将从服务发现与注册、配置管理、服务监控、路由与负载均衡、以及故障处理等方面出发,结合具体案例,为读者提供一套完整的微服务治理策略,旨在帮助开发和运维团队更好地管理和优化他们的云原生应用。
|
6天前
|
Cloud Native 安全 持续交付
云原生技术在现代企业中的实践与挑战
云原生技术作为一种新兴的架构模式,正在逐步改变企业的IT基础设施和软件开发流程。本文将探讨云原生技术的核心概念、优势以及在现代企业中的应用实例,同时分析在实施过程中可能遇到的挑战和解决方案。通过深入分析,旨在为企业提供云原生转型的参考和指导。
11 0
|
6天前
|
运维 Cloud Native 安全
云原生架构的演进与实践
【6月更文挑战第25天】本文将深入探讨云原生技术从概念提出到实际应用的发展过程,分析其核心价值和面临的挑战。文章将通过具体案例,展示云原生如何促进企业IT架构的现代化转型,并讨论在实施过程中的最佳实践和注意事项,旨在为读者提供一份云原生技术落地的实用指南。
31 2
|
6天前
|
存储 运维 OLAP
抖音集团基于 SelectDB 内核 Apache Doris 的实时数据仓库实践
在直播、电商等业务场景中存在着大量实时数据,这些数据对业务发展至关重要。而在处理实时数据时,我们也遇到了诸多挑战,比如实时数据开发门槛高、运维成本高以及资源浪费等。
抖音集团基于 SelectDB 内核 Apache Doris 的实时数据仓库实践
|
7天前
|
Kubernetes Cloud Native API
云原生架构的演进与实践
在数字化转型的浪潮中,云原生技术以其灵活性、可扩展性和弹性成为企业IT战略的核心。本文将深入探讨云原生架构的关键组件、设计原则以及如何在实践中有效应用这些概念以支持现代业务需求。通过分析容器化、微服务、持续集成/持续部署(CI/CD)和声明式API等技术的应用,本文旨在为读者提供一套全面的云原生实施指南,助力企业构建更加灵活、高效的IT基础设施。
15 0
|
7天前
|
运维 负载均衡 Cloud Native
云原生架构下的微服务治理实践
【6月更文挑战第24天】在云原生的浪潮下,微服务治理成为确保系统弹性、可维护性和可观测性的关键。本文通过深入分析微服务治理的核心要素与挑战,结合前沿技术和工具,提出一套实用的微服务治理策略,旨在帮助开发者和架构师构建更加稳定、高效且易于管理的分布式系统。
|
8天前
|
人工智能 Cloud Native Java
从云原生视角看 AI 原生应用架构的实践
本文核心观点: • 基于大模型的 AI 原生应用将越来越多,容器和微服务为代表的云原生技术将加速渗透传统业务。 • API 是 AI 原生应用的一等公民,并引入了更多流量,催生企业新的生命力和想象空间。 • AI 原生应用对网关的需求超越了传统的路由和负载均衡功能,承载了更大的 AI 工程化使命。 • AI Infra 的一致性架构至关重要,API 网关、消息队列、可观测是 AI Infra 的重要组成。
50099 9

热门文章

最新文章

相关产品

  • 实时计算 Flink版
  • 推荐镜像

    更多