实时计算 Flink性能调优

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 实时计算 Flink新增自动调优功能autoconf。能够在流作业以及上下游性能达到稳定的前提下,根据您作业的历史运行状况,重新分配各算子资源和并发数,达到优化作业的目的。更多详细说明请您参阅自动配置调优。

自动配置调优

实时计算 Flink新增自动调优功能autoconf。能够在流作业以及上下游性能达到稳定的前提下,根据您作业的历史运行状况,重新分配各算子资源和并发数,达到优化作业的目的。更多详细说明请您参阅自动配置调优

首次智能调优

  1. 创建一个作业。如何创建作业请参看快速入门
  2. 上线作业。选择智能推荐配置指定使用CU数为系统默认,不填即可。点击下一步
    实践上线作业

  3. 数据检查,预估消耗CU数。
    实践数据检查

  4. 运维界面启动作业,根据实际业务需要指定读取数据时间
    实践启动

    说明:实时计算作业启动时候需要您指定启动时间。实际上就是从源头数据存储的指定时间点开始读取数据。指定读取数据时间需要在作业启动之前。例如,设置启动时间为1小时之前。

  5. 待作业稳定运行10分钟后,且以下状态符合要求,即可开始下一次性能调优。

    • 运行信息拓扑图中IN_Q不为100%。
      拓扑
    • 数据输入RPS符合预期。
      实践输入RPS

非首次性能调优

  1. 停止>下线作业。
    实践下线作业

  2. 重新上线作业。选择智能推荐配置指定使用CU数为系统默认,不填即可。点击下一步
    实践重新上线作业

  3. 数据检查,再次预估消耗CU数。
    实践数据检查

  4. 运维界面启动作业,待作业稳定运行十分钟后,即可再一次性能调优。
    实践启动

说明:

  • 自动配置调优一般需要3到5次才能达到理想的调优效果。请完成首次性能调优后,重复非首次性能调优过程多次。
  • 每次调优前,请确保足够的作业运行时长,建议10分钟以上。
  • 指定CU数(参考值) = 实际消耗CU数*目标RPS/当前RPS。
    • 实际消耗CU数:上一次作业运行时实际消耗CU
    • 目标RPS:输入流数据的实际RPS(或QPS)
    • 当前RPS:上一次作业运行时实际的输入RPS

手动配置调优

手动配置调优可以分以下三个类型。

  • 资源调优
  • 作业参数调优
  • 上下游参数调优

资源调优

资源调优即是对作业中的Operator的并发数(parallelism)、CPU(core)、堆内存(heap_memory)等参数进行调优。

分析定位资源调优节点

定位性能瓶颈节点

性能瓶颈节点为Vertex拓扑图最下游中参数IN_Q值为100%的一个或者多个节点。如下图,7号节点为性能瓶颈节点。
资源调优瓶颈

分析性能瓶颈因素

性能瓶颈的可分为三类。

  • 并发(parallelism)不足
  • CPU(core)不足
  • MEM(heap_memory)不足

如下图,7号节点的性能瓶颈是资源(CPU和/或MEM)配置不足所导致。
资源调优瓶颈

说明:判断性能瓶颈因素方法

  • 瓶颈节点的资源健康分为100,则认为资源已经合理分配,性能瓶颈是并发数不足所导致。
  • 瓶颈节点的资源健康分低于100,则认为性能瓶颈是单个并发的资源(CPU和/或MEM)配置不足所导致。
  • 无持续反压,但资源健康分低于100,仅表明单个并发的资源使用率较高,但暂不影响作业性能,可暂不做调优。

通过作业运维页面中Metrics Graph功能,进一步判断性能瓶颈是CPU不足还是MEM不足。步骤如下。

  1. 运维界面中,点击TaskExecutor,找到性能瓶颈节点ID,点击查看详情
    TaskList

  2. 选择Metrics Graph,根据曲线图判断CPU或者MEM是否配置不足(很多情况下两者同时不足)。
    资源调优MG

调整资源配置

完成了性能瓶颈因素判断后,点击开发>基本属性>跳转到新窗口配置,开始调整资源配置。
资源调优新窗口配置

批量修改Operator
  1. 点击GROUP框,进入批量修改Operator数据窗口。
    批量

    说明:

    1. GROUP内所有的operator具有相同的并发数。
    2. GROUP的core为所有operator的最大值。
    3. GROUP的_memory为所有operator之和。
    4. 建议单个Job维度的CPU:MEM=1:4,即1个核对应4G内存。
  2. 配置修改完成后点击应用当前配置并关闭窗口
    应用当前配置并关闭窗口

单个修改Operator
  1. 点击Operator框,进入修改Operator数据窗口。
    资源调优单个

  2. 配置修改完成后点击应用当前配置并关闭窗口
    应用当前配置并关闭窗口

参数调整说明

您只需调整parallelism、core和heap_memory三个参数,即能满足大部分的资源调优需求。

  • Parallelism
    • source节点
      资源根据上游Partition数来。例如source的个数是16,那么source的并发可以配置为16、8、4等。不能超过16。
    • 中间节点
      根据预估的QPS计算。对于数据量较小的任务,设置和source相同的并发度。QPS高的任务,可以配置更大的并发数,例如64、128、或者256。
    • sink节点
      并发度和下游存储的Partition数相关,一般是下游Partition个数的2~3倍。如果配置太大会导致数据写入超时或失败。例如,下游sink的个数是16,那么sink的并发最大可以配置48。
  • Core
    即CPU,根据实际CPU使用比例配置,建议配置值为0.25,可大于1。
  • Heap_memory
    堆内存。根据实际内存使用状况进行配置。
  • 其他参数
    • state_size:默认为0,group by、join、over、window等operator需设置为1。
    • direct_memory:JVM堆外内存,默认值为0, 建议不要修改。
    • native_memory:JVM堆外内存,默认值为0,建议修改为10MB。
    • chainingStrategy:chain策略,根据实际需要修改。

作业参数调优

  1. 开发页面的右侧选择作业参数
    作业参数调优

  2. 输入调优语句。

优化 解决问题 调优语句
MiniBatch 提升吞吐,降低对下游压力仅对Group by有效。 blink.miniBatch.allowLatencyMs=5000
blink.miniBatch.size=1000
LocalGlobal 优化数据倾斜问题 blink.localAgg.enable=true
TTL 设置State状态时间 1.x:state.backend.rocksdb.ttl.ms=129600000
2.x:state.backend.niagara.ttl.ms=129600000
其中,1.x 表示需显式开启,2.x 表示默认开启。

注意:添加或删除MiniBatch或LocalGlobal参数,job状态会丢失,修改值大小状态不会丢失。

上下游参数调优

实时计算 Flink可以在with参数内设置相应的参数,达到调优上下游存储性能的目的。

调优步骤:

  1. 进入作业的开发界面。
  2. 确定需要调优的上下游引用表的语句。
  3. 在with参数中配置相应的调优参数。如下图。
    参数调优上下游

batchsize参数调优

实时计算 Flink的每条数据均会触发上下游存储的读写,会对上下游存储形成性能压力。可以通过设置batchsize,批量的读写上下游存储数据来降低对上下游存储的压力。

名字 参数 详情 设置参数值
Datahub源表 batchReadSize 单次读取条数 可选,默认为10
Datahub结果表 batchSize 单次写入条数 可选,默认为300
日志服务源表 batchGetSize 单次读取logGroup条数 可选,默认为10
ADB结果表 batchSize 每次写入的批次大小 可选,默认为1000
RDS结果表 batchSize 每次写入的批次大小 可选,默认为50

注意: 添加、修改或者删除以上参数后,作业必须停止-启动后,调优才能生效。

cache参数调优

名字 参数 详情 设置参数值
RDS维表 Cache 缓存策略 默认值为None,可选LRUALL
RDS维表 cacheSize 缓存大小 默认值为None,可选LRUALL
RDS维表 cacheTTLMs 缓存超时时间 默认值为None,可选LRUALL
OTS维表 Cache 缓存策略 默认值为None, 可选LRU,不支持ALL
OTS维表 cacheSize 缓存大小 默认值为None, 可选LRU,不支持ALL
OTS维表 cacheTTLMs 缓存超时时间 默认值为None, 可选LRU,不支持ALL

注意: 添加、修改或者删除以上参数后,作业必须停止-启动后,调优才能生效。

手动配置调优流程

  1. 资源调优、作业参数调优、上下游参数调优
  2. 开发上线作业
  3. 资源配置方式:使用上次资源配置
  4. 数据检查
  5. 上线

说明:完成资源、作业参数、上下游参数调优后,手动配置调优后续的步骤与自动配置调优基本一致。区别在于资源配置环节需要选择使用上次资源配置
上次资源配置

FAQ

Q:性能调优后作业为什么运行不起来?

A:可能性1:首次自动配置时指定了CU数,但指定的CU数太小(比如小于自动配置默认算法的建议值,多见于作业比较复杂的情况),建议首次自动配置时不指定CU数。
可能性2:默认算法建议的CU数或指定的CU数超过了项目当前可用的CU数,建议扩容。

Q:Vertex拓扑中看不到持续反压,但延迟却非常大,为什么?

A:可能性1:若延时直线上升,需考虑是否上游source中部分partition中没有新的数据,因为目前delay统计的是所有partition的延时最大值。
可能性2:Vertex拓扑中看不到持续反压,那么性能瓶颈点可能出现在source节点。因为source节点没有输入缓存队列,即使有性能问题,IN_Q也永远为0(同样,sink节点的OUT_Q也永远为0)。
解决方案:通过手动配置调优,将source节点(GROUP)中的operator中chainingStrategy修改为HEAD,将其从GROUP中拆解出来。然后上线运行后再看具体是哪个节点是性能瓶颈节点,若依然看不到性能瓶颈节点,则可能是因为上游source吞吐不够,需考虑增加source的batchsize或增加上游source的shard数。
q21
q22

Q:如何判断持续反压,反压时如何判断性能瓶颈点?

A:Vertex拓扑中某些节点的IN_Q持续为100%则存在持续反压情况,最后一个(或多个)IN_Q为100%的节点为性能瓶颈点。如下示例:
q31
上图存在反压,瓶颈在6号节点。

q32
上图存在反压,瓶颈在2号节点。

q33
上图存在反压,瓶颈在8号节点。

q34
上图可能存在节点,瓶颈在0号节点。

Q: 如何判断数据倾斜?

A:(1)表象上看,某些节点不论增加多大的并发仍存在性能瓶颈,则可能存在数据倾斜。
(2)在Vertex拓扑中点击疑似存在数据倾斜的节点(一般为性能瓶颈节点),进入SubTask List界面,重点观察RecvCnt和InQueue,若各ID对应的RecvCnt值差异较大(一般超过1个数量级)则认为存在数据倾斜,若个别ID的InQueue长期为100%,则认为可能存在数据倾斜。
解决方案:请您参看GROUP BY 数据出现热点、数据倾斜
q4

Q: 上线时指定15CU,但是上线后实际消耗仅为10CU,什么原因?

A:这种问题一般发生在Vertex只有一个节点的情况,此时由于source上游的物理表的shard数为1,Flink要求source的并发不能超过上游shard数,导致无法增加并发,因此亦无法增加到指定的CU数。
解决方案:

  1. 增加上游物理表的shard数。
  2. 将ID0的节点中的operator拆开,将source节点(GROUP)中的operator chainingStrategy修改为HEAD,将其从GROUP中拆解出来,然后手动配置调优。

Q: 上线时出现如左上图的告警,或出现诸如“Cannot set chaining strategy on Union Transformation”错误,如何处理?

A:这是由于作业的SQL有改动,导致DAG改变。
解决方案:通过重新获取配置解决,开发-基本属性-跳转到新窗口配置-重新获取配置信息。
q61

q62

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
目录
相关文章
|
2月前
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。
|
12天前
|
运维 搜索推荐 数据安全/隐私保护
阿里云实时计算Flink版测评报告
阿里云实时计算Flink版在用户行为分析与标签画像场景中表现出色,通过实时处理电商平台用户行为数据,生成用户兴趣偏好和标签,提升推荐系统效率。该服务具备高稳定性、低延迟、高吞吐量,支持按需计费,显著降低运维成本,提高开发效率。
32 1
|
14天前
|
运维 数据处理 Apache
数据实时计算产品对比测评报告:阿里云实时计算Flink版
数据实时计算产品对比测评报告:阿里云实时计算Flink版
|
2月前
|
存储 运维 监控
阿里云实时计算Flink版的评测
阿里云实时计算Flink版的评测
56 15
|
13天前
|
运维 监控 Serverless
阿里云实时计算Flink版评测报告
阿里云实时计算Flink版是一款全托管的Serverless实时流处理服务,基于Apache Flink构建,提供企业级增值功能。本文从稳定性、性能、开发运维、安全性和成本效益等方面全面评测该产品,展示其在实时数据处理中的卓越表现和高投资回报率。
|
13天前
|
存储 运维 监控
实时计算Flink版在稳定性、性能、开发运维、安全能力等等跟其他引擎及自建Flink集群比较。
实时计算Flink版在稳定性、性能、开发运维和安全能力等方面表现出色。其自研的高性能状态存储引擎GeminiStateBackend显著提升了作业稳定性,状态管理优化使性能提升40%以上。核心性能较开源Flink提升2-3倍,资源利用率提高100%。提供一站式开发管理、自动化运维和丰富的监控告警功能,支持多语言开发和智能调优。安全方面,具备访问控制、高可用保障和全链路容错能力,确保企业级应用的安全与稳定。
26 0
|
2月前
|
运维 分布式计算 监控
评测报告:阿里云实时计算Flink版
本评测主要针对阿里云实时计算Flink版在用户行为分析中的应用。作为一名数据分析师,我利用该服务处理了大量日志数据,包括用户点击流和登录行为。Flink的强大实时处理能力让我能够迅速洞察用户行为变化,及时调整营销策略。此外,其卓越的性能和稳定性显著降低了运维负担,提升了项目效率。产品文档详尽且易于理解,但建议增加故障排查示例。
|
2月前
|
机器学习/深度学习 运维 监控
阿里云实时计算Flink版体验评测
阿里云实时计算Flink版提供了完善的产品内引导和丰富文档,使初学者也能快速上手。产品界面引导清晰,内置模板简化了流处理任务。官方文档全面,涵盖配置、开发、调优等内容。此外,该产品在数据开发和运维方面表现优秀,支持灵活的作业开发和自动化运维。未来可增强复杂事件处理、实时可视化展示及机器学习支持,进一步提升用户体验。作为阿里云大数据体系的一部分,它能与DataWorks、MaxCompute等产品无缝联动,构建完整的实时数据处理平台。
|
3月前
|
消息中间件 监控 Kafka
联通实时计算平台问题之Flink状态后端数据量较大时,问题排查要如何进行
联通实时计算平台问题之Flink状态后端数据量较大时,问题排查要如何进行
|
SQL 存储 运维
如何降低 Flink 开发和运维成本?阿里云实时计算平台建设实践
本次分享主要介绍阿里云实时计算平台从 2.0 基于 Yarn 的架构到 3.0 云原生时代的演进,以及在 3.0 平台上一些核心功能的建设实践,如健康分,智能诊断,细粒度资源,作业探查以及企业级安全的建设等。
如何降低 Flink 开发和运维成本?阿里云实时计算平台建设实践