文档备案控制台

开发者社区问答正文

Flink-Metrics中的System Metrics具体是什么啊？

Flink-Metrics中的System Metrics具体是什么啊？

展开

收起

游客vwuxaq6iqaowc 2021-12-09 13:44:37 471 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客hveo756ydhs3k

System Metrics，将整个集群的状态已经涵盖得非常详细。具体包括以下方面：

Master 级别和 Work 级别的 JVM 参数，如 load 和 time；其 Memory 划分也很详细，包括 heap 的使用情况，non-heap 的使用情况，direct 的使用情况，以及 mapped 的使用情况；Threads 可以看到具体有多少线程；还有非常实用的 Garbage Collection。 Network 使用比较广泛，当需要解决一些性能问题的时候，Network 非常实用。Flink 不只是网络传输，还是一个有向无环图的结构，可以看到它的每个上下游都是一种简单的生产者消费者模型。Flink 通过网络相当于标准的生产者和消费者中间通过有限长度的队列模型。如果想要评估定位性能，中间队列会迅速缩小问题的范围，能够很快的找到问题瓶颈。 •CPU •Memory •Threads •Garbage Collection •Network •Classloader •Cluster •Availability •Checkpointing •StateBackend •IO •详见: https://ci.apache.org/projects/flink/flink-docs-release-1.8/monitoring/metrics.html#system-metrics 运维集群的人会比较关心 Cluster 的相关信息，如果作业太大，则需要非常关注 Checkpointing，它有可能会在一些常规的指标上无法体现出潜在问题。比如 Checkpointing 长时间没有工作，数据流看起来没有延迟，此时可能会出现作业一切正常的假象。另外，如果进行了一轮 failover 重启之后，因为 Checkpointing 长时间没有工作，有可能会回滚到很长一段时间之前的状态，整个作业可能就直接废掉了。 RocksDB 是生产环境当中比较常用的 state backend 实现，如果数据量足够大，就需要多关注 RocksDB 的 Metrics，因为它随着数据量的增大，性能可能会下降。

2021-12-09 13:45:17

赞同展开评论

问答分类：

实时计算 Flink版

问答标签：

实时计算 Flink版Metrics 实时计算 Flink版system

问答地址：

开发者社区 > 云计算 > 问答

相关问答

Flink CDC中Unable to register metrics as an 这是什么问题？

692

4

0

Flink CDC中Oracle cdc用system用户为什么只捕获HR schema的数据变更？

166

3

0

prometheus抓取flink的指标，，是不是每个metrics端口都要配置啊？

669

2

0

flink metrics监控这块，可根据什么指标来判断: 是否该加资源？是否可以缩减资源？

848

1

0

请教各位大佬，flink metrics 能自定义 label 吗，不是自定义metrics

866

1

0

请教各位大佬，flink如何获取每分钟、每5分钟、每10分钟的数据量，是metrics里的参数吗，

1054

1

0

Flink中的System Scope是什么？

703

1

0

Flink中的Metrics是系统内部的监控，那是否可以作为 Flink 日志分析的输出啊？

595

1

0

Flink-Metrics中的自动化运维怎么做啊？

500

1

0

Flink中的获取 Metrics方法具体是什么啊？

744

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

通义灵码提示格式问题

notebook启动安全验证一直失败

MacBook端Clion编辑器的通义灵码代码自动补全功能失效

vllm部署模型，参数如何指定

怎么在cursor上使用mcp来采集网页数据，听说brightdata-mcp适合做爬虫，好用吗？

相关文章

Apache Flink 2.2.0: 推动实时数据与人工智能融合，赋能AI时代的流处理

Forrester发布流式数据平台报告：Flink 创始团队跻身领导者行列，实时AI能力获权威认可

在 OpenAI 打造流处理平台：超大规模实时计算的实践与思考

Flink + Fluss 实战: Delta Join 原理解析与操作指南

克服Flink SQL限制的混合API方法

还有其他疑问?