文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

各位大佬，有没有关于 flink 1.12 大并行度（800）的时候优化方案呢？看个 flink

各位大佬，有没有关于 flink 1.12 大并行度（800）的时候优化方案呢？看个 flink ui 都卡得不行，还有启动时间得遇到10-40 分钟之间不等。

展开

收起

游客3oewgrzrf6o5c 2022-08-24 18:11:29 644 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

皮牙子抓饭
当您在 Flink 中使用大并行度（如 800）时，可以考虑以下优化方案：
1. 资源管理：确保您的集群具有足够的资源来支持大规模并行度。这包括增加计算资源（如 CPU、内存）和网络带宽，以及调整 Flink 的并行度配置参数，如 taskmanager.numberOfTaskSlots 和 parallelism.default。
2. 状态后端选择：Flink 提供了多种状态后端选项，如 RocksDB 和 FsStateBackend。在大并行度场景下，RocksDB 可能更适合，因为它具有更好的水平扩展性和更低的状态访问延迟。
3. 状态大小优化：检查您的应用程序中的状态大小，并尝试减少状态的存储需求。可以通过使用更紧凑的数据结构、状态分区和状态 TTL（Time-To-Live）等方法来减少状态大小。
4. 算子链优化：将相关的算子链接在一起形成算子链，以减少数据的序列化和反序列化开销，并提高整体吞吐量。
5. 异步 I/O：如果您的应用程序涉及与外部系统的交互，可以考虑使用异步 I/O 操作，以避免阻塞任务线程，提高整体并发性能。
6. 数据倾斜处理：在大规模并行度下，数据倾斜可能成为性能瓶颈。您可以通过预先分区、数据重分布、采样和聚合等技术来处理数据倾斜问题。
7. 内存管理：根据任务的需求和资源配置，调整 Flink 的内存管理参数，如 taskmanager.memory.task.off-heap.size 和 taskmanager.memory.network.min，以提高内存使用效率。
8. 持续优化：通过监控和性能调优工具，如 Flink 的任务管理器和作业管理器的监控面板，以及第三方工具如 Apache Flink Metrics、Apache Flink Dashboard 等，进行持续的优化和调整。
需要注意的是，每个应用程序的情况可能不同，因此您可能需要根据具体情况进行实际测试和调整。同时，Flink 社区也在不断地进行改进和优化，建议关注最新的版本和文档，以获取更多的优化建议和最佳实践。
2023-06-08 14:48:44

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版优化实时计算 Flink版方案实时计算 Flink版并行度实时计算 Flink版并行实时计算 Flink版优化方案

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

未来如何优化 Flink CDC OceanBase Connector 的数据读取？

188

1

0

在Flink CDC的并行读取最终方案中，你们是如何通过标签和通知机制来保证数据顺序和状态清理的？

243

1

0

Flink CDC 在并行读取全量和增量数据时面临的主要挑战是什么？

360

1

0

如何实现 Flink CDC 中全量和增量日志的并行读取？

333

1

0

在Hudi on Flink的初期使用中，你们遇到了哪些问题，并与Hudi社区一起进行了哪些优化？

195

1

0

在Flink CDC中，有什么方法优化吗？是否只能加资源?

245

0

0

在Flink CDC中，paimon sink 能够优化？

252

1

0

在Flink CDC中，线上发现消费速度有点慢，想优化下这俩参数？

211

0

0

社区在 Flink 的哪个版本中针对构建执行图的问题进行了优化？

148

1

0

在Flink CDC中task的slots分配不均，可以怎么优化？

222

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199215

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

别等用户跑路才报警！大数据风控，真正拼的是“毫秒级判断”

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

为什么你的物联网平台总是“掉链子”？真正的问题，不是设备，而是数据平台！

实时云渲染是什么？一文读懂实时云渲染、WebGL 与像素流的核心区别

阿里云实时计算Flink版对接实战：从数据源到结果表的全链路开发指南

相关解决方案

更多

文件下载加速及成本优化

Flink 与 Hologres 搭建实时数仓

基于 Spark 和 PyTorch 的模型训练方案

RDS 到 Redis 实时同步方案

Flink CDC 实现企业级实时数据同步

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 能适配达梦不？

有用flink cdc同步mysql到hive这样搞过的源码吗?

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

Flink CDC里这个问题怎么解决？

flinkcdc在IDEA运行正常，打包就报错

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

展开全部

数据仓库介绍与实时数仓案例

流计算StreamCompute

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

基于实时计算（Flink）打造一个简单的实时推荐系统

Flink Checkpoint 问题排查实用指南

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

展开全部

还有其他疑问?