备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

chunk-size设置为3万，看jm日志chunk-size跟设置的对不上，两百多万的表直接给分到

chunk-size设置为3万，看jm日志chunk-size跟设置的对不上，两百多万的表直接给分到一个chunk里面，任务跑不动，大家有遇到这种情况吗？怎么办？ 2582问.png

展开

收起

游客3oewgrzrf6o5c 2022-08-03 16:59:30 521 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

genius985

nnn
根据您提供的信息，您将chunk-size设置为3万，但在JM（可能指Job Manager）日志中发现实际的chunk-size与您设置的不匹配。而且对于一个拥有两百多万行数据的表，所有数据都被分配到一个chunk中，导致任务无法正常运行。这可能是由于以下原因导致的：
1. 配置错误：请确保您正确配置了chunk-size参数，并且将其应用于正在运行的任务。检查您的配置文件或命令行参数，确保没有其他地方覆盖了该值。
2. 数据分布不均匀：如果表中的数据分布非常不均匀，例如大部分数据集中在一小部分id范围内，那么根据设置的chunk-size，可能会导致某个chunk包含大量数据。这种情况下，您可以尝试使用其他方式进行数据切分，例如按照范围、哈希等切分策略，以更好地平衡数据分布。
3. 问题或限制：具体的数据处理框架或工具可能存在特定的问题或限制，导致chunk-size无法按预期生效。请查阅相关文档、社区论坛或官方支持渠道，了解您所使用的工具是否具有已知的限制或问题，并找到解决方案或工具的最佳实践。
解决这个问题的方法可能因使用的具体工具和框架而异。以下是一些可能的解决方案：
1. 调整chunk-size：尝试将chunk-size设置为不同的值，并观察是否能够正确划分数据。根据您的数据量和分布情况，逐步调整chunk-size的值，以找到最适合的设置。
2. 改变数据切分策略：考虑使用其他切分策略，例如按照范围、哈希等方式进行数据切分。根据您的数据特性，选择适合的切分策略，以确保数据在各个chunk中均匀分布。
3. 参考最佳实践和文档：查阅相关工具或框架的官方文档和最佳实践指南，了解如何正确配置和使用chunk-size参数。同时，与社区论坛或官方支持渠道交流，寻求其他用户或开发者的经验和建议。
请注意，具体的解决方案可能会因您所使用的具体工具、框架和环境而有所不同。建议仔细研究相关文档和资源，并与社区或官方支持进行进一步的沟通和咨询，以获取更准确和针对性的解决方案。
2023-07-01 07:55:50

赞同展开评论

问答分类：

实时计算 Flink版日志服务

问答标签：

日志服务设置 jm日志服务

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink SLS json数据如何不解析下发至结果表

94

1

0

负载均衡ALB设置了流量镜像，但没有收到流量，这个该怎么查？流量镜像如何看失败日志？

172

1

0

SLS实例如何设置为使用VPC网络?

117

1

0

在云效中docker部署成功，想再日志里面看下端口，是不是在部署脚本做一下设置？

109

1

0

大数据计算MaxCompute本地数据导入表时候显示上传失败没有其他报错日志是什么原因？

110

0

0

在Flink CDC中重启任务时报了这个错，有一个表的binlog日志不存在，如何还能让任务正常跑？

144

1

0

DataWorks本地数据导入表时候显示上传失败没有其他报错日志请问是什么原因呢?

220

1

0

在Flink CDC中提交的CDC任务能看到TM和JM的日志打印吗？

88

0

0

在Flink CDC中同步数据的时候，web页面的TM和JM的日志没有正常打印,如何解决？

88

0

0

DataWorks中log表这边的数据是json串的，有没有按照字段的实时表？

88

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199213

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

阿里云加持，《泡姆泡姆》让全球玩家畅享零延迟冒险

阿里云可观测 2025 年 9 月产品动态

从数据孤岛到智能洞察：构建面向未来的 Operation intelligence 体系

云栖实录｜实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能

实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

在斗鱼，实时计算发展的历程如何？

请问如何用flink sql客户端用yarn application模式提交任务呢？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

Flink CDC里用jdbc往达梦dm8推数据，老是显示字符被截断是咋回事？有人碰到过嘛？

Flink CDC中mysql cdc 的那个server_id 设置的话，一般是怎么设置的？

在Flink CDC中ogg可以做实时同步吗？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

flink1.18支持sql-gateway每次提交生成一个yarn application吗？

Could not perform checkpoint 352 for operator Souc

展开全部

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

流计算精品翻译: The Dataflow Model

基于实时计算（Flink）打造一个简单的实时推荐系统

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

使用 Kafka 和 Flink 构建实时数据处理系统

携程实时智能检测平台建设实践

基于实时计算（Flink）与高斯模型构建实时异常检测系统

Apache Flink 漫谈系列(09) - JOIN 算子

展开全部

还有其他疑问?