文档备案控制台

开发者社区问答正文

Checkpoint时内存不够TaskManager被Kill掉怎么办？

各位社区伙伴大家好首先描述一下我的问题：最近我们发现有几个任务平时运行将近一个月都没发生问题，最近在进行checkpoint的时候经常失败，然后一直容错恢复重启，我们通过日志查看，发现某个TM在进行checkpoint的时候内存使用过大导致内存不够被Kill掉了；报错日志：

java.lang.Exception: Container [pid=24859,containerID=container_e01_1618927404581_0181_01_002010] is running beyond physical memor y limits. Current usage: 4.0 GB of 4 GB physical memory used; 6.9 GB of 8.4 GB virtual memory used. Killing container.

但是我们从他历史的checkpoint记录中可以看到它发生问题那次checkpoint时候并不是进行全量checkpoint的时候（很抱歉当时失败的时候忘记截图，给任务重启了，现在这幅图是任务重启之后的历史checkpoint截图，）；

我们为了减少增量checkpoint的大小设置了State DDL，但是这种任务还是发生了TM内存不够被KIll掉的问题，我们现在的解决途径是增大内存，或者并发，但是我们现在任务已经配置了64个并发，每个TM内存给了4G,如果不断增加并发或者内存的话会对资源有很大的浪费，因为我们可以看到平时堆内存的使用率是有限的，所以一味增加会造成很大的资源浪费。

综上。想问一下社区的伙伴有没有遇到类似checkpoint时候某个TM内存不够被Kill的问题，除了不断增加并发内存外，有没有好的解决方案，谢谢大家。*来自志愿者整理的flink邮件归档

展开

收起

moonlightdisco 2021-12-02 14:11:41 1160 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

塔塔塔塔塔塔

增大一下 taskmanager.memory.jvm-overhead 的内存试试*来自志愿者整理的FLINK邮件归档

2021-12-02 14:34:21

赞同展开评论

问答分类：

日志服务实时计算 Flink版

问答标签：

内存kill 内存taskmanager怎么办内存taskmanager 内存checkpoint checkpoint内存

问答地址：

开发者社区 > 云计算 > 问答

相关问答

Flink CDC从哪里能看到集群的taskmanager内存占用情况？

648

4

0

Flink CDC taskmanager设置20g内存都oom,谁碰到过这个问题？

497

3

0

Flink-1.16的版本是不是只需要设置这个，就可以保证TaskManager的最小JVM内存？

473

1

0

Flink CDC这样的配置，内存中的checkpoint信息会被删掉吗？

154

1

0

modelscope中，点击几次后，进程就内存溢出被强行 kill掉了，怎么解决？

246

1

0

Flink CDC请问这种情况是只能增大taskmanager的堆内存吗？

217

1

0

机器学习PAI alink执行批任务，内存不回收。直到taskmanager挂掉怎么办？

131

1

0

flink使用堆外内存一直在增长导致被虚拟机boom kill，怎么排查和处理？

685

1

0

Flink任务做sp大概率出现容器内存超用被kill 有朋友出现过吗有解决办法吗？

182

1

0

flink on yarn模式，应用模式，一个TaskManager至少会占用2G内存吗？

369

2

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

Qwen OpenAI-Responses 兼容模式有问题

相关文章

Apache Flink Agents 0.2.0 发布公告

基于Flink CDC的企业级日志实时入湖入流解决方案

Flink 实时计算 x SLS 存储下推：阿里云 OpenAPI 网关监控平台实践

阿里云为何要将数据采集开发套件开源

断网、断电，不断数据——LoongCollector 极限边缘场景可靠采集方案

还有其他疑问?