文档备案控制台

开发者社区大数据与机器学习人工智能平台PAI 正文

机器学习PAI flink运行一段时间后jobManager里经常会报这个错是什么原因？

机器学习PAI flink运行一段时间后jobManager里经常会报Connection reset by peer这个错是什么原因？

展开

收起

嘟嘟嘟嘟嘟嘟 2024-01-05 02:33:53 297 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
"Connection reset by peer"这个错误通常是由于网络连接问题导致的。可能的原因有：
1. 网络不稳定：如果网络连接不稳定，可能会导致连接被对端重置。
2. 防火墙设置：如果你的防火墙设置阻止了Flink JobManager和TaskManager之间的通信，也可能会出现这个错误。
3. TaskManager崩溃或重启：如果TaskManager崩溃或重启，可能会导致JobManager无法与其保持连接，从而触发这个错误。
4. JobManager负载过高：如果JobManager的负载过高，可能会导致其无法处理所有的请求，从而导致连接被重置。
2024-01-06 13:37:14

赞同展开评论
sunrr
由于您没有提供具体的错误信息，我无法准确地判断问题的原因。但是，我可以给您一些建议来帮助您解决问题。
1. 检查日志：查看Flink的日志文件，通常位于$FLINK_HOME/log目录下。日志中可能会包含有关错误的详细信息，例如堆栈跟踪、异常类型等。这将有助于您了解问题的根本原因。
2. 检查配置：确保您的Flink配置正确。特别是检查与JobManager和TaskManager相关的配置，如内存分配、并行度等。错误的配置可能导致程序运行不稳定或崩溃。
3. 检查资源使用情况：查看Flink集群的资源使用情况，如CPU、内存、磁盘空间等。如果资源不足，可能会导致程序运行缓慢或崩溃。
4. 更新Flink版本：如果您使用的是较旧的Flink版本，尝试升级到最新版本。新版本可能已经修复了您遇到的问题。
2024-01-05 09:33:26

赞同展开评论
番茄酱脑袋

可能是cpu或者内存超了。此回答整理自钉群“Alink开源--用户群”

2024-01-05 07:58:57

赞同展开评论

问答分类：

流计算机器学习/深度学习实时计算 Flink版人工智能平台 PAI

问答标签：

实时计算 Flink版运行机器学习人工智能平台 PAI 人工智能平台 PAI运行实时计算 Flink版JobManager 实时计算 Flink版运行jobmanager

问答地址：

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 问答

相关问答

人工智能平台PAI

求助，人工智能平台 PAI-DSW运行模型时，找不到 GPU

254

0

0

机器学习PAI这个eas的服务，虽然运行起来了，但是打印出这个，这个是有的问题吗？

82

1

0

机器学习PAI的Notebook里面的案例，能够一次性拷贝到我的环境里运行吗？

156

2

0

ZooKeeper 网络瞬断时，Flink JobManager 会遇到什么问题，以及这是如何影响

287

1

0

机器学习PAI这个跟flink有关系吗？

121

0

0

使用机器学习PAI 运行训练，报了下面的问题，是怎么回事呢？

139

0

0

机器学习PAI模型已经跑了45个小时了，我们要怎么看这个任务是否是正常运行，还是在哪些地方卡住了？

145

1

0

K8S部署的Flink如何配JobManager和TaskManager的日志？

242

0

0

机器学习PAI使用Flink写入行为序列时，报featureview not found是什么原因？

140

1

0

机器学习PAI中flink1.14.6如何才能支持呀？

118

1

0

大数据与机器学习

人工智能平台PAI

人工智能平台 PAI（Platform for AI，原机器学习平台PAI）是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务，内置140+种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

我要提问

相关文章

【无标题】

超全基于模块化多电平（MMC）两端柔性直流输电系统simulink仿真（仿真模型+毕业设计报告+文献）

9B 上端侧：多模态实时对话，难点其实在“流”

2026年cms建站系统行业的未来发展趋势及挑战分析

除夕夜，国产顶流压轴上线，QWEN3.5多模态开源！

热门讨论

热门文章

P人出游，你是否需要一个懂你更懂规划的AI导游呢？来搭建专属文旅问答机器人吧

【百问百答】机器学习pai问答合集

阿里云百炼大模型怎么收费？要钱吗？

在机器学习PAI中的alink中不支持的算法如果想扩展该如何实现呢？

想咨询下机器学习PAI 您在MIND里面关于squash的做法，这样加完向量模长还能控制到0-1吗？

请问在机器学习PAI里mc需要另外配置json函数库嘛？

PAI做了线性回归的模型，预测结果后，回归模型评估的节点，结果R2的值是负的，我理解R2的取值范围?

麻烦问下机器学习PAI，本地单机训练没问题，配了tf_config开启训练报这个错大概是啥问题？

您好，麻烦问一下机器学习PAI为什么会出这问题啊？感觉好奇怪，

在海量用户中，将如何快速定位到目标人群进行个性化营销？

展开全部

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

【玩转数据系列十五】机器学习PAI为你自动写歌词，妈妈再也不用担心我的freestyle了（提供数据、代码）

【玩转数据系列一】人口普查统计案例

阿里巴巴机器学习系列课程

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

【玩转数据系列三】利用图算法实现金融行业风控

机器学习PAI全新功效——实时新闻热点Online Learning实践

【玩转数据系列五】农业贷款发放预测

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

【玩转数据系列七】有娃的注意了，机器学习教您如何提高孩子学习成绩

展开全部

还有其他疑问?