阿里云大数据型机器组集群网络问题,跑Spark经常出现Connection refuse导致的stage retry。
社区有同学遇到过吗?这种怎么定位排查,或者提交阿里云人员处理?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
遇到Spark作业中频繁出现"Connection refused"错误导致Stage重试的问题,这通常与网络配置、资源分配、或者服务端口访问控制等因素有关。以下是一些排查和解决此类问题的步骤:
检查网络配置:
资源不足:
Spark配置调整:
spark.driver.port
, spark.blockManager.port
, 以及spark.executor.port
等,确认它们没有被固定到不可用的端口上。spark.network.timeout
的值,以给予更长的时间来处理可能的网络延迟。日志分析:
监控与诊断工具:
提交工单:
记得,在进行任何配置更改后,重新测试Spark作业以验证问题是否得到解决。