开发者社区> 问答> 正文

spark 写入oss-hdfs任务,spark客户端一直在等待,如何解决?

spark 写入oss-hdfs任务,spark任务结束很久yarn任务也获取到成功,但是spark客户端一直在等待,如何解决?

展开
收起
提问的橘子 2024-07-29 12:04:29 31 0
1 条回答
写回答
取消 提交回答
  • 针对Spark写入OSS-HDFS任务出现的问题,即Spark任务结束且Yarn任务成功,但Spark客户端仍在等待的情况,可以尝试从以下几个方面排查:

    1.检查Spark作业提交模式: 根据文档信息,E-MapReduce对Yarn-Client模式下的Spark Streaming作业状态可能存在监控问题,这可能导致Spark客户端显示作业仍在运行。因此,请确保Spark作业是以Yarn-Cluster模式提交的,而非Yarn-Client模式。
    2.确认Spark与OSS-HDFS集成配置: 确保正确配置了Spark连接OSS-HDFS所需的参数,包括但不限于: markdown - 在`core-site.xml`中配置OSS-HDFS的相关属性: fs.AbstractFileSystem.oss.impl com.aliyun.jindodata.oss.JindoOSS fs.oss.impl com.aliyun.jindodata.oss.JindoOssFileSystem fs.oss.accessKeyId [您的AccessKeyId] fs.oss.accessKeySecret [您的AccessKeySecret] - 在提交Spark任务时通过`spark-submit`命令行指定OSS-HDFS相关配置: spark-submit \ --conf spark.hadoop.fs.AbstractFileSystem.oss.impl=com.aliyun.jindodata.oss.OSS \ --conf spark.hadoop.fs.oss.impl=com.aliyun.jindodata.oss.JindoOssFileSystem \ --conf spark.hadoop.fs.oss.accessKeyId=[您的AccessKeyId] \ --conf spark.hadoop.fs.oss.accessKeySecret=[您的AccessKeySecret] ```
    3.检查Spark客户端与集群通信情况: 确认Spark客户端与集群之间的网络通信正常,没有阻塞或延迟导致客户端未能及时接收到作业完成的通知。
    4.查看Spark事件日志目录配置: 确保Spark事件日志目录配置正确,并且客户端能够访问到这个目录,以便准确获取作业状态。
    5.确认Spark作业资源释放: 检查Spark作业结束后,其占用的资源是否已被YARN完全释放,有时资源未被正确回收也可能导致客户端显示异常。
    如果以上步骤均无误,建议进一步查看Spark客户端的具体错误信息或日志,以及YARN ResourceManager的日志,以获取更详细的故障线索。

    2024-07-29 13:49:29
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载