开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

E-MapReduce有时候遇到 跑hive 任务 跑着 yarn 节点就掉了 如何排查问题?

E-MapReduce有时候遇到 跑hive 任务 跑着 yarn 节点就掉了 如何排查问题 ,是资源吃满了导致的吗?早上8点40 左右发现节点掉了,然后ssh也连不上 下面 是监控信息 image.png

展开
收起
cuicuicuic 2024-02-06 08:54:29 37 0
1 条回答
写回答
取消 提交回答
  • 在阿里云E-MapReduce中,如果在运行Hive任务时出现YARN节点突然掉线且SSH也无法连接的情况,可能存在多种原因。以下是几种可能的排查步骤和潜在原因:

    1. 网络问题

      • 网络稳定性:检查集群内外部网络连接状况,确认是否有瞬时网络中断,这也可能导致节点失去联系。
    2. 软件故障或错误

      • YARN节点日志:即使无法通过SSH访问节点,仍可在其它正常节点上查找对应故障节点的YARN NodeManager日志,通常位于/var/log/hadoop-yarn/yarn-nodemanager-*.log等路径,寻找错误提示或异常退出的信息。
      • 系统日志:尝试查看系统的系统日志,看看是否有OS层面的错误信息,例如内核 panic、OOM killer 等。
    3. 安全组或防火墙规则

      • 检查安全组规则:确保安全组规则没有意外更改,阻止了SSH或其他必要通信端口的访问。
    2024-02-20 16:52:04
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
深度学习+大数据 TensorFlow on Yarn 立即下载
Docker on Yarn 微服务实践 立即下载
深度学习+大数据-TensorFlow on Yarn 立即下载