开发者社区 问答 正文

ECS上外网IP部署SPARK问题,求大神提示!!

在ECS上上部署SPARK,使用内网IP测试没问题,换成外网后在:



Re-format filesystem in Storage Directory /root/soft/apache/hadoop/hadoop-2.7.7/tmp/dfs/name ? (Y or N) Y
18/12/15 17:03:09 INFO client.QuorumJournalManager: Waited 18001 ms (timeout=60000 ms) for a response for hasSomeData. No responses yet.
18/12/15 17:03:10 INFO client.QuorumJournalManager: Waited 19002 ms (timeout=60000 ms) for a response for hasSomeData. No responses yet.


出错,应该是权限问题,但不知道怎么解决,求大神提示!!

展开
收起
uniquer 2018-12-15 17:15:37 1985 分享 版权
阿里云 AI 助理回答

根据您提供的错误信息,问题似乎与Hadoop的NameNode启动失败有关,特别是在尝试使用外网IP时。错误提示显示在等待QuorumJournalManager响应时超时,这可能涉及到网络配置或权限设置不正确。尽管您的参考资料主要聚焦于如何使用eRDMA优化Spark集群性能,但我们可以从中借鉴一些通用的故障排查思路来解决您的问题。以下是一些建议步骤:

  1. 检查网络配置

    • 确保所有节点之间的外网IP通信畅通无阻,包括主节点和worker节点之间。
    • 检查防火墙设置,确保没有阻止必要的Hadoop服务端口(如HDFS的NameNode和DataNode端口)。
  2. DNS解析与主机名验证

    • 当使用外网IP时,确认所有节点的主机名与IP地址映射是否正确配置在/etc/hosts文件中。
    • 确保Hadoop配置中的所有主机名都能正确解析到对应的外网IP地址。
  3. Hadoop安全与权限

    • 查看Hadoop相关目录的权限设置,特别是HDFS的存储目录(如报错中的/root/soft/apache/hadoop/hadoop-2.7.7/tmp/dfs/name),确保Hadoop用户有读写权限。
    • 如果使用了Hadoop的安全模式(如Kerberos),请检查相关的密钥分发、认证配置是否正确,以及时间同步问题,因为这些都可能导致权限验证失败。
  4. Hadoop配置调整

    • 根据错误日志,考虑调整Hadoop的超时设置,比如增加dfs.namenode.journalnode.rpc-address.timeout.ms的值,以给予更长的响应等待时间。
  5. 日志深入分析

    • 详细查看Hadoop相关服务的日志文件(如NameNode的日志),寻找更具体的错误信息或异常堆栈,这将有助于定位问题所在。
  6. 重启服务与测试

    • 在进行上述调整后,重新格式化HDFS(如果确定需要这样做)并重启所有Hadoop服务。
    • 使用hadoop dfsadmin -report命令检查HDFS状态,确认所有DataNode是否正常连接到NameNode。

如果以上步骤不能解决问题,建议进一步检查网络拓扑、安全组规则以及任何可能影响网络通信的系统级配置。由于具体环境和配置细节未知,可能需要根据实际情况灵活调整解决方案。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答