开发者社区 问答 正文

生产环境flink独立集群运行偶尔会报错,具体错误见详情,希望高手大神帮忙解答下,感激不尽

情况1: 2021-07-28 01:40:42,421 ERROR org.apache.flink.runtime.blob.BlobServerConnection - GET operation failed for BLOB e3 27cc1304b4b906a562c633a3ded873/p-ec4e295eb1d0ea317bda064353ac095a1ff64a8f-64d550f684d1760d05d9596a4cc44fcd from /172.xxx.xx.xx

情况2: java.nio.file.NoSuchFileException: /tmp/blobStore-c496ef01-a261-499e-90c0-80ba55cbd76a/incoming/temp-00000050 org.apache.flink.runtime.blob.BlobServerConnection - GET operation failed for BLOB e327cc1304b4b906a562c633a3ded873/p-ec4e295eb1d0ea317bda064353ac095a1ff64a8f-64d550f684d1760d05d9596a4cc44fcd from /172.26.230.112. java.nio.file.NoSuchFileException

情况3: org.apache.flink.runtime.blob.BlobServerConnection - PUT operation failed org.apache.flink.runtime.webmonitor.handlers.JarRunHandler - Unhandled exception

具体见图:

image.png

image.png

image.png

展开
收起
游客exqybrrbj7h5k 2021-08-01 21:23:28 2319 分享 版权
阿里云 AI 助理回答

从您提供的错误信息来看,这些情况都与Apache Flink作业运行时的Blob Server相关,主要涉及到文件的GET和PUT操作失败。Blob Server是Flink用于存储和分发作业相关的文件(如jar包、配置文件等)的服务。下面是对每种情况的简要分析及可能的解决建议:

情况1: GET操作失败

  • 错误描述: Flink尝试从Blob Server获取一个特定的BLOB(二进制大对象)时失败。
  • 可能原因:
    • Blob Server上不存在请求的文件。
    • 网络问题导致数据传输失败。
    • Blob Server服务异常或未正确运行。
    • 文件系统权限问题。
  • 解决建议:
    • 确认Blob Server是否正常运行,并检查其日志以获取更详细的错误信息。
    • 检查网络连接,确保客户端与Blob Server之间的通信无阻。
    • 确认请求的BLOB确实存在于Blob Server的存储路径下。
    • 检查文件系统的权限设置,确保Flink进程有读取该路径的权限。

情况2: NoSuchFileException

  • 错误描述: 在尝试访问临时文件时出现“文件不存在”的异常。
  • 可能原因:
    • 临时文件在被访问前已被删除或移动。
    • Blob Server未能成功创建或保存临时文件。
    • 存储路径配置错误。
  • 解决建议:
    • 检查Flink配置中的blob.server.tmp-dir设置,确认指定的临时目录是否存在且Flink进程有写入权限。
    • 查看是否有其他进程或清理脚本误删了临时文件。
    • 考虑增加日志级别,以便追踪临时文件的生成和处理过程。

情况3: PUT操作失败 & JarRunHandler异常

  • 错误描述: 向Blob Server上传文件(PUT操作)失败,并且在尝试执行Jar任务时遇到未处理的异常。
  • 可能原因:
    • Blob Server拒绝上传或存储空间不足。
    • 上传的文件过大或格式不正确。
    • Flink作业配置错误。
  • 解决建议:
    • 检查Blob Server的存储空间状况,确保有足够的容量接收上传的文件。
    • 验证上传的文件是否完整且符合Flink作业的要求。
    • 重新审视并验证Flink作业提交时的配置参数,特别是与Blob Server交互相关的设置。
    • 查看Flink和应用的日志,寻找有关上传失败的具体原因。

针对所有情况,建议定期维护和监控Flink集群,包括Blob Server的状态,以及确保所有组件的配置正确无误。如果问题持续存在,考虑升级到最新稳定版本的Flink,因为这些问题可能已在后续版本中得到修复。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答