开发者社区大数据与机器学习实时计算 Flink 正文

使用 yarn-per-job 模式提交 cdc sql 后 yarn状态显示accepted？但

使用 yarn-per-job 模式提交 cdc sql 后 yarn状态显示accepted？但是yarn 资源很足，不像是资源不够

展开

收起

雪哥哥 2022-11-13 20:15:52 711 版权

阿里云 AI 助理回答

当您使用yarn-per-job模式提交CDC SQL作业后，发现YARN状态长时间显示为ACCEPTED，尽管YARN资源充足，这可能由以下几个原因导致：

队列配置限制：检查您的作业是否被提交到了一个具有特定资源限制的队列上。即使整个集群资源充足，但如果该队列的资源配置（包括AM资源和EXECUTOR资源）不足以立即运行您的作业，也会出现此情况。
AM资源分配问题：确认YARN中Application Master (AM) 的资源分配比例是否恰当。如果AM资源占比设置过低，可能导致虽然有资源但无法满足AM启动需求，从而任务无法从ACCEPTED状态转为RUNNING状态。考虑调整yarn.scheduler.capacity.maximum-am-resource-percent配置项以增加AM可用资源比例。
Diagnostics信息：在YARN Web UI中查看该任务的详细信息，特别是Diagnostics部分，这里可能会提供具体原因，如“Queue's AM resource limit exceeded”等错误提示，有助于直接定位问题。
不健康节点：确保YARN集群中没有不健康的节点（Unhealthy Nodes），因为这些节点的资源虽然可见，但实际上不可用，可能影响任务调度。
Spark或YARN服务配置：确认Spark作业提交模式及内存配置是否合理。例如，在Worker节点提交可以避免因Header节点资源紧张导致的问题，同时需注意Launcher消耗内存与Job实际消耗内存的总和应不超过队列可提供的资源上限。
其他系统层面因素：检查是否有系统级的限制或配置不当，比如安全策略、网络问题或YARN自身的配置问题，这些都可能间接影响到作业的正常调度。

解决步骤建议如下： - 首先，通过YARN Web UI检查任务的Diagnostics信息。 - 调整队列或AM资源分配比例，根据实际情况适当提高AM资源百分比。 - 确认所有节点健康且资源真正可用。 - 检视并调整Spark作业的提交模式和内存配置，确保资源请求与队列配置相匹配。 - 如果以上步骤均未解决问题，深入检查YARN和Spark的日志文件，寻找更具体的错误信息进行进一步分析。

请按照上述步骤排查，并针对性地进行调整或优化。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

SQL 资源调度实时计算 Flink版

问答标签：

SQL模式 SQL yarn Yarn cdc Yarn模式 SQL cdc

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199214

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。