DataWorks显示运行失败，如何解决？

展开

收起

真的很搞笑 2024-04-22 16:31:03 99 版权

阿里云 AI 助理回答

根据您提供的信息，DataWorks显示作业运行失败，并附带了一个Logview链接。通过Logview工具，您可以查看MaxCompute作业的运行状态、错误日志以及资源使用情况等详细信息。以下是具体的排查步骤和解决方案。

Logview是MaxCompute提供的分布式作业追踪工具，能够帮助您全面了解作业的运行情况。请按照以下步骤操作：

打开Logview链接：
- 将http://logview.odps.aliyun.com/logview/?h=http://service.cn.maxcompute.aliyun-inc.com/api复制到浏览器中访问。
- 如果您使用的是DataWorks提交的作业，可以直接点击链接进入Logview界面。
查看作业基本信息：
- 在Logview界面的Basic Info区域，您可以查看以下关键信息：
  - Project：作业所属的MaxCompute项目名称。
  - Type：作业类型（如SQL、Spark等）。
  - Status：作业状态（如Success、Failed等）。
  - Start Time 和 End Time：作业的开始和结束时间。
  - Latency 和 Progress：作业执行时长和进度。
定位错误日志：
- 在作业详情区域，查看Fuxi Job和Fuxi Task的运行信息。
- 如果作业失败，通常会在Result部分显示失败原因或错误码。
- 单击具体的Task节点，查看其StdOut和StdErr日志，获取更详细的错误信息。

根据知识库中的常见问题，以下是一些可能导致作业失败的原因及其解决方法：

错误提示：
```
Run job failed, instance:XXXX.
```
可能原因：
- 存在ODPS SQL子任务运行失败，具体错误日志可通过Logview中的instanceId定位。
- 错误码类似ODPS-0110061，表示ODPS内部执行错误。
解决方案：
- 根据错误码查询SQL错误码文档，找到对应的报错原因和解决办法。
- 如果文档中未找到相关信息，建议联系MaxCompute技术支持人员。

错误提示：

Request rejected by flow control. You have exceeded the limit for the number of tasks you can run concurrently in this project.

可能原因：
- Merge任务并发提交的SQL子任务过多，触发了ODPS对该Project的并发限流。
解决方案：
- 降低并发：设置Merge任务的并发参数concurrency以减少并发数。
- 调整调度时间：更改Merge任务的调度时间配置，打散任务运行时间。
- 联系技术支持：如果问题仍未解决，可联系MaxCompute技术支持人员。

错误提示：

Task Run Timed Out, Killed by System！！！

错误提示：

OSError: [Errno 7] Argument list too long.

错误提示：

ODPS-0420095: Access Denied - Authorization Failed [4093].

如果通过Logview仍无法定位问题，可以结合以下工具进行深入分析：

如果您的作业是Spark类型，可以通过Tracking URL访问Spark Web-UI。
在Spark Web-UI中：
- 单击Environment，确认Spark参数设置是否正确。
- 单击Executors，检查是否有Dead节点。
- 查看StdOut和StdErr日志，获取更多错误信息。