1、发现报错
首先通过运维大屏,点运行失败进去周期实例中查看失败任务,然后进行筛选条件,只查看同步节点。
2、查看日志
查看每一个任务的运行日志。
错误原因有的是分区不存在,不存在的是因为治理那边也是有好多任务是失败的。
其次大部分的都是数据传输为0,然后分析的是因为人社的一张4亿多条的表占用资源,影响其它的任务了,然后查看人社AC43这张4亿的同步任务,发现在执行15分钟的时候就已经出错了,出错原因也是一直传输为0。
报错信息:Code:[OdpsWriter-09], Description:[写入数据到 ODPS 目的表失败.]. - ODPS 目的表写 block:0 失败, uploadId=[20191230013903e208180a0112b57b]. 请联系 ODPS 管理员处理. - java.io.IOException: RequestId=20191230014736e208180a0112bc10, ErrorCode=InternalServerError, ErrorMessage=Storage quota not enough.
3、重跑任务
A、重跑成功:说明在同一时间点运行压力太大,分析硬件资源后,分段运行。
B、重跑失败:进入第四步。
4、开发环境验证
A、在开发环境手动执行,看是否存在同样的错误,定位是程序问题、空间问题还是产品问题引起的。
5、定位错误
错误原因是空间不够,接下来在数据地图中查看占用空间情况:
然后看空间申请的存储空间:
明显是空间不够了。
6、解决办法
A、申请存储空间资源(空间大小由项目规划分析)。
B、释放表空间(清理测试数据、垃圾数据、历史数据)。