DataWorks熟能生巧系列直播第六期：数据集成日志详解-阿里云开发者社区

DataWorks熟能生巧系列直播第六期：数据集成日志详解

2021-08-23 730

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

大数据开发治理平台DataWorks，Serverless资源组抵扣包300CU*H

简介： 数据集成的任务日志主要分为两个部分，第一部分主要打印任务的整体状态，第二部分打印线程明细、各子线程执行过程以及执行结果。这两部分日志是分开的，但有一个共同的调度信息模块，记录运行机器、地域信息、项目名、节点信息、参数值等。此外，数据集成资源组有3种标识，我们通过标识能轻松识别数据集成跑在哪个资源组上。

分享人：DataWorks技术支持团队

我们在开发者社区学习路线里有发布一个DataWorks的学习路线，里面包含了入门讲解和熟能生巧系列的直播内容，大家可以去学习一下，需要主账号登陆学习哦：https://developer.aliyun.com/learning/course/81

本期视频地址：https://developer.aliyun.com/learning/course/81/detail/1243

数据集成日志介绍

数据集成的任务日志主要分为两个部分，第一部分主要打印任务的整体状态，第二部分打印线程明细、各子线程执行过程以及执行结果。这两部分日志是分开的，但有一个共同的调度信息模块，记录运行机器、地域信息、项目名、节点信息、参数值等。此外，数据集成资源组有3种标识，我们通过标识能轻松识别数据集成跑在哪个资源组上。

幻灯片2.PNG

日志的第一部分是打印出同步任务的四个主要状态，包括submit、wait、run、success/failed。submit是将任务从一级调度资源组提交到数据集成资源组上，让任务开始真正地执行，同一个任务只允许提交一次，多次提交会引起多实例job冲突，造成submit failed ；wait表示等待数据集成资源组分配资源使该任务运行；run表示数据集成任务已经在资源组上运行了；success/failed表示任务执行成功或失败。

幻灯片3.PNG

日志的第二部分主要是任务执行明细、子线程执行情况以及结果返回信息、数据写入信息等，可在运行日志中找detail log url这个标识符来查看详细日志。

幻灯片4.PNG

这部分日志主要分为六个部分。第一部分是任务渲染完毕后提交的实际配置以及参数替换结果的Json配置。数据集成任务渲染之后的一个Json配置会提交到数据集成资源组上，由数据集成插件对该部分信息进行解析并开始执行各阶段任务；第二部分是数据源端的表信息和列信息；第三部分是odps表做数据清理；第四部分是根据配置的切分键生成SQL，并到数据源端根据切分的SQL进行数据查询，若是配置了querysql那么会执行querysql忽略切分键配置；第五部分是执行取数SQL并向目的端写入数据；第六部分是数据条款、速率的最终统计。

幻灯片5.PNG

下面是一些常见问题和解决办法，比如：

1、odps表不存在的问题：因为标准空间模式是开发和生产环境隔离的，如果odps仅创建了开发表没有生产表，那么数据集成任务发布运行的时候是找不到生产表的，需要创建对应的生产表。
2、任务提交后一直是wait状态的问题：通常是资源不足导致任务运行不起来，比如使用公共数据集成资源组在高峰期争抢不到资源，或者使用独享资源组规格不够大，支持的并发数小于任务的并发数，或者其他同步任务占用了独享资源组，剩余资源不够启动任务等。
3、任务一直处于run状态但是卡在某个百分点不往下进行的问题：首先检查是不是配置了presql或者postsql且执行时间很长，其次查看detail log排查是否某个子线程取数时数据库超时没返回结果
4、读取数据库端数据时报链接超时异常的问题：数据库端通常执行超过15分钟会报network timeout的错误，这个超时时间可以在数据库端修改，或者优化取数sql控制取数时间小于超时时间
5、网络不通的问题：网络不同通常是白名单未添加或者资源组没有绑定专有网络。数据集成添加数据源时有提供网络连通工具专门连通网络，我们在熟能生巧第4期也有详细讲解如何打通独享资源组和VPC数据源网络，大家可以参考一下

幻灯片6.PNG