6.DataWorks数据集成日志查看|学习笔记

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 快速学习6.DataWorks数据集成日志查看

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:6.DataWorks数据集成日志查看】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1243


6.DataWorks 数据集成日志查看

内容介绍:

一、数据集成任务完整日志分为两大部分

二、日志第一部分

三、日志第二部分

四、常见问题

五、示例

一、数据集成任务完整日志分为两大部分

Rds-mysql odps 为例。

1、第一部分主要打印任务的总体状态,第二部分打印线程明细、执行过程和结果等。它们这两部分日志是分开的,它们有一个共同的模块信息,就是调度信息。

2、系统参数信息模块:

记录运行机器、地域信息、项目名、节点信息、参数值,就是调度的调度参数,实际替换的参数值。

3、需要关注点:

(1)配置的参数是否被真实值替换。( 配置出错或者未解析会导致实际任务运行时找不到分区/查不到数据等)。

(2)运行任务的数据集成资源组类型(部分数据源仅支持独享数据集成资源组)。

(3)资源组标识:

运行在数据集成公共资源组上: in Pipeline[basecommon_ group_ xxxxxxxx] 日志中会有明显的信息提示。

运行在数据集成自定义资源组上: in Pipeline[basecommon xxxxxxx] 这一点会很快速明确的区分出自己的任务是运行在什么样的资源组上。

运行在数据集成独享资源组上: in Pipeline[basecommon_ S_ res_ group_ xxx


二、日志第一部分

1、同步任务的四个状态分别为submit、wait、 run、 success/failed。

(1)submit :提交任务,将数据集成任务提交到服务器执行。数据集成任务不允许同一个任务同时提交两次,所以当一个任务同时提交了多个实例时仅有一个会被服务器接收,另一个会提交失败(补数据和周期实例冲突、补数据和手动运行冲突、周期实例间隔时间段冲突、周期实例和手动触发任务提交冲突这些情况都会导致任务提交失败)。所以当有多实例job冲突时,会造成 submit failed 的现象。

(2)wait :等待数据集成资源组分配资源使该任务运行。若数据集成资源组资源不足,则运行日志中会有长时间处于wait状态的现象且任务进度一直为0%。这状态持续的时间可长可短,当数据集成资源组资源不足时,状态会持续比较长的时间。通常如果使用公共数据集成资源组,现象还是比较常见的。如果使用独享数据集成资源组,任务配置的编码数合适,且各个任务之间的执行时间和运行时间合理分配的情况下,一般不会出现过长wait等待状态。

(3)run :表示数据集成任务已经在资源组上运行了。run状态时间较长,执行的任务较多,包括预执行 preSq| (删除表数据等)、同步数据、数据写入目的端后执行postSq|(同步完成后执行的sql,删除部分重复数据等)等。如果任务进度卡在某个百分点不动,可以检查下是否配置了预执行或者后执行sql语句。

(4)Success/failed:分别表示任务执行成功/失败。

以上是同步任务日志第一部分主要打印信息,为任务渲染、提交、运行、执行完毕的日志

日志结束的标志信息:

DI Finish at: xXXXXX


三、日志第二部分

1、任务执行明细、子线程执行情况及结果返回信息、数据写入信息等。

2、该部分日志请在如图所示的运维中心的运行日志中找detail log url这个标识符,可从该链接中查看详细日志,可以获取明细。

3、大体可分为6个步骤:

(1)任务渲染完毕后提交的实际配置以及参数替换结果的json配置。它会提交到数据集成资源组上,设计成插件,对该部分信息进行解析,并且开始执行各阶段任务。

(2)数据源端的表信息、列信息。

(3)对 odps 表做数据清理(如果配置了写入前清理数据)。

(4)根据配置的切分键生成sql到数据源端读取数据(若是配置了querysql那么会执行 querysql 忽略切分键配置)。查询之后的结果会被同步到目的端。没有使用split PK 还是配置了个人sql,那么会跳过所谓的PK属性,就是跳过切分,而直接执行 querysql,将 querysql 在数据库端得到的数据同步到目的端。

(5)执行取数sql并向目的端写入数据。

(6)数据条数、速率的最终统计。任务一共读到了多少条数据,多少个字节,速率是多少,每秒的数据条数是多少,这是主要的6个模块。


四、常见问题

1、Odps表不存在(在生产环境运行任务报该异常一般是只创建了odps开发表后直接配置了数据集成任务然后就发布运行了,需要再创建生产表)。dataworks项目分为开发环境和生产环境,如果是标准模式,那么在生产环境同步数据需要有生产表,如果在开发环境同步数据需要有开发表,环境问题也是经常被问到的问题。

2、任务提交后一直是wait状态 (当数据集成资源组不足时会出现该情况(公共数据集成资源组资源不足/独享数据集成资源组支持的并发数小于任务配置的并发数或者其他同步任务运行中导致剩余的资源不够下一个任务启动。它会处在长时间的等待状态,等上一个任务运行完毕之后,释放出足够的资源,下一个任务才可以启动运行。

3、任务一直处于run状态但是 卡在某个百分点不往下进行

(1)首先检查是不是配置了 presq| 或者 postsql ,在准备数据写入或者数据已经写入后执行了该sq|且该sq|执行时间过长

(2)查看 detail log 排查是否某个子线程取数时数据库端迟迟没返回结果)

4、读取数据库端数据时报链接超时异常(该情况需要调整数据库超时时间参数或者优化取数sq|等)。比如rds常见的链接超时异常,一般是15分钟必须返回结果,如果sql执行超过15分钟,rds数据库会报错误,这个是在数据库端可以调整的,也可以通过优化sql,加快sql查询速度,使结果尽量在短时间内返回,这样就可以避免错误。

5、网络不通(该情况需具体分析,一般情况为白名单没有加全或者独享资源组没有绑定装有网络)。


五、示例

1、配置一个 rdsmysql 同步到odps数据的任务,在 dataworks 的运维中心周期任务里可以查阅到这个任务。查看功能详情,可以看到具体的任务配置,也就是第一部分任务渲染之后,提交到数据集成资源组上的json配置,可以看到它是从mysql reader 到 odps writer 的一个任务,dt是用 bizdate 分区配置的。

2、看它具体的日志内容,第一部分的日志,第二行任务实际运行在哪个机器上,paravalue 就是的调度参数的配置和它的实际替换值。在 DataStudio 里面配置的就是被默认的一个 bizdate,目的srcds是数据源,skynet ID表示任务的节点ID,在明细里可以看到,时区gmt+8,下面都是系统参数,不用特别的关注,一个 region 信息,项目所在的地域,比较重要的一个参数,运行所在的调度资源组,就是一级任务分发的志愿组。下面是任务渲染之前的结果,用自己的调度参数替换了实际的分区,351576497是数据集成的实例 ID,basecommon_ group表示公共的数据资源组,detail log 是详细日志打印的地方,三个状态 submit,数据运行时资源组比较充足,所以它直接跳过了 run 状态,run 状态持续20秒钟,返回 sucess。

3、看第二部分,也就是 detail log。上面的信息基本上和第一部分是一致的,进入节点ID资源组等各个模块的信息,在info下面的第一个可以看到当前运行的资源组所使用的datax的版本,使用的是2019年12月17号的一个版本,这个版本是一个比较老的版本目前已经更新到2020年,如果在使用独享资源组时,如果版本过低,可以供单到这边升级优化,下面是任务渲染之后的状态,它就非常明细的信息,Tenanted 表示 dataworks 的工作id,下面包括jdbc数据源的信息,也会详细的打印出来。这样有助于后续排查任务运行情况,任务渲染信息看完之后。4、2020-10-1112:57:00.802 [ j 0b342977759] INFO 0riginalConfPret reatmentutil- table: [yanshi 1011 has co lumns: [id,nane. addr] 明显从数据库端获取表名和列信息的方式,这样可以方便就是快速识别表结构,检查是否是配置的列数,左右两边是否一致。由于在同步任务配置时,配置了的try catch参数,所以会执行一个try catch语句,先清空,再重新添加dt等于20201010的分区。根据rds mysql配置的是skynet ID,根据skynet ID值对mysql的数据进行切分,根据数据条数整体进行等分,切分成10块,也有明细的打印,就是开始实际的执行, 9个task,具体的执行某1个task,begin to read record by sql id小于等于2,取出来的数据会写到odps端。Finished to read record by sql 执行完,开始write block,执行完毕就它会明确的提示,此行程执行完毕,使用了多长时间,成功了多少条数据,失败了多少条数据,下面都是对submit sql进行执行,并且向目的端写入。执行完毕,并且写入完毕。这个任务没有出什么异常,最后打印出最终的结果。一共是9条数据,51个字节,速率是2b每秒,平均的记录没到0点每秒。0 records/s |Error 0 records ,0 bytes作为参考值。读出记录总数是9,没有失败的,说明都已经全部写入成功了,这是全部的数据集成日志,这是一个成功的样例。这是关联型odps的样例,关于非关系型数据库,比如 hbase、redis等。

相关文章
|
17天前
|
DataWorks 关系型数据库 Serverless
DataWorks数据集成同步至Hologres能力介绍
本次分享的主题是DataWorks数据集成同步至Hologres能力,由计算平台的产品经理喆别(王喆)分享。介绍DataWorks将数据集成并同步到Hologres的能力。DataWorks数据集成是一款低成本、高效率、全场景覆盖的产品。当我们面向数据库级别,向Hologres进行同步时,能够实现简单且快速的同步设置。目前仅需配置一个任务,就能迅速地将一个数据库实例内的所有库表一并传输到Hologres中。
52 12
|
25天前
|
存储 安全 Java
Spring Boot 3 集成Spring AOP实现系统日志记录
本文介绍了如何在Spring Boot 3中集成Spring AOP实现系统日志记录功能。通过定义`SysLog`注解和配置相应的AOP切面,可以在方法执行前后自动记录日志信息,包括操作的开始时间、结束时间、请求参数、返回结果、异常信息等,并将这些信息保存到数据库中。此外,还使用了`ThreadLocal`变量来存储每个线程独立的日志数据,确保线程安全。文中还展示了项目实战中的部分代码片段,以及基于Spring Boot 3 + Vue 3构建的快速开发框架的简介与内置功能列表。此框架结合了当前主流技术栈,提供了用户管理、权限控制、接口文档自动生成等多项实用特性。
72 8
|
2月前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
4月前
|
Java 程序员 API
Android|集成 slf4j + logback 作为日志框架
做个简单改造,统一 Android APP 和 Java 后端项目打印日志的体验。
181 1
|
4月前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
176 1
|
4月前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
159 3
|
6月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之数据集成并发数不支持批量修改,该怎么办
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
存储 分布式计算 DataWorks
dataworks数据集成
dataworks数据集成
190 2
|
5月前
|
机器学习/深度学习 DataWorks 数据挖掘
基于阿里云Hologres和DataWorks数据集成的方案
基于阿里云Hologres和DataWorks数据集成的方案
108 7
|
6月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之数据集成任务日志中显示wait,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。