DataWorks 数据集成日志查看 | 学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 快速学习 DataWorks 数据集成日志查看

开发者学堂课程【SaaS  模式云数据仓库系列课程 —— 2021数仓必修课DataWorks  数据集成日志查看】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/55/detail/1196


DataWorks  数据集成日志查看


内容简介:

一、DataWorks  数据集成日志相关介绍

二、数据集成任务完整日志打印印任务的总体状态

三、数据集成任务完整日志打印线程明细、执行过程和结果

四、常见问题

一、DataWorks  数据集成日志相关介绍

数据集成任务完整日志分为两大部分,第一部分主要打印任务的总体状态,第二部分打印线程明细、执行过程和结果等。

● 系统参数信息模块:

● 记录运行机器、地域信息、项目名、节点信息、参数值等。

● 需要关注点:

● 1.配置的参数是否被真实值替换。( 配置出错或者未解析会导致实际任务运行时找不到分区/查不到数据等)

● 2.运行任务的数据集成资源组类型(部分数据源仅支持独享数据集成资源组)

● 资源组标识:

● 运行在数据集成公共资源组上:  in Pipeline[basecommon_ group_ xxxxxxx]

● 运行在数据集成自定义资源组上:  in Pipeline[basecommon_ xxxxxxxx]

● 运行在数据集成独享资源组上:  in Pipeline[basecommon_ S_ res_group _xxx]

二、数据集成任务完整日志打印印任务的总体状态

日志第一部分: (同步任务的四个状态)分别为  submit、wait、 run、 success/failed。

submit  :提交任务,将数据集成任务提交到服务器执行。数据集成任务不允许同一个任务同时提交两次,所以当一个任务同时提交了多个实例时仅有一个会被服务器接收,另一个会提交失败(补数据和周期实例冲突、补数据和手动运行冲突、周期实例间隔时间段冲突、周期实例和手动触发任务提交,冲突这些情况都会导致任务提交失败) .所以当有多实例  job 冲突时,会造成  submit failed  的现象。

wait  :等待数据集成资源组分配资源使该任务运行。若数据集成资源组资源不足,则运行日志中会有长时间处于wait状态的现象且任务进度一直为0%。

run  :表示数据集成任务已经在资源组上运行了。run  状态时间较长;执行的任务较多包括预执行  preSql  (删除表数据等)、同步数据、数据写入目的端后执行  postSql (同步完成后执行的  sql,删除部分重复数据等)等。如果任务进度卡在某个百分点不动,可以检查下是否配置了预执行或者后执行sql语句。

Success/failed:  分别表示任务执行成功/失败

以上是同步任务日志第一部分主要打印信息,为任务渲染、提交、运行、执行完毕的日志,日志结束的标志信息:  DI Finish at: xxxxxxx。


三、数据集成任务完整日志打印线程明细、执行过程和结果

日志第二部分:任务执行明细、子线程执行情况及结果返回信息、数据写入信息等。该部分日志请在如图所示的运行日志中找detail log url这个标识符,可从该链接中查看详细日志。

大体可分为 6  个步骤:

1.任务渲染完毕后提交的实际配置以及参数替换结果的json配置。

2.数据源端的表信息、列信息。

3.对  odps  表做数据清理(如果配置了写入前清理数据)。

4.根据配置的切分键生成sql到数据源端读取数据(若是配置了querysq|那么会执行querysql 忽略切分键配置)。

5.执行取数  sql  并向目的端写入数据。

6.数据条数、速率的最终统计。


四、常见问题

1.0dps  表不存在(在生产环境运行任务报该异常一般是只创建了  odps  开发表后直接配置了数据集成任务然后就发布运行了,需要再创建生产表)

2.任务提交后直是  wait  状态 (当数据集成资源组不足时会出现该情况(公共数据集成资源组资源不足/独享数据集成资源组支持的并发数小于任务配置的并发数或者其他同步任务运行中导致剩余的资源不够下一个任务启动)

3.任务直处于 run  状态但是 卡在某个百分点不往下进行( 1.首先检查是不是配置了presql  或者  postsql  ,在准备数据写入或者数据已经写入后执行了该  sql  且该  sql执行时间过长2.查看  detaillog   排查是否某个子线程取数时数据库端迟迟没返回结果)

4.读取数据库端数据时报链接超时异常(该情况需要调整数据库超时时间参数或者优化取数  sql  等)。

5.网络不通(该情况需具体分析,一般情况为白名单没有加全或者独享资源组没有绑定装有网络)。

相关文章
|
21天前
|
Java 程序员 API
Android|集成 slf4j + logback 作为日志框架
做个简单改造,统一 Android APP 和 Java 后端项目打印日志的体验。
83 1
|
1月前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
83 1
|
1月前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
88 3
|
2月前
|
存储 分布式计算 DataWorks
dataworks数据集成
dataworks数据集成
106 1
|
2月前
|
机器学习/深度学习 DataWorks 数据挖掘
基于阿里云Hologres和DataWorks数据集成的方案
基于阿里云Hologres和DataWorks数据集成的方案
70 7
|
3月前
|
Java jenkins Shell
jenkins学习笔记之五:Maven、Ant、Gradl、Node构建工具集成
jenkins学习笔记之五:Maven、Ant、Gradl、Node构建工具集成
|
3月前
|
jenkins 持续交付
jenkins学习笔记之六:共享库方式集成构建工具
jenkins学习笔记之六:共享库方式集成构建工具
|
3月前
|
SQL DataWorks 安全
DataWorks产品使用合集之调度资源组与集成资源内部的实例如何进行共用
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
jenkins 持续交付
jenkins学习笔记之九:jenkins认证集成github
jenkins学习笔记之九:jenkins认证集成github
|
3月前
|
安全 jenkins 持续交付
jenkins学习笔记之八:jenkins认证集成gitlab
jenkins学习笔记之八:jenkins认证集成gitlab