DataWorks百问百答68:如何阅读数据集成日志(日志分析及常见报错情况)?

本文涉及的产品
DataWorks Serverless资源组免费试用套餐,300CU*H 3个月
简介: 数据集成日志分析及常见报错情况(rds至odps版)

如何阅读数据集成日志?

第一部分:系统参数信息。记录运行机器、地域信息、项目名、节点信息、参数值等。
需要关注点:参数值是否已经被实际值替换,运行的调度资源组是什么类型?
group_xxxxxxx_xxx:公共调度资源组
S_res_group_xxx:独享调度资源组
xxxxx:自定义调度资源组

dataworks68-5.png
数据集成资源组:
运行在默认的资源组上: in Pipeline[basecommon_ group_xxxxxxxxx]
运行在数据集成自定义资源组上: in Pipeline[basecommon_xxxxxxxxx]
运行在独享数据集成资源上: in Pipeline[basecommon_S_res_group_xxx]
需注意资源组的选择。

数据集成任务从提交到结束,共分为四个状态。分别为submit、wait、run、success或者failed。

submit:提交任务,将数据集成任务提交到服务器执行。
数据集成任务不允许同一个任务同时提交两次,所以当一个任务同时提交了多个实例时仅有一个会被服务器接收,另一个会提交失败(补数据和周期实例冲突、补数据和手动运行冲突、周期实例间隔时间段冲突、周期实例和手动触发任务提交冲突这些情况都会导致任务提交失败)。所以当有多实例job冲突时,会造成submit failed的现象。

wait:等待服务器分配资源使该任务运行。若数据集成资源组资源不足,则运行日志中会有长时间处于wait状态的现象且stage为0%。
dataworks68-4.png

run:表示数据集成任务已经在资源组上运行了。run状态包含多个部分,包括预执行preSql(删除表数据等)、同步数据、数据写入目的端后执行postSql(同步完成后执行的sql,删除部分重复数据等)等。

数据集成任务日志分为两个部分,第一部分主要为任务渲染、提交、运行、执行完毕的日志,不记录各个子线程的执具体执行情况,仅粗略表达任务的执行状态、时间。对应的结束标志为:
DI Finish at            : xxxxxx
dataworks68-3.png

第二部分为各线程具体执行的细则,主要包含任务的切分、切分的结果、执行的详情、数据量、最终状态等。
从日志表现上看,DI Finish at  : xxxxxx之后便可认为是第二部分的详细日志了。

例如我们配置切分键将一个rds表数据切分成数份进行同步,日志中会有明显的切分标志并且根据所配置的切分键的最大最小值进行等分为数份。
dataworks68-2.png
且每一个在源端进行查询的sql和其最终的结构都会打印出来。
dataworks68-1.png

长时间处于run状态但是进度一直是0%?
这种情况极大的概率是由于任务配置了preSql且preSql执行逻辑较为复杂或者数据量过大,导致preSql在数据库端执行的时候耗用的时间过长从而任务进度一直是0%;
这种情况日志中请到第二部分日志中搜preSql,会有明显的presql执行日志且其与下一条日志的时间间隔相差较久。

长时间处于run状态但是进度一直在某个百分比?
这种情况可能是个子线程所执行的读取数据库数据的sql在数据库端执行异常,迟迟不返回结果,一般伴随着数据库连接超时、时间参数超过阈值而报error的情况。

长时间处于run状态且进度为99%?
这种情况请检查下是否配置了postsql,即同步完成后执行postsql对数据进行后处理耗用了比较久的时间。同presql的一样。

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
2月前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之开发环境正常,提交到生产时报错,是什么原因
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
14天前
|
存储 分布式计算 DataWorks
dataworks数据集成
dataworks数据集成
48 1
|
28天前
|
机器学习/深度学习 DataWorks 数据挖掘
基于阿里云Hologres和DataWorks数据集成的方案
基于阿里云Hologres和DataWorks数据集成的方案
41 7
|
2月前
|
SQL DataWorks 安全
DataWorks产品使用合集之调度资源组与集成资源内部的实例如何进行共用
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之公共集成资源组如何切换独享资源
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
Web App开发 DataWorks 关系型数据库
DataWorks操作报错合集之查看数据源界面报错:ConsoleNeedLogin,该怎么办
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
2月前
|
Kubernetes Ubuntu Windows
【Azure K8S | AKS】分享从AKS集群的Node中查看日志的方法(/var/log)
【Azure K8S | AKS】分享从AKS集群的Node中查看日志的方法(/var/log)
|
21天前
|
Java
日志框架log4j打印异常堆栈信息携带traceId,方便接口异常排查
日常项目运行日志,异常栈打印是不带traceId,导致排查问题查找异常栈很麻烦。
|
1月前
|
存储 监控 数据可视化
SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
【9月更文挑战第2天】SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
66 9
|
2月前
|
开发框架 .NET Docker
【Azure 应用服务】App Service .NET Core项目在Program.cs中自定义添加的logger.LogInformation,部署到App Service上后日志不显示Log Stream中的问题
【Azure 应用服务】App Service .NET Core项目在Program.cs中自定义添加的logger.LogInformation,部署到App Service上后日志不显示Log Stream中的问题

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks
  • 下一篇
    无影云桌面