DataWorks百问百答68:如何阅读数据集成日志(日志分析及常见报错情况)?

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 数据集成日志分析及常见报错情况(rds至odps版)

如何阅读数据集成日志?

第一部分:系统参数信息。记录运行机器、地域信息、项目名、节点信息、参数值等。
需要关注点:参数值是否已经被实际值替换,运行的调度资源组是什么类型?
group_xxxxxxx_xxx:公共调度资源组
S_res_group_xxx:独享调度资源组
xxxxx:自定义调度资源组

dataworks68-5.png
数据集成资源组:
运行在默认的资源组上: in Pipeline[basecommon_ group_xxxxxxxxx]
运行在数据集成自定义资源组上: in Pipeline[basecommon_xxxxxxxxx]
运行在独享数据集成资源上: in Pipeline[basecommon_S_res_group_xxx]
需注意资源组的选择。

数据集成任务从提交到结束,共分为四个状态。分别为submit、wait、run、success或者failed。

submit:提交任务,将数据集成任务提交到服务器执行。
数据集成任务不允许同一个任务同时提交两次,所以当一个任务同时提交了多个实例时仅有一个会被服务器接收,另一个会提交失败(补数据和周期实例冲突、补数据和手动运行冲突、周期实例间隔时间段冲突、周期实例和手动触发任务提交冲突这些情况都会导致任务提交失败)。所以当有多实例job冲突时,会造成submit failed的现象。

wait:等待服务器分配资源使该任务运行。若数据集成资源组资源不足,则运行日志中会有长时间处于wait状态的现象且stage为0%。
dataworks68-4.png

run:表示数据集成任务已经在资源组上运行了。run状态包含多个部分,包括预执行preSql(删除表数据等)、同步数据、数据写入目的端后执行postSql(同步完成后执行的sql,删除部分重复数据等)等。

数据集成任务日志分为两个部分,第一部分主要为任务渲染、提交、运行、执行完毕的日志,不记录各个子线程的执具体执行情况,仅粗略表达任务的执行状态、时间。对应的结束标志为:
DI Finish at            : xxxxxx
dataworks68-3.png

第二部分为各线程具体执行的细则,主要包含任务的切分、切分的结果、执行的详情、数据量、最终状态等。
从日志表现上看,DI Finish at  : xxxxxx之后便可认为是第二部分的详细日志了。

例如我们配置切分键将一个rds表数据切分成数份进行同步,日志中会有明显的切分标志并且根据所配置的切分键的最大最小值进行等分为数份。
dataworks68-2.png
且每一个在源端进行查询的sql和其最终的结构都会打印出来。
dataworks68-1.png

长时间处于run状态但是进度一直是0%?
这种情况极大的概率是由于任务配置了preSql且preSql执行逻辑较为复杂或者数据量过大,导致preSql在数据库端执行的时候耗用的时间过长从而任务进度一直是0%;
这种情况日志中请到第二部分日志中搜preSql,会有明显的presql执行日志且其与下一条日志的时间间隔相差较久。

长时间处于run状态但是进度一直在某个百分比?
这种情况可能是个子线程所执行的读取数据库数据的sql在数据库端执行异常,迟迟不返回结果,一般伴随着数据库连接超时、时间参数超过阈值而报error的情况。

长时间处于run状态且进度为99%?
这种情况请检查下是否配置了postsql,即同步完成后执行postsql对数据进行后处理耗用了比较久的时间。同presql的一样。

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
1月前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
330 30
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
13天前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
|
2月前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
328 3
|
13天前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
23天前
|
存储 监控 安全
什么是事件日志管理系统?事件日志管理系统有哪些用处?
事件日志管理系统是IT安全的重要工具,用于集中收集、分析和解释来自组织IT基础设施各组件的事件日志,如防火墙、路由器、交换机等,帮助提升网络安全、实现主动威胁检测和促进合规性。系统支持多种日志类型,包括Windows事件日志、Syslog日志和应用程序日志,通过实时监测、告警及可视化分析,为企业提供强大的安全保障。然而,实施过程中也面临数据量大、日志管理和分析复杂等挑战。EventLog Analyzer作为一款高效工具,不仅提供实时监测与告警、可视化分析和报告功能,还支持多种合规性报告,帮助企业克服挑战,提升网络安全水平。
|
1月前
|
存储 监控 安全
什么是日志管理,如何进行日志管理?
日志管理是对IT系统生成的日志数据进行收集、存储、分析和处理的实践,对维护系统健康、确保安全及获取运营智能至关重要。本文介绍了日志管理的基本概念、常见挑战、工具的主要功能及选择解决方案的方法,强调了定义管理目标、日志收集与分析、警报和报告、持续改进等关键步骤,以及如何应对数据量大、安全问题、警报疲劳等挑战,最终实现日志数据的有效管理和利用。
104 0
|
2月前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
133 1
|
2月前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
126 3
|
2月前
|
Python
log日志学习
【10月更文挑战第9天】 python处理log打印模块log的使用和介绍
43 0
|
2月前
|
数据可视化
Tensorboard可视化学习笔记(一):如何可视化通过网页查看log日志
关于如何使用TensorBoard进行数据可视化的教程,包括TensorBoard的安装、配置环境变量、将数据写入TensorBoard、启动TensorBoard以及如何通过网页查看日志文件。
278 0

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks