数据集成:针对离线集成任务超时的优化策略【Dataphin V3.11】

本文涉及的产品
数据传输服务 DTS,数据同步 small 3个月
推荐场景:
数据库上云
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
数据传输服务 DTS,数据同步 1个月
简介: 集成任务作为数据中台和外部数据库链接的数据桥梁,常常需要应对与处理复杂的外部数据库与网络环境。一旦外部的数据库出现异常,集成任务就会卡在某个状态:如一直在尝试与数据库连接,或者在数据库过载的时候还在一直在尝试执行SQL……这些异常状态都会导致集成任务无法长时间卡住,无法完成。

一、背景:

集成任务作为数据中台和外部数据库链接的数据桥梁,常常需要面对与处理复杂的外部数据库与网络环境。一旦外部的数据库出现异常,集成任务就会卡在某个状态:如一直在尝试与数据库连接,或者在数据库过载的时候还在一直在尝试执行SQL……这些异常状态都会导致集成任务无法完成。

集成任务如果长时间卡在某个异常状态,会一直处于运行状态,持续占用资源,会影响其他任务的调度运行。并且,没有及时的异常状态反馈,运维人员也无法及时感知任务出错采取修复措施,导致后续链路的任务也无法运行,可能造成重大影响。

难以及时感知异常并准确排查,且可能造成严重影响,这使得集成任务卡在异常状态成为了企业中运维人员的一大心事,针对该痛点,Dataphin在V3.11版本做了以下的优化,通过提供可配置的策略,旨在减少集成任务在异常情况下的无效等待时间,加快人员的感知与响应速度,提高集成任务的成功率。

二、优化策略:

1、数据源新增超时时长配置:

在V3.11中,Dataphin针对大多数的RDMBS类型数据库,在创建数据源配置中提供了connectTimeout和socketTimeout配置项(不同数据库的超时配置参数名称不完全相同)。

connectTimeout是指连接超时时间,是在客户端向服务端建立连接时使用的超时设置。当客户端向服务端发起连接请求时,如果在指定的时间内没有建立连接成功,则会抛出连接超时的异常。Dataphin将connectTimeout默认设置为15分钟,可根据实际情况自行调整。

socketTimeout是指数据传输超时时间,是在已经建立连接后进行数据传输时使用的超时设置。当客户端向服务端发送数据或接收数据时,如果在指定的时间内没有完成数据传输,则会抛出数据传输超时的异常。Dataphin将socketTimeout默认设置为30分钟,可根据实际情况自行调整。

该优化措施可以在任务长时间卡在连接阶段,或者是数据传输时间过长的异常状态下,及时置任务失败,反馈异常状态,减少集成任务的无效等待时长。

2、集成任务-通道配置优化

  • 将默认的数据库连接重试次数由7次改为1次,减少在数据库自身环境异常时,无效的重试连接时间。
  • 新增SQL执行超时时长,默认30分钟。该配置应用于任务中的目标库准备语句及结束语句SQL,如果其中任一语句超过该配置,则置任务失败。该配置可以防止用户写无意间了一条运行时间过久的SQL,导致集成任务运行时间过久。如果准备语句及结束语句SQL确实需要很久,可适当延长SQL执行超时时长。但需要注意的是,准备语句及结束语句SQL用于辅助数据同步使用,过于复杂的准备或结束语句SQL不建议在集成任务中配置。
  • 新增无流量时间阈值,默认30分钟。在数据库压力过大时,数据可能长时间无法抽取或写入,该配置项可以在无数据流量超过一定时长时,置任务失败,及时反馈这种异常情况。

三、总结:

针对集成任务在异常状态下卡住难以感知的痛点,Dataphin在V3.11上进行了一系列的优化措施,通过对于集成任务各阶段的超时控制,及时反馈异常状态,帮助运维人员及时感知并处理异常,减少集成任务的无效等待时长,及时释放资源,不阻碍其他任务的调度运行。

相关文章
|
4月前
|
机器学习/深度学习 Python
堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能
本文深入探讨了堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能。文章详细介绍了堆叠的实现步骤,包括数据准备、基础模型训练、新训练集构建及元学习器训练,并讨论了其优缺点。
244 3
|
11天前
|
关系型数据库 MySQL 数据库
|
10天前
|
关系型数据库 MySQL OLAP
无缝集成 MySQL,解锁秒级 OLAP 分析性能极限,完成任务可领取三合一数据线!
通过 AnalyticDB MySQL 版、DMS、DTS 和 RDS MySQL 版协同工作,解决大规模业务数据统计难题,参与活动完成任务即可领取三合一数据线(限量200个),还有机会抽取蓝牙音箱大奖!
|
4月前
|
数据采集 安全 数据管理
深度解析:DataHub的数据集成与管理策略
【10月更文挑战第23天】DataHub 是阿里云推出的一款数据集成与管理平台,旨在帮助企业高效地处理和管理多源异构数据。作为一名已经有一定 DataHub 使用经验的技术人员,我深知其在数据集成与管理方面的强大功能。本文将从个人的角度出发,深入探讨 DataHub 的核心技术、工作原理,以及如何实现多源异构数据的高效集成、数据清洗与转换、数据权限管理和安全控制措施。通过具体的案例分析,展示 DataHub 在解决复杂数据管理问题上的优势。
710 1
|
11天前
|
SQL 分布式计算 关系型数据库
|
2月前
|
人工智能 JSON 数据可视化
集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?
多模态模型在处理图像、文本、音频等数据方面能力不断提升,但其性能评估一直是个挑战。为此,研究团队推出了MEGA-Bench评测套件,集成505个现实任务,涵盖广泛领域和数据类型,由16位专家标注。它采用灵活输出格式,提供多维度评估指标,并配有交互式可视化工具,为模型优化提供了重要支持。然而,评估过程复杂且耗时,COT方法对开源模型性能的影响也值得探讨。论文链接:https://arxiv.org/abs/2410.10563
89 29
|
3月前
|
存储 测试技术 持续交付
Docker与CI/CD的集成策略及其对软件开发效率和质量的提升作用
本文探讨了Docker与CI/CD的集成策略及其对软件开发效率和质量的提升作用。首先介绍了CI/CD的基本概念,接着阐述了Docker在环境一致性、快速部署、资源隔离和轻量化方面的优势。文章还详细讨论了构建、测试和部署阶段的具体集成方法,以及集成后带来的效率提升、可靠性增强、加速交付和易于管理等好处。最后,通过案例分析展示了集成的实际效果,强调了Docker与CI/CD结合的重要性和未来前景。
84 2
|
4月前
|
存储 Java 调度
Sppring集成Quartz简单案例详解 包括(添加、停止、恢复、删除任务、获取下次执行时间等)
Sppring集成Quartz简单案例详解 包括(添加、停止、恢复、删除任务、获取下次执行时间等)
58 2
|
5月前
|
机器学习/深度学习 算法 前端开发
集成学习任务七和八、投票法与bagging学习
集成学习任务七和八、投票法与bagging学习
77 0
|
23天前
|
SQL 弹性计算 DataWorks
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践

热门文章

最新文章