数据集成:针对离线集成任务超时的优化策略【Dataphin V3.11】

本文涉及的产品
数据传输服务 DTS,数据同步 small 3个月
推荐场景:
数据库上云
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
数据传输服务 DTS,数据同步 1个月
简介: 集成任务作为数据中台和外部数据库链接的数据桥梁,常常需要应对与处理复杂的外部数据库与网络环境。一旦外部的数据库出现异常,集成任务就会卡在某个状态:如一直在尝试与数据库连接,或者在数据库过载的时候还在一直在尝试执行SQL……这些异常状态都会导致集成任务无法长时间卡住,无法完成。

一、背景:

集成任务作为数据中台和外部数据库链接的数据桥梁,常常需要面对与处理复杂的外部数据库与网络环境。一旦外部的数据库出现异常,集成任务就会卡在某个状态:如一直在尝试与数据库连接,或者在数据库过载的时候还在一直在尝试执行SQL……这些异常状态都会导致集成任务无法完成。

集成任务如果长时间卡在某个异常状态,会一直处于运行状态,持续占用资源,会影响其他任务的调度运行。并且,没有及时的异常状态反馈,运维人员也无法及时感知任务出错采取修复措施,导致后续链路的任务也无法运行,可能造成重大影响。

难以及时感知异常并准确排查,且可能造成严重影响,这使得集成任务卡在异常状态成为了企业中运维人员的一大心事,针对该痛点,Dataphin在V3.11版本做了以下的优化,通过提供可配置的策略,旨在减少集成任务在异常情况下的无效等待时间,加快人员的感知与响应速度,提高集成任务的成功率。

二、优化策略:

1、数据源新增超时时长配置:

在V3.11中,Dataphin针对大多数的RDMBS类型数据库,在创建数据源配置中提供了connectTimeout和socketTimeout配置项(不同数据库的超时配置参数名称不完全相同)。

connectTimeout是指连接超时时间,是在客户端向服务端建立连接时使用的超时设置。当客户端向服务端发起连接请求时,如果在指定的时间内没有建立连接成功,则会抛出连接超时的异常。Dataphin将connectTimeout默认设置为15分钟,可根据实际情况自行调整。

socketTimeout是指数据传输超时时间,是在已经建立连接后进行数据传输时使用的超时设置。当客户端向服务端发送数据或接收数据时,如果在指定的时间内没有完成数据传输,则会抛出数据传输超时的异常。Dataphin将socketTimeout默认设置为30分钟,可根据实际情况自行调整。

该优化措施可以在任务长时间卡在连接阶段,或者是数据传输时间过长的异常状态下,及时置任务失败,反馈异常状态,减少集成任务的无效等待时长。

2、集成任务-通道配置优化

  • 将默认的数据库连接重试次数由7次改为1次,减少在数据库自身环境异常时,无效的重试连接时间。
  • 新增SQL执行超时时长,默认30分钟。该配置应用于任务中的目标库准备语句及结束语句SQL,如果其中任一语句超过该配置,则置任务失败。该配置可以防止用户写无意间了一条运行时间过久的SQL,导致集成任务运行时间过久。如果准备语句及结束语句SQL确实需要很久,可适当延长SQL执行超时时长。但需要注意的是,准备语句及结束语句SQL用于辅助数据同步使用,过于复杂的准备或结束语句SQL不建议在集成任务中配置。
  • 新增无流量时间阈值,默认30分钟。在数据库压力过大时,数据可能长时间无法抽取或写入,该配置项可以在无数据流量超过一定时长时,置任务失败,及时反馈这种异常情况。

三、总结:

针对集成任务在异常状态下卡住难以感知的痛点,Dataphin在V3.11上进行了一系列的优化措施,通过对于集成任务各阶段的超时控制,及时反馈异常状态,帮助运维人员及时感知并处理异常,减少集成任务的无效等待时长,及时释放资源,不阻碍其他任务的调度运行。

相关文章
|
5月前
|
数据采集 XML JavaScript
如何优化 Selenium 和 BeautifulSoup 的集成以提高数据抓取的效率?
如何优化 Selenium 和 BeautifulSoup 的集成以提高数据抓取的效率?
|
2月前
|
存储 Java 开发工具
【三方服务集成】最新版 | 阿里云OSS对象存储服务使用教程(包含OSS工具类优化、自定义阿里云OSS服务starter)
阿里云OSS(Object Storage Service)是一种安全、可靠且成本低廉的云存储服务,支持海量数据存储。用户可通过网络轻松存储和访问各类文件,如文本、图片、音频和视频等。使用OSS后,项目中的文件上传业务无需在服务器本地磁盘存储文件,而是直接上传至OSS,由其管理和保障数据安全。此外,介绍了OSS服务的开通流程、Bucket创建、AccessKey配置及环境变量设置,并提供了Java SDK示例代码,帮助用户快速上手。最后,展示了如何通过自定义starter简化工具类集成,实现便捷的文件上传功能。
【三方服务集成】最新版 | 阿里云OSS对象存储服务使用教程(包含OSS工具类优化、自定义阿里云OSS服务starter)
|
3月前
|
SQL 搜索推荐 数据管理
离线集成整库迁移再升级,定制化与灵活性全面增强
为了更好地满足客户对于数据库迁移过程中的个性化管理和操作需求,我们最新版本对“离线集成整库迁移”功能进行了更新,旨在解决客户在实际应用中遇到的痛点,进一步提升迁移任务的可管理性和便捷性。
|
4月前
|
缓存 前端开发 JavaScript
微前端集成优化:让所有子应用体积更小,加载更快!
【8月更文挑战第17天】微前端集成优化:让所有子应用体积更小,加载更快!
93 1
微前端集成优化:让所有子应用体积更小,加载更快!
|
4月前
|
机器学习/深度学习 存储 前端开发
实战揭秘:如何借助TensorFlow.js的强大力量,轻松将高效能的机器学习模型无缝集成到Web浏览器中,从而打造智能化的前端应用并优化用户体验
【8月更文挑战第31天】将机器学习模型集成到Web应用中,可让用户在浏览器内体验智能化功能。TensorFlow.js作为在客户端浏览器中运行的库,提供了强大支持。本文通过问答形式详细介绍如何使用TensorFlow.js将机器学习模型带入Web浏览器,并通过具体示例代码展示最佳实践。首先,需在HTML文件中引入TensorFlow.js库;接着,可通过加载预训练模型如MobileNet实现图像分类;然后,编写代码处理图像识别并显示结果;此外,还介绍了如何训练自定义模型及优化模型性能的方法,包括模型量化、剪枝和压缩等。
61 1
|
4月前
|
搜索推荐
实现CRM与ERP系统无缝集成,优化客户关系管理
在当今竞争激烈的市场环境中,企业要想保持领先地位,必须高效地管理客户关系并优化内部资源。CRM(客户关系管理)系统与ERP(企业资源规划)系统的无缝集成,为企业提供了一种强大的工具,以实现这一目标
75 2
|
4月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之数据集成任务日志中显示wait,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
214 1
|
4月前
|
Java 数据库连接 数据库
强强联手!JSF 与 Hibernate 打造高效数据访问层,让你的应用如虎添翼,性能飙升!
【8月更文挑战第31天】本文通过具体示例详细介绍了如何在 JavaServer Faces (JSF) 应用程序中集成 Hibernate,实现数据访问层的最佳实践。首先,创建一个 JSF 项目并在 Eclipse 中配置支持 JSF 的服务器版本。接着,添加 JSF 和 Hibernate 依赖,并配置数据库连接池和 Hibernate 配置文件。然后,定义实体类 `User` 和 DAO 类 `UserDAO` 处理数据库操作。
66 0
|
4月前
|
JavaScript jenkins 持续交付
自动化部署与持续集成:使用Jenkins和Docker优化开发流程
【8月更文挑战第31天】在软件开发的世界里,时间就是一切。本文将引导你通过Jenkins和Docker的强大组合,实现自动化部署和持续集成,让你的开发流程如丝般顺滑。我们将从基础设置开始,逐步深入到构建管道,最终实现一键部署的梦想。准备好让你的开发效率飞跃,一起探索这个令人兴奋的旅程吧!

热门文章

最新文章