2.1实时同步能力介绍 | 学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 快速学习2.1实时同步能力介绍

开发者学堂课程【全链路数据治理-全域数据集成2.1实时同步能力介绍学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/1082/detail/16059


2.1实时同步能力介绍


DataWorks 实时与同步能力介绍

首先介绍目前非常火热的实时同步,DataWorks的数据集成会为您提供数据同步的能力,方便使用单表同步或整库同步的方式将源端数据库中部分或全部的表数据变化实时同步到目标库中。它支持复杂网络下的数据同步,比如云数据库、本地或者ECS自建的数据库,或者非阿里云等数据库的环境下。

在配置前需要保证独享数据集成资源组与你的数据库进行网络连通,网络连通在后续会详细讲到。实时同步目前支持十种数据源,新型的链路组合并且支持单表实时同步至单表,整库数据至多表实时数据至多表,详细的数据源支持可以看目录。

第二点是注意实时同步使用的权限,实时同步目前是仅支持DataWo

rks独享数据集成资源组,就是上节课所介绍的。那么对于数据库类的数据源大家需要先开通数据库的实时认证能力,才能够获取数据库,实时获取数据库相关的数据。

第三点是实时的场景与配置,首先是单表ETL的实时同步,可以先将单个表或者talkpick的数据表当中,整个流程已经支持了图形化的数据开发,无需用户编写代码。那单表数据库至单表时支持使用拖拽的方式实时任务开发,很多业务的新手也能非常快的上手。

那单表增量实时同步可以根据业务需求对数据源进行数据过滤、字符串替换和数据脱敏处理后,再将数据输出至目标资源库。具体方案可以参考配置实施任务的方案。

第二点就是整库实时同步,这种实时方案一般是将整个数据库的变化日志同步到目标库当中,一般用做纯实时日志的收集。我们可以一次性配置一个实例下多个库的多个表任务库中最多支持三个目标,具体配置可以参考配置文档。

第三个是整库全增量实时同步,这个是在实时同步中使用比较频繁的业务场景,一般用作源端库持续同步到不同的目标端当中,以实现目标端对于源端的镜像效果。我们可以支持一次配置下一个实例中多个库的多个表,一个任务中最多支持三千个目标表,除了使用已有表作为目标表也支持自动生成目标,并且可以自动生成表名制定的规则。支持目标表增加附加字段,实时同步默认是按照同名映射源端同名字段到目标端的同名字段,会映射成功的字段将不参与同步。但我们支持制定目标表的字段与值。

数据集成实施同步在同步的目标端添加五个附加地以进行源数据管理排序去重等操作。同时我们支持自定义DDL、DML的消息处理策略,为保持数据符合预期实时同步任务支持对不同类型的DDL和DML的消息定义不同的处理策略,刚才是一些基础的实时能力与说明。

接下来就是实时能力的附加说明。第一点监控报警,在刚才我们讲到的DataWorks已经做了详细的描述。第二点就是断点续传的叙述,支持断点续传从指定位置起始位置开始同步,就是当你重启实时同步任务时我们可以进行断点续传,无需人工指定的一个点位,任务将自动从失败的点位开始读取数据。

第三点是脏数据对任务影响的定义。例如说源端的一些类型写到int类型的目标列中会导致因为转变不合理无法写入数据,脏数据不会成功写入目的端,我们在同步用配置时控制同步过程中是否允许出现脏数据,并且支持控制脏数据的条数,就是当脏数据超过指定条数时,那我们的任务会自动失败和退出。

以上就是在实时同步上的一些业务和能力,实时同步支持的数据源和对应的能力相对而言是不同的然后入口也不同。大家可以基于我们的表作参考。

相关文章
|
Java Nacos
在MSE微服务引擎中,可以使用Java代码进行Nacos下线操作
在MSE微服务引擎中,可以使用Java代码进行Nacos下线操作
427 3
|
22天前
|
安全 Java Linux
Java 获取音频文件的持续时间(毫秒级)——摆脱 FFprobe 的纯本地方案(无外部依赖 / 低开销 / 可直接部署)
本文介绍如何在Java中不依赖FFmpeg,通过标准库`javax.sound.sampled`解析WAV、AIFF等音频文件头信息,直接计算毫秒级时长。方案无外部依赖、跨平台、低开销,适合高并发与安全敏感场景,显著优于调用FFprobe的进程方式,是轻量可控的优选方案。
|
编解码 搜索推荐 算法
Celero:一个 C++ 的基准测试管理库
对代码进行持续性开发和有意义的基准测试是一个复杂的任务。虽然测试工具本身(Intel® VTune™ Amplifier, SmartBear AQTime, Valgrind)与应用程序没有相关性,但是它们在某些时候对一些小团队,或者说是一些繁琐的工作来说还是很重要的。这个Celero项目,主要是要建仓一个小型的程序库,使它可以在加入 C++ 工程和对代码进行基准测试时能够非常容易地去重建,分享,并允许在独立的运行进程、开发者或者是工程间进行比较。Celero 使用一个与 GoogleTest 相似的构架,使得他的 API 很容易地使用,并融入一个工程中。当你在开发过程中进行自动测试时,自动
777 0
Celero:一个 C++ 的基准测试管理库
|
26天前
|
人工智能 供应链 监控
2025年供应链金融公司排名与推荐:深度解读头部企业的赋能路径
在产业链重塑与数字化转型背景下,供应链金融正成为提升产业效率的核心。本文基于资金实力、科技能力、风控体系等维度,系统分析2025年行业格局,深度剖析居首企业海尔金融保理。其依托“海创云链”平台,融合大数据、AI与区块链技术,构建覆盖全国的生态化服务体系,聚焦中小企业融资痛点,服务超560亿元。文章揭示“科技+生态”一体化趋势,为企业选型提供权威参考。
271 0
|
2月前
|
前端开发 Java 开发者
MVC 架构模式技术详解与实践
本文档旨在全面解析软件工程中经典且至关重要的 MVC(Model-View-Controller) 架构模式。内容将深入探讨 MVC 的核心思想、三大组件的职责与交互关系、其优势与劣势,并重点分析其在现代 Web 开发中的具体实现,特别是以 Spring MVC 框架为例,详解其请求处理流程、核心组件及基本开发实践。通过本文档,读者将能够深刻理解 MVC 的设计哲学,并掌握基于该模式进行 Web 应用开发的能力。
481 1
|
2月前
|
人工智能 JavaScript 测试技术
当Playwright遇见MCP,AI智能体实现自主化UI回归测试
本文探讨如何通过Model Context Protocol(MCP)让AI智能体驱动Playwright实现端到端自动化测试。重点解析快照技术的实现原理与实战流程,同时深入剖析其在信息丢失、元素定位、成本效率及逻辑复杂性等方面的现实挑战。
|
11月前
|
域名解析 弹性计算 Kubernetes
老周的云服务诊断测评
作为一名后端研发工程师,我体验了阿里云的云服务诊断工具,该工具涵盖计算、网络、数据库等多种诊断场景,提供针对性的诊断流程和实时健康状态反馈。然而,针对私有云和多云环境的支持仍有提升空间,建议增加主备域名实时切换、多云支持及更全面的应用健康检查功能。
244 71
基于DEM提取坡度、坡向方法汇总
基于DEM提取坡度、坡向方法汇总
1209 0
基于DEM提取坡度、坡向方法汇总
|
存储 算法 物联网
MCU串口命令解析器的实现
MCU串口命令解析器的实现
365 1
|
机器学习/深度学习 人工智能 开发框架
大模型为什么是深度学习的未来?
与传统机器学习相比,深度学习是从数据中学习,而大模型则是通过使用大量的模型来训练数据。深度学习可以处理任何类型的数据,例如图片、文本等等;但是这些数据很难用机器完成。大模型可以训练更多类别、多个级别的模型,因此可以处理更广泛的类型。另外:在使用大模型时,可能需要一个更全面或复杂的数学和数值计算的支持。深度学习算法不需要像大模型那样训练大量数量的模型来学习特征之间的联系。深度学习算法是基于神经元的,而大模型是利用大量参数训练神经网络。本文从大模型与深度学习方面入手,解决大模型是否是深度学习的未来的问题。
3686 0
大模型为什么是深度学习的未来?