离线整库迁移功能升级 【Dataphin V3.11】

简介: 企业首次上云的时候,会有数据表批量同步与同步增全量数据的需求,Dataphin的离线整库迁移提供了生成批量集成管道任务的途径,适用于该场景。在Dataphin V3.11中,整库迁移功能在目标表重名检查与同步方式上都做了功能升级,一起来了解一下吧~

企业首次上云的时候,会有数据表批量同步与同步增全量数据的需求,Dataphin的离线整库迁移提供了生成批量集成管道任务的途径,适用于该场景。在Dataphin V3.11中,整库迁移功能在目标表重名检查与同步方式上都做了功能升级,一起来了解一下吧~

一、新增目标表重名校验

背景:整库迁移目前仅支持将数据写入新建的目标表中,如果目标库已经存在同名表,原先在整库迁移中提供了自动删除数据源中同名表的功能。如果没有勾选该功能,点击生成管道后若发现有重名表,就会报错无法生成管道任务,需要重新配置整库迁移。如果勾选了删除同名表,点击生成管道后会自动删除目标数据库中的重名表再重新新建一张表。但是由于在删除表操作前,界面上看不到即将被删除的表,用户对于什么表将被删除毫无感知,有可能会导致目标库中已有的重要表被删除。

功能:针对上述的场景,Dataphin在V3.11中新增了校验表名的功能。选择需要同步的数据表之后,点击校验表名,即校验目标数据库的开发和生产环境中是否存在同名的目标表,如存在,校验不通过。此时可采取两种措施:第一,如确认目标库中已有的重名表可以删除,则勾选自动删除数据源中同名表后再点击生成管道;第二,如目标库中已有的重名表不可被删除,则需要配置表名转换,通过替换表名字符或增加目标表名前后缀,生成不重名的目标表。

价值:目标表重名校验是一个小而美的功能,它将原先因存在重复表名导致的报错前置到任务配置过程中,免去了生成管道时报错后的再次配置工作,优化提升了配置流程。另外,它让用户可以充分感知到存在哪些重名表,用户可以先判断这些表的重要性,判断是否是可删除的,再做出相应的后续配置操作,防止目标库中重要的表被误删从而导致严重的后果。

二、同步方式功能升级

背景:原先的整库迁移默认生成每日调度的周期任务,但对于仅需要同步一次全量数据的场景来说,需要手动将所有任务下线,操作较为繁琐。另外,还有增全量同步的场景下,需要一次全量加每日增量的同步方式。针对该场景,本次我们对于通过整库迁移生成的集成任务的调度方式做了功能优化。

功能:本次我们将同步方式改为每日同步、单次同步、每日同步+单次同步。另外本期我们还新增了MaxCompute作为来源数据源类型以满足用户需要将数据在MaxCompute项目间同步的场景,下面我们就以MaxCompute整库迁移到MaxCompute作为例子介绍一下本期升级的功能:

  • 选择每日同步,将生成每日调度的周期任务,此时需要为来源端的MaxCompute数据库配置每日同步分区,如配置了ds=${bizdate},意为每天从来源表抽取ds=${bizdate}的数据同步到目标表的ds=${bizdate}的分区中(同步到目标表的分区ds=${bizdate}为系统默认配置)。该方式一般用于同步每日增量数据。
  • 选择单次同步,即生成手动任务,可手动点击运行进行一次数据同步。单次同步时可以选择将目标表创建为分区表还是非分区表,选择创建为分区表的时候,需要指定该次同步写入目标表哪个分区。此时需要为来源端的MaxCompute数据库配置单次同步分区,可配置范围分区。该方式一般用于同步历史全量数据。
  • 选择每日同步+单次同步,每一张表都将同时生成一个每日调度的周期任务与一个手动任务,且数据将写入同一张目标表(分区表)。需要分别指定每日同步任务和单次同步任务中同步的分区。如下图的配置,将左侧的单次同步写入分区填入20230710,在右侧的每日同步分区填写ds=${bizdate},单次同步分区填写范围分区/*query*/ds>=20230710,业务含义为将业务日期为20230710及之前的全量数据一次性写入目标表ds=20230710的分区中,在业务日期为20230710之后的数据,以每日增量的方式,写入目标表的对应分区中。

价值:3.11新增的同步方式可以覆盖更多业务场景,包括全量历史数据一次性上云,以及增全量数据同步等场景。

总结:数据上云是构建数据中台的第一步,可根据具体的业务场景,选择合适的Dataphin整库迁移方式,提高数据集成的效率。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
5月前
|
数据采集 SQL 数据可视化
Dataphin功能Tips系列(72)一键数据探查,打造高质量数据开发、分析流程
Dataphin数据探查功能助力高效识别数据质量问题,支持手动与自动两种探查模式。通过一键生成质量报告,快速检测空值、异常值、重复值等问题,全面掌握数据分布与健康状况,提升数据准备与分析准确性。
388 7
|
7月前
|
搜索推荐 数据管理
Dataphin功能Tips系列(70)自定义菜单:构建一站式数据管理平台
Dataphin通过自定义菜单功能,支持嵌入企业其他平台URL,实现统一的数据开发与管理平台,提升团队协作效率。
255 8
|
5月前
|
机器人 数据中心
Dataphin功能Tips系列(79)精准获知标准更新动态,协同治理更高效
Dataphin支持数据标准变更订阅,可实时通过站内信、邮箱或钉群机器人通知相关人员,确保业务及时响应。用户可通过标准列表、个人中心等入口批量订阅,变更消息包含状态、版本及跳转链接,便于快速查看与处理。
211 8
|
5月前
|
数据采集 监控 调度
Dataphin功能Tips系列(76)质量规则调度配置系列(3)-定时调度
Dataphin「定时调度」功能支持按需设定数据质量检测时间与频率,适用于定期检查数据质量问题的场景。提供手动配置和系统推荐两种方式,可自动执行规则并生成报告,帮助用户高效发现并处理问题。
212 9
|
5月前
|
数据采集 运维 调度
Dataphin功能Tips系列(75)质量规则调度配置系列(2)-固定任务触发调度
Dataphin“固定任务触发调度”支持在任务成功或运行前触发质量规则校验。适用于表数据来源任务固定的场景,通过绑定强规则可阻断下游任务,防止脏数据扩散,提升数据质量管控能力。
311 9
|
5月前
|
数据管理
Dataphin功能Tips系列(78)自定义属性助力资产精细化管理
Dataphin V5.3升级自定义属性功能,支持多选、超链接及引用系统属性,实现资产“归口部门”与组织架构同步、指标看板一键跳转等场景,提升资产配置灵活性与管理效率。
185 8
|
5月前
|
数据采集 调度
Dataphin功能Tips系列(74)质量规则调度配置系列(1)-数据更新触发调度
Dataphin通过“数据更新触发调度”功能,结合强规则校验,可在订单表数据更新时自动触发质量检查,异常时阻断下游任务,有效防止脏数据扩散,保障关键业务链路的数据准确性与稳定性。
228 8
|
5月前
|
安全 数据安全/隐私保护
Dataphin功能Tips系列(73)Dataphin行级权限:构建灵活高效的权限管理体系
Dataphin行级权限通过“控制字段”实现精细化数据管控,有效避免传统字段权限过度开放带来的安全风险,提升权限管理效率与灵活性,满足复杂场景下的数据安全需求。
255 4
|
5月前
Dataphin功能Tips系列(77)如何实现数据资产上下架的精准管控与高效流转
在企业数据治理中,Dataphin支持按资产范围灵活配置上下架审批流程。通过标签、项目等条件圈选资产,绑定自定义审批模板,实现核心资产精细管控与大规模资产高效流转的平衡,提升数据运营效率。
209 1

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin