(二)研发:集成、建模、发布、运维
1. 如何将业务系统数据汇聚到数据中台
数据集成是 Dataphin 的能力模块,是简单高效的数据同步平台,提供强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力,为数据中台的建设打好坚实的数据基座。
数据集成是数据中台建设中最基础的工作,将不同系统的数据相互打通,实现数据自由离线或实时流动。随着数据应用的扩宽,各行各业对数据集成也有了更多的诉求。包括:能够简单高效的配置大量数据表的同步任务;能够集成多种异构数据源;能够实现对数据源的数据进行轻度预处理;能够实现数据同步任务的调优(例如容错,限速,并发)等。
1) 简单高效、安全可靠的数据同步
Dataphin 的数据集成模块主要面向企业数据开发人员,以组件拖拉拽的形式,帮助企业高效构建数据技术流通管道,从而将各种烟囱状态的数据汇聚到数据中台。
数据集成旨在为用户构建简单高效、安全可靠的数据同步平台:
• 支持通过整库迁移(快速生成批量同步任务)和一键生成目标表的方式,提高数据集成的效率。
• 支持流程和转换组件,实现数据源的数据预处理(例如清洗、转换、字段脱敏、计算、合并、分发、过滤等)能力。
• 支持丰富的异构数据源,实现数据源之间数据高速稳定的同步能力。
• 支持 Dev-Prod 和 Basic 的开发模式,可以根据业务场景进行灵活选择开发模式。
• 支持将 Dataphin 中创建的逻辑表快速地同步到目标库。
• 用户可自定义系统尚未支持的数据源组件,以满足不同业务场景数据同步的需求。
2) 功能特性与适用场景
• 易用性
用户进行数据中台建设时,需要集成的表数量往往很多,不得不大量重复的配置。Dataphin 的数据集成通过高效的拖拽式操作,自动化的一键建表,组件复制和整体管道配置复制,批量化的整库迁移等操作可大大提高系统的易用性及操作效率。数据集成在任务搭建过程中支持同步任务试运行、度量查看、数据预览,方便用户进行数据集成任务的调试。
• 多源异构的数据同步能力
在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,使得企业在发展过程中积累了大量不同存储方式的业务数据,采用的数据管理系统也大不相同。从简单的文件数据库到复杂的网络数据库,构成了企业的异构数据源。Dataphin 的数据集成可支持 30+种数据源的支持,同时可自定义数据源进行灵活接入。
• 数据预处理、同步配置能力
在数据集成过程中,来源端数据会有轻度预处理诉求,比如敏感数据加密、数据过滤、分库分表数据合并、追加字符等。也会有各式各样同步配置诉求,如容错,限速,并发,同步过程调试等。
Dataphin 的数据集成提供字段计算、合并、分发、过滤、字段脱敏等组件或函数,支持容错配置、并发配置、限速配置等。
《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——二、Dataphin 演进之路:产品大图及核心功能详解——(二)研发:集成、建模、发布、运维(2): https://developer.aliyun.com/article/1229664?groupCode=dataphin