功能大图之集成:如何将业务系统的数据抽取汇聚到数据中台

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 本文将介绍Dataphin的集成功能模块在产品大图中的定位,系统地介绍了集成的能力以及集成场景的关注要点。

作者:明离

前言

数据中台是当下大数据领域最前沿的数据建设体系, 它并不是从零开始, 无中生有的。数据中台是传统的数据仓库的一种升级, 是数据采集、建设、管理与使用的一整套体系。Dataphin是一个构建数据中台的强大工具, 数据集成是Dataphin的组成部分,负责数据“采”、“建”、“管”“用”中的采集部分。数据集成是简单高效的数据同步平台,致力于提供具有强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力,为数据中台的建设打好坚实的数据基座。

image.png

数据集成定位

数据集成是数据中台建设中最基础的工作,将不同系统的数据相互打通,实现数据自由离线或实时流动面对各行各业对大数据越来越多的应用,对数据集成也有了更多的诉求。包括:能够简单高效的配置大量数据表的同步任务;能够集成多种异构数据源;能够实现对数据源的数据进行轻度预处理;能够实现数据同步任务的调优(例如容错,限速,并发)等。Dataphin的数据集成模块主要面向企业数据开发人员,以组件拖拉拽的形式,帮助企业高效构建大数据流通管道,从而将各种烟囱状态的数据汇聚到数据中台。


image.png


数据集成能力

数据集成旨在为用户构建简单高效、安全可靠的数据同步平台:

  • 支持通过整库迁移(快速生成批量同步任务)和一键生成目标表的方式,提高数据集成的效率。
  • 支持流程和转换组件,实现数据源的数据预处理(例如清洗、转换、字段脱敏、计算、合并、分发、过滤等)能力。
  • 支持丰富的异构数据源,实现数据源之间数据高速稳定的同步能力。
  • 支持Dev-Prod和Basic的开发模式,您可以根据业务场景进行灵活选择开发模式。
  • 支持将Dataphin中创建的逻辑表快速地同步到目标库。
  • 用户可自定义系统尚未支持的数据源组件,以满足不同业务场景数据同步的需求。


image.png

数据集成场景关注要点

image.png

易用性

用户进行数据中台建设时,需要集成的表的数量往往很多,需要进行大量重复的繁琐配置工作。

Dataphin的数据集成通过高效的拖拽式操作,自动化的一键自动建表、组件复制和整体管道配置复制,批量化的整库迁移等操作可大大提高系统的易用性及操作效率。

Dataphin的数据集成的画布数据的输入、转换、输出组件、采集工作流、采集任务等可视化功能,使管理员直观的掌握数据采集情况。

Dataphin的数据集成在任务搭建过程中支持同步任务试运行、度量查看、数据预览,方便用户进行数据集成任务的调试。

多源异构的数据同步能力

在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,导致企业在发展过程中积累了大量采用不同存储方式的业务数据,包括采用的数据管理系统也大不相同,从简单的文件数据库到复杂的网络数据库,它们构成了企业的异构数据源。

在数据中台的建设中,需要支持各种异构数据源的数据集成,Dataphin的数据集成可支持30+种数据源的支持,同时可自定义数据源进行灵活接入。

数据预处理、同步配置能力

在数据集成过程中,来源端数据会有轻度预处理诉求,比如敏感数据加密、数据过滤、分库分表数据合并、追 加字等。也会有各式各样同步配置诉求,如容错,限速,并发,同步过程调试等。

Dataphin的数据集成支持数据清洗转换能力,提供字段计算、合并、分发、过滤、字段脱敏等组件或函数,支持容错配置、并发配置、限速配置等。


以上就是Dataphin的核心功能数据集成的介绍, 希望能帮助您更好的使用Dataphin数据集成功能。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
2月前
|
前端开发 JavaScript UED
探索Python Django中的WebSocket集成:为前后端分离应用添加实时通信功能
通过在Django项目中集成Channels和WebSocket,我们能够为前后端分离的应用添加实时通信功能,实现诸如在线聊天、实时数据更新等交互式场景。这不仅增强了应用的功能性,也提升了用户体验。随着实时Web应用的日益普及,掌握Django Channels和WebSocket的集成将为开发者开启新的可能性,推动Web应用的发展迈向更高层次的实时性和交互性。
101 1
|
28天前
|
缓存 资源调度 JavaScript
Vue集成Excalidraw实现在线画板功能
Excalidraw是一款开源在线绘图工具,适用于白板、思维导图、原型设计等场景。支持手绘风格、多种图形元素、导出功能及多人协作,深受开发者喜爱。本文档介绍了如何在Vue项目中集成Excalidraw,包括安装依赖、配置文件修改、页面添加等步骤,帮助开发者快速上手。
133 0
Vue集成Excalidraw实现在线画板功能
|
1月前
|
开发框架 JavaScript 前端开发
TypeScript 是一种静态类型的编程语言,它扩展了 JavaScript,为 Web 开发带来了强大的类型系统、组件化开发支持、与主流框架的无缝集成、大型项目管理能力和提升开发体验等多方面优势
TypeScript 是一种静态类型的编程语言,它扩展了 JavaScript,为 Web 开发带来了强大的类型系统、组件化开发支持、与主流框架的无缝集成、大型项目管理能力和提升开发体验等多方面优势。通过明确的类型定义,TypeScript 能够在编码阶段发现潜在错误,提高代码质量;支持组件的清晰定义与复用,增强代码的可维护性;与 React、Vue 等框架结合,提供更佳的开发体验;适用于大型项目,优化代码结构和性能。随着 Web 技术的发展,TypeScript 的应用前景广阔,将继续引领 Web 开发的新趋势。
37 2
|
1月前
|
传感器 前端开发 Android开发
在 Flutter 开发中,插件开发与集成至关重要,它能扩展应用功能,满足复杂业务需求
在 Flutter 开发中,插件开发与集成至关重要,它能扩展应用功能,满足复杂业务需求。本文深入探讨了插件开发的基本概念、流程、集成方法、常见类型及开发实例,如相机插件的开发步骤,同时强调了版本兼容性、性能优化等注意事项,并展望了插件开发的未来趋势。
40 2
|
1月前
|
SQL 开发框架 .NET
突破T-SQL限制:利用CLR集成扩展RDS SQL Server的功能边界
CLR集成为SQL Server提供了强大的扩展能力,突破了T-SQL的限制,极大地拓展了SQL 的应用场景,如:复杂字符串处理、高性能计算、图像处理、机器学习集成、自定义加密解密等,使开发人员能够利用 .NET Framework的丰富功能来处理复杂的数据库任务。
|
1月前
|
XML Java 数据库连接
SpringBoot集成Flowable:打造强大的工作流管理系统
在企业级应用开发中,工作流管理是一个核心组件,它能够帮助我们定义、执行和管理业务流程。Flowable是一个开源的工作流和业务流程管理(BPM)平台,它提供了强大的工作流引擎和建模工具。结合SpringBoot,我们可以快速构建一个高效、灵活的工作流管理系统。本文将探讨如何将Flowable集成到SpringBoot应用中,并展示其强大的功能。
224 1
|
1月前
|
JSON Java API
springboot集成ElasticSearch使用completion实现补全功能
springboot集成ElasticSearch使用completion实现补全功能
42 1
|
2月前
|
人工智能 JavaScript 网络安全
ToB项目身份认证AD集成(三完):利用ldap.js实现与windows AD对接实现用户搜索、认证、密码修改等功能 - 以及针对中文转义问题的补丁方法
本文详细介绍了如何使用 `ldapjs` 库在 Node.js 中实现与 Windows AD 的交互,包括用户搜索、身份验证、密码修改和重置等功能。通过创建 `LdapService` 类,提供了与 AD 服务器通信的完整解决方案,同时解决了中文字段在 LDAP 操作中被转义的问题。
|
2月前
|
SQL 数据库连接 数据库
管理系统中的Visual Studio与SQL集成技巧与方法
在现代软件开发和管理系统中,Visual Studio(VS)作为强大的集成开发环境(IDE),与SQL数据库的紧密集成是构建高效、可靠应用程序的关键