袋鼠云数据中台专栏V2.0 | 数据中台之数据集成

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 关于袋鼠云数据中台专栏V2.0数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型?袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论。

image

关于袋鼠云数据中台专栏V2.0

数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型?袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论。希望通过后续文章的分享,与诸位读者交流,共同加快企业全面数据化进程。本专栏每周更新1-2篇,敬请期待~

数据中台之数据集成

1

在现代企业中,由于使用场景、业务形态、技术选型、开发架构的差异,往往有多个异构的、基于不同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得数据难以在系统之间交流、共享和融合,从而形成了「信息孤岛」。随着信息化应用的不断深入,企业内部、企业与外部信息交互的需求日益强烈,急切需要对已有的信息进行整合,联通“信息孤岛”,共享信息。

在企业构建数据数据中台来解决数据互通和共享的要求下,「数据集成」是打通信息系统和数据中台的管道和桥梁,是构成数据中台全、统、通的重要基础。

image
数据中台 全 统 通

本文所讲的数据集成,主要指的是从不同的数据存放介质将数据同步至数据中台的环节,在某些场景下,也可以称作「数据采集」、「数据同步」、「数据上云」。

2 准备工作

在数据集成实施开发前,我们一般要进行以下调研和准备工作:

  • 数据源分类:见上一期的 数据中台之数据源,确定数据源种类,并根据数据及时性要求,确定采集的技术组件

- 网络和环境:确定数据源的网络和环境信息,根据实施集成方案,对现有的网络和环境进行必要的改造和优化

image

  • 数据内容:调研数据的全量大小、增量大小、分布情况
  • 数据质量:调研数据的增量标记、索引、主键信息等
  • 数据范围:调研需要集成的数据范围,筛选出需要集成到数据中台的相关数据,一般以支撑业务流程或带业务属性的数据为主

3 业务架构

针对采集的业务内容,以及常见的同步分类,我们将数据集成的业务架构整理如下:

image
数据集成的业务架构

4 集成流程

以下通过几个典型的数据同步场景案例,来介绍数据同步流程。

4.1 关系型数据库离线同步流程

image

4.2 API类数据同步

image

4.3 实时类数据同步

image

5 袋鼠云数栈 DTinsight - 数据同步模块

数据同步模块是在各个存储单元之间执行数据交换的管道。

为了在「DTinsightIDE」进行大规模数据集的挖掘与计算,通常的做法是在任务执行前将数据传输至DTinsightIDE,并在任务执行结束后将计算结果传输至外部存储单元(例如MySQL等应用数据库)。

数据集成的作用如下图所示:

image

袋鼠云数栈-数据同步模块

袋鼠云数栈-数据同步模块的具有以下特性:

  • 丰富的数据源支持

数据同步模块可对MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、FTP、ElasticSearch、ODPS、ElasticSearch、Redis、MongoDB等数据源,支持对这些数据源进行读取或写入数据。使用时仅需配置数据源的连接信息(例如填写Oracle数据库的JDBC URL、用户名、密码等信息),再配置对应的数据同步任务即可。

  • 分布式系统架构

数据同步模块在系统架构上采用先进的分布式系统架构(FlinkX[1]),可实现多个节点并发读取、写入数据,可极大的提升数据同步的吞吐量,相比Sqoop、Kettle等开源数据同步方案,数据吞吐能力更高、配套功能。

  • 可视化配置

用户在使用数据同步模块时,可快速通过可视化配置的方式完成同步任务的创建与配置,主要包括同步任务选择源库源表、目标库目标表、配置字段映射、配置同步速度等。

  • 全量/增量同步

从业务系统读取数据的过程中,为了最小化对业务系统的影响,通常需要进行数据的增量同步。在源数据库表中具备数据变更时间字段的情况下,支持对关系型数据库进行增量数据同步,用户仅需输入相应的数据过滤语句即可实现。

  • 同步速度的控制

支持数据同步速度控制,通过设置同步速率上限来调整,此参数需根据硬件配置和数据量来调整,用户根据业务需求选择设定的值。

  • 脏数据管理

支持对脏数据是否需要记录进行配置,可指定脏数据的存储表名、生命周期,同时可配置当脏数据量超过一定数量或一定比例时任务置为失败,提示用户及时排查脏数据问题,并生成分析报告。

更多精彩

关于袋鼠云数据中台系列专栏V2.0

企业数据化认知:数据就是生产力!
企业三界:业务界面,应用界面,数据界面
企业数字化建设三范式
企业数字化(数据界面)整体架构
数据中台综述:三个维度看数据中台
数据中台之数据源

关于袋鼠云

袋鼠云是企业数据化整体解决方案提供商,是数据中台架构倡导者、引领者,通过打通数据供应链,构建企业数据化驱动引擎,加速企业数据化进程,让数据成为企业核心竞争力。DTSTACK.COM
数据智能,让未来变成现在

目录
相关文章
|
8月前
|
分布式计算 测试技术 Spark
通过Langchain实现大模型完成测试用例生成的代码(可集成到各种测试平台)
通过Langchain实现大模型完成测试用例生成的代码(可集成到各种测试平台)
2083 0
|
物联网 API JavaScript
数据中台驱动下的工业软件集成
当前大中型离散制造型企业信息化建设过程中,普遍存在数据交互复杂度高、基础数据语义多样化,以及升级维护难度大等痛点。本文引入阿里云数据总线、服务总线以及数字工厂等产品,探讨一种基于工业数据中台的工业软件集成解决方案。
3219 0
数据中台驱动下的工业软件集成
|
3天前
|
NoSQL 大数据 关系型数据库
AllData数据中台核心菜单十一:数据集成平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
AllData数据中台核心菜单十一:数据集成平台
|
5月前
|
监控 数据安全/隐私保护 异构计算
借助PAI-EAS一键部署ChatGLM,并应用LangChain集成外部数据
【8月更文挑战第8天】借助PAI-EAS一键部署ChatGLM,并应用LangChain集成外部数据
121 1
|
数据采集 存储 数据可视化
【产品能力】Dataphin功能大图(二):集成——如何将业务系统的数据抽取汇聚到数据中台
数据集成是简单高效的数据同步平台,致力于提供具有强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力,为数据中台的建设打好坚实的数据基座。
2733 0
【产品能力】Dataphin功能大图(二):集成——如何将业务系统的数据抽取汇聚到数据中台
|
数据采集 大数据 数据管理
功能大图之集成:如何将业务系统的数据抽取汇聚到数据中台
本文将介绍Dataphin的集成功能模块在产品大图中的定位,系统地介绍了集成的能力以及集成场景的关注要点。
667 0
功能大图之集成:如何将业务系统的数据抽取汇聚到数据中台
|
存储 运维 分布式计算
数澜科技全面集成阿里云自研AnalyticDB数据仓库 ,打造轻量级数据中台
7月12日,记者采访获悉,在上海举办的阿里云生态策略升级&伙伴招募发布会上,数澜科技与阿里云达成技术合作,数澜科技旗下核心产品数栖平台全面集成阿里云自研数据仓库AnalyticDB,为金融客户打造轻量级数据中台解决方案。
507 0
数澜科技全面集成阿里云自研AnalyticDB数据仓库 ,打造轻量级数据中台
|
存储 运维 分布式计算
数澜科技全面集成阿里云AnalyticDB数据仓库 打造轻量级数据中台
在上海举办的阿里云生态策略升级&伙伴招募发布会上,数澜科技与阿里云达成技术合作,数澜科技旗下核心产品数栖平台全面集成阿里云自研数据仓库AnalyticDB,为金融客户打造轻量级数据中台解决方案。据了解,数澜科技全面集成阿里云自研数据仓库AnalyticDB之后,所打造的轻量级数据中台,将能够满足客户对大规模、不同格式类型的数据处理需求,同时可以简化数据中台底层架构,实现传统数仓到实时数仓的进化,快速让数据价值流动起来。
840 0
数澜科技全面集成阿里云AnalyticDB数据仓库 打造轻量级数据中台
|
8月前
|
Shell Android开发
Android系统 adb shell push/pull 禁止特定文件
Android系统 adb shell push/pull 禁止特定文件
672 1
|
8月前
|
Android开发 Python
Python封装ADB获取Android设备wifi地址的方法
Python封装ADB获取Android设备wifi地址的方法
185 0

热门文章

最新文章