前沿分享|阿里云数据库事业部资深技术专家、生态工具产品部负责人 陈长城:一站式在线数据管理平台DMS技术解读

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
数据传输服务 DTS,数据同步 1个月
简介: 本篇内容为2021云栖大会-企业级云原生数据库最佳实践论坛中,阿里云数据库事业部资深技术专家、生态工具产品部负责人 陈长城关于“一站式在线数据管理平台DMS技术解读”的分享。

本篇内容将从3个部分为读者介绍一站式在线数据管理平台DMS,希望通过一站式数据管理理念,让企业敏捷建仓,通过低门槛数据开发快速发挥数据价值,欢迎大家使用和体验。

Ÿ    

  • 企业数据管理的痛点
  • 云原生2.0一站式数据管理DMS
  • 解决方案与最佳实践


1.1.png

 

一、企业数据管理的痛点


1) 数字化转型是企业发展的战略重点


image001.png


在国家提出供给侧改革的形式下,企业在发展过程中,很多行业不断往头部集中,我们看到最近的经济报告,中国数字经济的GDP的占比逐年上升,企业自身也存在经营效益提升的诉求,因此在政策的导向和企业诉求的双轮驱动下,数字化转型也在快速推进。

2) 数据在业务中的全生命周期


image002.png


在整个业务发展过程中数据的生命周期是从生产到存储、处理、分析、应用的一连串流程。企业内部多个业务会根据自身特点使用不一样的数据库,导致数据库使用类型非常多,而数据仓库也是独立建设为主,在企业内部系统中就会存在多种不同的数据存储系统和数据平台。今天非常缺乏覆盖数据生命周期的一站式管理平台,同时为了让这些数据统一管理,实时数据趋势成为未来的大趋势,有预测2025年新业务的实时数据占比会达到50%以上。

3) 企业数据价值化过程中遇到的痛点


image003.png


企业内部有特别多种类的数据构成的数据孤岛、数据加工链路复杂、数据治理和安全管理困难,都成为发挥数据价值的痛点。


二、云原生2.0一站式数据管理DMS


1) 数据管理服务DMS


image004.png


如何进行数据的统一安全管理,更快发挥数据价值? 在此背景下我们提出一站式数据管理平台,一站式数据管理平台DMS把企业数据资产统一串联起来,通过底层对接所有异构数据源统一管理起来,再从数据的生产端进行切入,从数据库的设计、开发、应用、发布,到数仓构建和数据服务,建设成覆盖数据生命周期的统一平台。通过这个方式,企业数据管理生命周期就能全部串联起来。这是非常新的理念,让企业在线数据处理和分析的整个周期都串联起来。


DMS产品在阿里集团内部沉淀了12年以上,我们从数据管理、数据安全、数据库的DevOps,数据传输这些底层基础建设逐步把数据生命周期全覆盖。


2) 一站式数据管理DMS 技术架构


image005.png


技术架构主要有三层:

  • 底层基础服务是构建全域统一的数据资产、开发运维体系和安全管理体系;
  • 中间是控制平面和数据平面的支撑引擎,控制平面是面向数据安全和数据库DevOps场景的支撑引擎,比如工单执行引擎、安全规则引擎和稳定变更引擎;数据平面包括数据全量传输、增量以及ETL处理和转换的算子,包括联邦查询的多源异构统一查询处理,这些都是数据平面的引擎。
  • 最上面是面向各场景的业务功能,支撑数据安全、数据库DevOps、数据集成与开发,通过对这些场景的支持形成一站式全链路数据生命周期管理。

Ÿ   接下来展开介绍一下DMS的三个部分核心特性。


3) DMS核心技术特性


数据管理DMS-数据资产与安全


image006.png


数据资产是把全域数据统一管理起来,让企业快速知道有哪些数据,数据在哪里,数据治理情况,方便发挥数据价值。这里介绍两个技术点:


image007.png


一个技术是知识图谱构建,将多源异构的物理元数据和相关业务逻辑对应起来。通过对元数据定义和语义学习到字段关联关系,结合在我们平台使用过程中工单系统人和数据的关系,形成构建数据图谱的输入,把数据汇集起来后构建成全域数据资产的关系图谱,让数据工程师进行低门槛数据的建仓,他可以通过指定几个核心业务字段,系统结合关联关系自动构建数仓宽表,帮助低门槛建仓和全域所有数据质量的实施。


image008.png


在数据安全方面,我们支持包括GDPR在内的五个以上数据安全法案,让企业在选择数据安全法案后,可以分级分类进行敏感数据的识别。在数据生命周期的数据生产、数据集成、数据开发、价值挖掘过程,数据脱敏都会贯穿其中,支持15种以上的数据脱敏。


image009.png


DevSecOps在云上有10万以上的开发者和活跃的用户。平台提供非常多数据库开发者工具集,基于这些开发者工具,将数据变更,库表设计DDL与安全规则引擎结合,使企业通过DevSecOps在保障安全下最大化释放业务开发人员的工作效率,让他们自主进行数据库的库表设计和变更发布。


image010.png


安全规则引擎内置200多个安全规则模板,不同数据库引擎有不同的最佳实践,企业可以根据模板定义合适的安全规则,以操作人、数据库对象、具体操行为三者作为因子定义规范的规则。比如数据一次订正的数量,一次查询的数量,人员的字段访问权限,都是基于安全引擎设计的。


image011.png


变更安全是对DevSecOps研发自主的变更动作进行保障和兜底,比如在做大批量数据操作的时候会切成多次小批量操作,有锁变更自动变成无锁变更。通过研发设计安全规则检测和拦截的规范让变更安全可靠,把这些能力释放给企业开发人员,能提高自主研发迭代的效率。


image012.png


企业数字化转型面临的问题是如何进行统一数据集成和发挥数据价值,我们希望通过流批一体数据集成和低代码开发能力给到开发者便捷的体验。


image013.png


数据底层的核心链路是基于DTS产品实时异构的数据传输能力,在数据迁移、同步、订阅方面有比较成熟的沉淀。


image014.png


在传输链路内部实现AnyToAny的技术架构后,新数据源作为一个插件,快速跟原有的多种异构数据源进行实时打通。同时对非结构化数据可通过语义识别和类型映射,进行结构化入库后的价值挖掘。


image015.png


在内部构建数据流批一体的集成链路后,通过统一的内存转换模块,支持用户自定义算子和脱敏算法,流和批的数据只要经过一次定义就能实现一致转换,所有的全量数据初始化都复用转化逻辑。在DMS进行建仓,链路自动把表结构自动在目标进行初始化,全量数据和增量数据迁过去,中间的转化只要做一次定义。在源端进行数据库切换或DDL变更都可以无缝将源端变更同步到目标数仓,实现库仓一体的技术架构。内置100多个数据转化的算子使用户数据的链路极大收敛,使整个链路更加稳定,极大简化了数据链路的运维成本。


image016.png


在实现数据集成后,通过拖拉拽的方式,使数据源、跨库查询引擎和数据传输链路的流和批都能作为操作节点,让用户用自主定义数据加工流程,通过运维工具、安全管理和统一治理的能力能让企业进行批量生产任务创建。


三、解决方案与最佳实践


1) 某金融基于DMS+RDS构建数据安全生产方案


image017.png


该金融公司基于DMS+RDS构建的数据安全生产方案。企业内部有600多个数据库实例,面向非常多的前线业务开发者,业务开发要做变更发布和数据库操作的时候,沟通问题、数据安全问题和效率问题通过DMS管理数据源、提供统一数据安全变更使得前端业务开发效率提升,同时数据安全和变更稳定性得到保障。


2) 某运营商基于DMS+PolarDB-X构建异地多活


image018.png


上图是运营商通过DMS和Polar DB-X构建异地多活解决方案。传统数据库的灾备机房基础设施投入无法承担业务流量,或者只能承担有限的业务流量。这些基础设施投入很难发挥价值,导致运营商物理机房电力限制,无法支撑业务更大发展。通过DMS+PolarDB-X帮助升级为异地多活架构,实现了容灾快速切换,同时承担了业务流量,满足了业务拓展诉求。


3)全球多活数据库


image019.png


由于很多企业对异地多活架构有很强的诉求,本次我们发布RDS全球多活数据库,通过RDS控制台可一键购买全球多活数据库,自动创建多个数据中心的RDS并完成架构搭建,通过多活接口让业务切流变得更简单,降低企业异地多活的实施成本和管理复杂度。


4)某银行基于DMS+ADB构建T+1的数据仓库


image020.png


上图是某银行案例,基于DMS+ADB构建T+1的数据仓库。该企业周期性数据批量集成导致生产库出现大的业务负载,影响业务稳定性,定时报表无法支撑业务活动的实时决策。基于这样的痛点,我们构建T+1的数据仓库,拉链表对源库生产影响很小,第一次进行全量后都是增量的实时数据,通过定时合并产出周期性报表,在活动时基于ADB实时产生生产报表,而且通过在本地进行构建还能回溯任意时间点的历史数据快照,帮助企业同时解决了定时报表和实时分析的诉求。

相关文章
|
4天前
|
SQL 存储 调度
从 Volcano 火山模型到 Pipeline 执行模型,阿里云数据库 SelectDB 内核 Apache Doris 执行模型的迭代
一个合适的执行模型对于提高查询效率和系统性能至关重要。本文全面剖析 Apache Doris Pipeline 执行模型的设计与改造历程,并在 2.1 版本对并发执行模式与调度模式进一步优化,解决了执行并发受限、执行及调度开销大等问题。
从 Volcano 火山模型到 Pipeline 执行模型,阿里云数据库 SelectDB 内核 Apache Doris 执行模型的迭代
|
5天前
|
监控 Cloud Native 大数据
即刻预约|阿里云数据库 SelectDB 版商业化发布会,5月21日14:00与您相约
2024年5月2日14:00,阿里云数据库 SelectDB 版商业化产品发布会将于线上重磅举行,即刻开启预约!👇 直播地址:https://developer.aliyun.com/special/selectdb?utm_content=g_1000393528
226 0
即刻预约|阿里云数据库 SelectDB 版商业化发布会,5月21日14:00与您相约
|
3天前
|
Cloud Native 关系型数据库 分布式数据库
祝贺!阿里云PolarDB斩获数据库国际顶会ICDE 2024工业赛道最佳论文
阿里云斩获国际顶会ICDE 2024最佳论文,0.5秒实现数据库跨机实例迁移。
祝贺!阿里云PolarDB斩获数据库国际顶会ICDE 2024工业赛道最佳论文
|
5天前
|
Cloud Native 关系型数据库 分布式数据库
PolarDB是阿里云自主研发的关系型云原生数据库
【5月更文挑战第14天】PolarDB是阿里云自主研发的关系型云原生数据库
45 3
|
3天前
|
关系型数据库 MySQL API
实时计算 Flink版产品使用合集之可以通过mysql-cdc动态监听MySQL数据库的数据变动吗
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
26 0
|
5天前
|
关系型数据库 MySQL 数据库
docker MySQL删除数据库时的错误(errno: 39)
docker MySQL删除数据库时的错误(errno: 39)
32 0
|
5天前
|
Java 关系型数据库 MySQL
【MySQL × SpringBoot 突发奇想】全面实现流程 · xlsx文件,Excel表格导入数据库的接口(下)
【MySQL × SpringBoot 突发奇想】全面实现流程 · xlsx文件,Excel表格导入数据库的接口
19 0
|
5天前
|
Java 关系型数据库 MySQL
【MySQL × SpringBoot 突发奇想】全面实现流程 · xlsx文件,Excel表格导入数据库的接口(上)
【MySQL × SpringBoot 突发奇想】全面实现流程 · xlsx文件,Excel表格导入数据库的接口
26 0
|
5天前
|
前端开发 关系型数据库 MySQL
【MySQL × SpringBoot 突发奇想】全面实现流程 · 数据库导出Excel表格文件的接口
【MySQL × SpringBoot 突发奇想】全面实现流程 · 数据库导出Excel表格文件的接口
27 0
|
5天前
|
关系型数据库 MySQL 数据库
mysql 设置环境变量与未设置环境变量连接数据库的区别
设置与未设置MySQL环境变量在连接数据库时主要区别在于命令输入方式和系统便捷性。设置环境变量后,可直接使用`mysql -u 用户名 -p`命令连接,而无需指定完整路径,提升便利性和灵活性。未设置时,需输入完整路径如`C:\Program Files\MySQL\...`,操作繁琐且易错。为提高效率和减少错误,推荐安装后设置环境变量。[查看视频讲解](https://www.bilibili.com/video/BV1vH4y137HC/)。
32 3
mysql 设置环境变量与未设置环境变量连接数据库的区别

热门文章

最新文章

相关产品

  • 数据管理