前沿分享|阿里云数据库事业部资深技术专家、生态工具产品部负责人 陈长城:一站式在线数据管理平台DMS技术解读

本文涉及的产品
数据传输服务 DTS,数据同步 small 3个月
推荐场景:
数据库上云
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
简介: 本篇内容为2021云栖大会-企业级云原生数据库最佳实践论坛中,阿里云数据库事业部资深技术专家、生态工具产品部负责人 陈长城关于“一站式在线数据管理平台DMS技术解读”的分享。

本篇内容将从3个部分为读者介绍一站式在线数据管理平台DMS,希望通过一站式数据管理理念,让企业敏捷建仓,通过低门槛数据开发快速发挥数据价值,欢迎大家使用和体验。

Ÿ    

  • 企业数据管理的痛点
  • 云原生2.0一站式数据管理DMS
  • 解决方案与最佳实践


1.1.png

 

一、企业数据管理的痛点


1) 数字化转型是企业发展的战略重点


image001.png


在国家提出供给侧改革的形式下,企业在发展过程中,很多行业不断往头部集中,我们看到最近的经济报告,中国数字经济的GDP的占比逐年上升,企业自身也存在经营效益提升的诉求,因此在政策的导向和企业诉求的双轮驱动下,数字化转型也在快速推进。

2) 数据在业务中的全生命周期


image002.png


在整个业务发展过程中数据的生命周期是从生产到存储、处理、分析、应用的一连串流程。企业内部多个业务会根据自身特点使用不一样的数据库,导致数据库使用类型非常多,而数据仓库也是独立建设为主,在企业内部系统中就会存在多种不同的数据存储系统和数据平台。今天非常缺乏覆盖数据生命周期的一站式管理平台,同时为了让这些数据统一管理,实时数据趋势成为未来的大趋势,有预测2025年新业务的实时数据占比会达到50%以上。

3) 企业数据价值化过程中遇到的痛点


image003.png


企业内部有特别多种类的数据构成的数据孤岛、数据加工链路复杂、数据治理和安全管理困难,都成为发挥数据价值的痛点。


二、云原生2.0一站式数据管理DMS


1) 数据管理服务DMS


image004.png


如何进行数据的统一安全管理,更快发挥数据价值? 在此背景下我们提出一站式数据管理平台,一站式数据管理平台DMS把企业数据资产统一串联起来,通过底层对接所有异构数据源统一管理起来,再从数据的生产端进行切入,从数据库的设计、开发、应用、发布,到数仓构建和数据服务,建设成覆盖数据生命周期的统一平台。通过这个方式,企业数据管理生命周期就能全部串联起来。这是非常新的理念,让企业在线数据处理和分析的整个周期都串联起来。


DMS产品在阿里集团内部沉淀了12年以上,我们从数据管理、数据安全、数据库的DevOps,数据传输这些底层基础建设逐步把数据生命周期全覆盖。


2) 一站式数据管理DMS 技术架构


image005.png


技术架构主要有三层:

  • 底层基础服务是构建全域统一的数据资产、开发运维体系和安全管理体系;
  • 中间是控制平面和数据平面的支撑引擎,控制平面是面向数据安全和数据库DevOps场景的支撑引擎,比如工单执行引擎、安全规则引擎和稳定变更引擎;数据平面包括数据全量传输、增量以及ETL处理和转换的算子,包括联邦查询的多源异构统一查询处理,这些都是数据平面的引擎。
  • 最上面是面向各场景的业务功能,支撑数据安全、数据库DevOps、数据集成与开发,通过对这些场景的支持形成一站式全链路数据生命周期管理。

Ÿ   接下来展开介绍一下DMS的三个部分核心特性。


3) DMS核心技术特性


数据管理DMS-数据资产与安全


image006.png


数据资产是把全域数据统一管理起来,让企业快速知道有哪些数据,数据在哪里,数据治理情况,方便发挥数据价值。这里介绍两个技术点:


image007.png


一个技术是知识图谱构建,将多源异构的物理元数据和相关业务逻辑对应起来。通过对元数据定义和语义学习到字段关联关系,结合在我们平台使用过程中工单系统人和数据的关系,形成构建数据图谱的输入,把数据汇集起来后构建成全域数据资产的关系图谱,让数据工程师进行低门槛数据的建仓,他可以通过指定几个核心业务字段,系统结合关联关系自动构建数仓宽表,帮助低门槛建仓和全域所有数据质量的实施。


image008.png


在数据安全方面,我们支持包括GDPR在内的五个以上数据安全法案,让企业在选择数据安全法案后,可以分级分类进行敏感数据的识别。在数据生命周期的数据生产、数据集成、数据开发、价值挖掘过程,数据脱敏都会贯穿其中,支持15种以上的数据脱敏。


image009.png


DevSecOps在云上有10万以上的开发者和活跃的用户。平台提供非常多数据库开发者工具集,基于这些开发者工具,将数据变更,库表设计DDL与安全规则引擎结合,使企业通过DevSecOps在保障安全下最大化释放业务开发人员的工作效率,让他们自主进行数据库的库表设计和变更发布。


image010.png


安全规则引擎内置200多个安全规则模板,不同数据库引擎有不同的最佳实践,企业可以根据模板定义合适的安全规则,以操作人、数据库对象、具体操行为三者作为因子定义规范的规则。比如数据一次订正的数量,一次查询的数量,人员的字段访问权限,都是基于安全引擎设计的。


image011.png


变更安全是对DevSecOps研发自主的变更动作进行保障和兜底,比如在做大批量数据操作的时候会切成多次小批量操作,有锁变更自动变成无锁变更。通过研发设计安全规则检测和拦截的规范让变更安全可靠,把这些能力释放给企业开发人员,能提高自主研发迭代的效率。


image012.png


企业数字化转型面临的问题是如何进行统一数据集成和发挥数据价值,我们希望通过流批一体数据集成和低代码开发能力给到开发者便捷的体验。


image013.png


数据底层的核心链路是基于DTS产品实时异构的数据传输能力,在数据迁移、同步、订阅方面有比较成熟的沉淀。


image014.png


在传输链路内部实现AnyToAny的技术架构后,新数据源作为一个插件,快速跟原有的多种异构数据源进行实时打通。同时对非结构化数据可通过语义识别和类型映射,进行结构化入库后的价值挖掘。


image015.png


在内部构建数据流批一体的集成链路后,通过统一的内存转换模块,支持用户自定义算子和脱敏算法,流和批的数据只要经过一次定义就能实现一致转换,所有的全量数据初始化都复用转化逻辑。在DMS进行建仓,链路自动把表结构自动在目标进行初始化,全量数据和增量数据迁过去,中间的转化只要做一次定义。在源端进行数据库切换或DDL变更都可以无缝将源端变更同步到目标数仓,实现库仓一体的技术架构。内置100多个数据转化的算子使用户数据的链路极大收敛,使整个链路更加稳定,极大简化了数据链路的运维成本。


image016.png


在实现数据集成后,通过拖拉拽的方式,使数据源、跨库查询引擎和数据传输链路的流和批都能作为操作节点,让用户用自主定义数据加工流程,通过运维工具、安全管理和统一治理的能力能让企业进行批量生产任务创建。


三、解决方案与最佳实践


1) 某金融基于DMS+RDS构建数据安全生产方案


image017.png


该金融公司基于DMS+RDS构建的数据安全生产方案。企业内部有600多个数据库实例,面向非常多的前线业务开发者,业务开发要做变更发布和数据库操作的时候,沟通问题、数据安全问题和效率问题通过DMS管理数据源、提供统一数据安全变更使得前端业务开发效率提升,同时数据安全和变更稳定性得到保障。


2) 某运营商基于DMS+PolarDB-X构建异地多活


image018.png


上图是运营商通过DMS和Polar DB-X构建异地多活解决方案。传统数据库的灾备机房基础设施投入无法承担业务流量,或者只能承担有限的业务流量。这些基础设施投入很难发挥价值,导致运营商物理机房电力限制,无法支撑业务更大发展。通过DMS+PolarDB-X帮助升级为异地多活架构,实现了容灾快速切换,同时承担了业务流量,满足了业务拓展诉求。


3)全球多活数据库


image019.png


由于很多企业对异地多活架构有很强的诉求,本次我们发布RDS全球多活数据库,通过RDS控制台可一键购买全球多活数据库,自动创建多个数据中心的RDS并完成架构搭建,通过多活接口让业务切流变得更简单,降低企业异地多活的实施成本和管理复杂度。


4)某银行基于DMS+ADB构建T+1的数据仓库


image020.png


上图是某银行案例,基于DMS+ADB构建T+1的数据仓库。该企业周期性数据批量集成导致生产库出现大的业务负载,影响业务稳定性,定时报表无法支撑业务活动的实时决策。基于这样的痛点,我们构建T+1的数据仓库,拉链表对源库生产影响很小,第一次进行全量后都是增量的实时数据,通过定时合并产出周期性报表,在活动时基于ADB实时产生生产报表,而且通过在本地进行构建还能回溯任意时间点的历史数据快照,帮助企业同时解决了定时报表和实时分析的诉求。

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
4月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之人脸数据库容量是否支持扩容
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
4月前
|
存储 移动开发 数据库
视觉智能开放平台产品使用合集之人脸数据库容量是否支持扩容
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
4月前
|
数据采集 Oracle 关系型数据库
实时计算 Flink版产品使用问题之怎么实现从Oracle数据库读取多个表并将数据写入到Iceberg表
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
4月前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用问题之Oracle数据库是集群部署的,怎么进行数据同步
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
4月前
|
编解码 文字识别 算法
视觉智能开放平台产品使用合集之怎么查询人脸数据库列表
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
28 0
|
4月前
|
运维 DataWorks 安全
DataWorks产品使用合集之只读实例数据库是否可以进行数据分析
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
存储 SQL BI
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
|
5月前
|
存储 安全 Cloud Native
阿里云数据库多款产品支持米哈游新游《绝区零》全球开服!
这一次,阿里云继续与大家共同守护「新艾利都」!

相关产品

  • 数据管理