市场报告显示,2025年将有75%数据库迁移到云上,将有30%数据是实时数据,到2024年末数据保护法将会保护到 75% 人口。整体趋势可以总结为上云、实时以及安全。
我们认为,库仓一体是未来趋势。因为核心数据从数据库产生,而实现库仓一体化可以降低用户使用成本。
用户开发数据应用时,需要与数据库之间进行交互,比如建表和组件、进行数据库变更操作等。最后通过程序将数据写入到生产库,比如数据库、存储系统。基于生产库数据会进行集成与预加工,比如进行同步,迁移、进行 ETL ,然后数据会流向AP系统,在AP系统进行分析之后,数据又向下游流动,通过数据服务最终提供给数据应用。
这个过程中会产生一系列语言数据和操作行为,操作行为最终会沉淀为数据资产。
上述流程中会存在几个痛点:
第一,规范无法落地。将规范真正有效地落地到可度量的产品功能上与书面规范存在非常大差距,并且落地后稳定性问题突出。
第二,集成加工复杂。数据库产品非常多,数据要在数据库产品之间或存储之间进行流动,需要一系列技术的支撑。无论是批量集成还是实时集成,数据流动本身就是很大的问题。并且同时会引起更多的使用成本、运维成本以及诊断成本。
第三,多个工具使用切换。库表设计、传输、加工、分析等,它们的购买成本、使用成本、运维成本本身就是对客户的巨大考验。
第四,数据治理困难。数据安全保护法难以真正落地,安全合规问题突出。
基于以上痛点,阿里云推出了一站式数据管理与服务DMS。
针对规范无法落地的问题,我们抽象了数据库DevOps 。通过研发系统、访问控制等一系列技术来解决问题,比如研发人员无需获取到数据库的用户名和密码,也可进行数据库表的设计、开发、变更等一系列流程。
针对集成加工复杂问题,我们推出了数据传输与加工,通过集成数据传输、迁移、同步、订阅等能力,实现了异构数据库端到端的实时数据传输,并且过程中进行ETL,解决了数据自由流动问题。
针对多个工具切换的问题,我们抽象出了数据服务应用功能,提供了一键宽表、一键报表、一键API等服务,解决了数据使用的复杂问题。另外,推出了逻辑数仓功能,同时结合ADB引擎,使功能更强大、更易用。
针对数据治理困难,我们与达摩院合作实现了数据知识库构建、隐私脱敏、可信计算、全加密数据库等一整套流程,建立了事前、事中、事后的方法论,并且将能力沉淀到数据库安全中心,希望能为用户解决安全问题。
接入层,无论是SQL还是API都可以被集成,调用层支持弹性,核心模块层支持Scale Up 和 Scale Out 。比如做数据集成时往往速度较慢,单进程无法满足性能要求时,可以为其申请规格。底层的引擎层集成了数据库所有核心产品的能力。
DMS满分通过了信通院认证,底层DTS引擎从2011 年开始服务于异地多活架构。我们拥有50+自研技术,并且拥有17 项专利沉淀。通过不断从客户问题中抽象出场景,最后变为产品能力。
为了避免数据库的数据泄露风险,我们实现了访问控制技术,同时通过授权管理实现了库、表、链甚至行级别的审批和授权。无论是人员入职、离职或转岗,都不会发生数据泄露。
数据安全包括敏感数据识别、分类、脱敏等。我们通过数据库安全技术,能够做到真正的分类分级。我们将数据法案内置于该能力中,用户可以直接选择并使用。
我们也实现了DTS实时数据解析加工,提供了实时日志解析和迁移的能力。并通过Schema MCC专利技术,保证用户DDL时链路不会出现问题。
通过大量应用的积累,我们沉淀了一系列基于数据的智能技术。比如通过Schema Matching技术判断两个列之间是否有关系。对敏感列进行加工生成新列之后,新列的对应状态会基于血缘进行传播,解决了一系列衍生问题。通过数据和机器学习解决数据和报表之间的匹配问题,能够自动推荐应该选择什么样的报表,并一键生成报表。
DMS一站式能力
胡航丽
阿里云数据库事业部高级产品专家
在数据库开发过程中,绝大多数公司都会遇到或正在遇到以下问题。比如数据库研发规范只落在纸面,并未实际执行,导致数据库故障一直发生;比如很多数据库上线过程中的SQL优化、Review都需要依赖DBA集中执行,导致研发效率非常低下;比如企业中很多人员拥有数据库账号和密码,导致数据库泄露。同样的问题在十几年以前已经困扰着阿里巴巴。
因此, 2010 年我们自研了DMS,发布了第一大模块DevOps能力,通过400+研发规范、全流程变更管控等一系列能力有效降低了90%以上的数据库管理成本,并且能够最大限度地保证研发的高效率。
DevOps于2013年在公有云上发布,企业可以基于DMS灵活的自定义流程和自定义权限能力构建自己专属的DevOps解决方案,提升企业的研发效率、稳定性和安全等。
让数据流动是避免数据孤岛的有效手段。而数据流动一直以来都是一个难题,存在异构、时延、一致性等问题。阿里云的DTS数据传输服务为数据的流动提供了支持。
DTS是全球首款公有云上发布的数据传输服务。它融合了阿里集团内部的高性能环境、高稳定性的数据传输要求以及阿里云上十几万客户多元多端的数据流动能力,能够解决数据异构传输、远距离传输、弱网络传输以及数据一致等问题。
从数据中挖掘价值是每个企业在新时代下面临的机遇,也是巨大挑战。DMS通过逻辑数仓的能力降低了数据服务与应用的门槛。
传统方式下,如果要查看某一类商品在某个城市卖出的单数,需要将需求提交提给BI工程师,最快速度下也需要一到两周时间才能将报表产出。但是在 DMS 下,只需要通过两条SQL即可分钟级地产生报表。
如果没有数据安全,则所有其它能力都没有意义。
DMS提供了全链路的数据安全能力。比如事前会提供自动数据分类分级、细粒度到行列级别的权限管理能力;事中会提供实时动态脱敏、隐私计算等能力;事后会提供审计、数字水印溯源等能力。
以上所有能力不仅服务于阿云数据库,同样服务于自建数据库,也可以服务于他云的数据库。
另外,我们针对企业的高频场景提供了一站式产品化解决方案。
我们提供了GAD全球多活数据库,为容灾国标五级、低延时的全球就近访问等场景提供了开箱即用的能力;提供了一站式企业级备份平台DBS,能够满足企业多源多端统一备份、基础数据备份、日志备份、异地备份、归档等需求,甚至可以提供备份数据的查询。
通过数据归档结合逻辑数仓,使得对归档数据与在线未归档数据能像在一张物理表上一样去使用,解决了归档场景下数据查询难的问题。针对商业数据库迁移的需求,我们提供了一站式解决方案,从评估、改造、迁移到最终的割接,开箱即用。
DMS 已经为 100 万+用户提供了服务,包括开发、测试、运营等。我们持续关注体验和交互的简单易用,因此我们在过去一年中优化了128项体验,同时不断上线极简模式,不断探索基于机器学习的智能推荐能力。
未来,我们也将在简单易用上不断前进,持续为用户提供一站式的数据库管理服务。