付大超
阿里云数据库事业部资深技术专家
DMS和DTS产品部负责人
市场报告显示,2025年将有75%数据库迁移到云上,将有30%数据是实时数据,到2024年末数据保护法将会保护到 75% 人口。整体趋势可以总结为上云、实时以及安全。
我们认为,库仓一体是未来趋势。因为核心数据从数据库产生,而实现库仓一体化可以降低用户使用成本。
用户开发数据应用时,需要与数据库之间进行交互,比如建表和组件、进行数据库变更操作等。最后通过程序将数据写入到生产库,比如数据库、存储系统。基于生产库数据会进行集成与预加工,比如进行同步,迁移、进行 ETL ,然后数据会流向AP系统,在AP系统进行分析之后,数据又向下游流动,通过数据服务最终提供给数据应用。
这个过程中会产生一系列语言数据和操作行为,操作行为最终会沉淀为数据资产。
上述流程中会存在几个痛点:
第一,规范无法落地。将规范真正有效地落地到可度量的产品功能上与书面规范存在非常大差距,并且落地后稳定性问题突出。
第二,集成加工复杂。数据库产品非常多,数据要在数据库产品之间或存储之间进行流动,需要一系列技术的支撑。无论是批量集成还是实时集成,数据流动本身就是很大的问题。并且同时会引起更多的使用成本、运维成本以及诊断成本。
第三,多个工具使用切换。库表设计、传输、加工、分析等,它们的购买成本、使用成本、运维成本本身就是对客户的巨大考验。
第四,数据治理困难。数据安全保护法难以真正落地,安全合规问题突出。
基于以上痛点,阿里云推出了一站式数据管理与服务DMS。
针对规范无法落地的问题,我们抽象了数据库DevOps 。通过研发系统、访问控制等一系列技术来解决问题,比如研发人员无需获取到数据库的用户名和密码,也可进行数据库表的设计、开发、变更等一系列流程。
针对集成加工复杂问题,我们推出了数据传输与加工,通过集成数据传输、迁移、同步、订阅等能力,实现了异构数据库端到端的实时数据传输,并且过程中进行ETL,解决了数据自由流动问题。
针对多个工具切换的问题,我们抽象出了数据服务应用功能,提供了一键宽表、一键报表、一键API等服务,解决了数据使用的复杂问题。另外,推出了逻辑数仓功能,同时结合ADB引擎,使功能更强大、更易用。
针对数据治理困难,我们与达摩院合作实现了数据知识库构建、隐私脱敏、可信计算、全加密数据库等一整套流程,建立了事前、事中、事后的方法论,并且将能力沉淀到数据库安全中心,希望能为用户解决安全问题。
接入层,无论是SQL还是API都可以被集成,调用层支持弹性,核心模块层支持Scale Up 和 Scale Out 。比如做数据集成时往往速度较慢,单进程无法满足性能要求时,可以为其申请规格。底层的引擎层集成了数据库所有核心产品的能力。
DMS满分通过了信通院认证,底层DTS引擎从 2011 年开始服务于异地多活架构。我们拥有50+自研技术,并且拥有17 项专利沉淀。通过不断从客户问题中抽象出场景,最后变为产品能力。
为了避免数据库的数据泄露风险,我们实现了访问控制技术,同时通过授权管理实现了库、表、链甚至行级别的审批和授权。无论是人员入职、离职或转岗,都不会发生数据泄露。
数据安全包括敏感数据识别、分类、脱敏等。我们通过数据库安全技术,能够做到真正的分类分级。我们将数据法案内置于该能力中,用户可以直接选择并使用。
我们也实现了DTS实时数据解析加工,提供了实时日志解析和迁移的能力。并通过Schema MCC专利技术,保证用户DDL时链路不会出现问题。
通过大量应用的积累,我们沉淀了一系列基于数据的智能技术。比如通过Schema Matching技术判断两个列之间是否有关系。对敏感列进行加工生成新列之后,新列的对应状态会基于血缘进行传播,解决了一系列衍生问题。通过数据和机器学习解决数据和报表之间的匹配问题,能够自动推荐应该选择什么样的报表,并一键生成报表。