2022云栖精选—云时代的数据库技术趋势 跨域数据管理

本文涉及的产品
数据传输服务 DTS,数据同步 small 3个月
推荐场景:
数据库上云
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
简介: 杜小勇中国人民大学明理书院院长中国计算机学会理事数据库专委会资深委员

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png                              

数据库发展主要受三种因素驱动。其一,数据模型发展会带来数据或管理系统变化,此外底层体系架构变化应用需求驱动也会带来数据库系统巨大变革。

东数西算工程,指通过构建数据中心云计算大数据一体化新型算力网络体系,将东部算力需求有序引导到西部利用西部较好自然条件构建数据中心,建构全国性的算力网络。我们有理由相信,东数西算会改变中国算力格局。

东数西算里“数”主要为解决当前普遍存在数据孤岛问题。

数字经济是当下核心话题其主要目的在于释放数据价值。网络界著名定律梅特卡夫定律告诉我们,节点越多,连接越多,价值会越大。数字经济背景下,参与共享和协同数据越多,数据价值也可以得到更大增长。

因此,数字经济核心任务即在于打破数据孤岛。

由于大家“不会、不愿、不想”,使得数据之间共享和协同异常困难。因此,跨域高效、安全数据共享与协同是未来刚需,这催生了数据管理。我们希望算力网络上的数据库之间能够实现有效安全数据共享。

跨域可以从三个方面进行解读。

第一,跨空间域。两个数据集在物理空间上是远距离的,通过算力网络进行连接,主要问题在于网络的不确定性。

第二,跨管辖域。数据库都有自己数据模型不同数据模型之间如何进行数据交换和共享是一大挑战。

第三,跨信任域。数据库系统之间并不是完全相互信任,如何保障数据安全是主要问题。

当前,很多大厂采用了三地五中心分布式架构来支持跨空间域的需求。这其中存在资源浪费,也存在安全性问题。需要解决的问题在于如何在广域网基础上实现跨域有效数据管理,会面临网络的不稳定数据传输延时等挑战。

通常专网络时延10微秒,数据中心内网络时延大概为百微秒级别,而跨空间域网络的时延大约需要10毫秒甚至更高。在较高时延下,如何实现传统分布式数据管理是一大挑战。

其次,相比专用网络和局域网,跨域网络抖动会更严重,网络传输时延也会发生数量级变化。

跨空间域数据管理的挑战覆盖了数据库管理方方面面,比如存储管理、查询处理、事务管理等。

而目前,跨空间域的数据管理技术已经取得了一定的进展。比如通过避免跨域数据访问来解决存储管理的问题通过减少数据传输量解决查询处理的问题事务处理方面包括减少传输次数、减少数据传输量以及降低服务执行的不确定概率等。

未来随着不确定性网络确定性网络转变相关研究也一定会取得更大进展

跨管辖数据管理方面,主要需解决不同数据模型之间数据统计管理和交互。上世纪 80 年代,数据库领域提出了联邦数据库的概念,为了解决公司在并购过程中出现的问题也提出了相关的概念,这些概念在今天也有不同的呈现,比如企业数据中台等场景也有类似的要求。

当前,跨管辖域数据管理面临的挑战主要为面向异构数据的统一高效查询以及多源异构数据的即席语义融合。目前的语义融合多为根据特定任务,offline 构建,可能要花费数月才能完成。我们期待有一种新的技术来支撑ad-hoc语义融合。

当前,跨管辖域的数据管理技术也已取得一定进展,比如统一查询、质量提升以及高时效。

企业、机构为了数据保护形成相对独立的域称为信任域,信任域之间数据共享存在障碍。在背景下,如何实现可信共享安全计算以及隐私保护是重中之重

解决方案主要分为事前、事中、事后。

事前包括用户访问,中主要包括基于区块链合约执行以及面向隐私保护计算技术事后主要为审计技术等

相关方面的研究也已取得一定的进展,比如基于密码学、新硬件以及统计学解决方案。

跨域数据管理背景下,如何技术统一应用起来,仍然存在诸多挑战。

数据要素跨域高效安全共享协同催生了跨域数据管理,也为数据管理带来了全新挑战。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
1月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
1天前
|
存储 JSON NoSQL
学习 MongoDB:打开强大的数据库技术大门
MongoDB 是一个基于分布式文件存储的文档数据库,由 C++ 编写,旨在为 Web 应用提供可扩展的高性能数据存储解决方案。它与 MySQL 类似,但使用文档结构而非表结构。核心概念包括:数据库(Database)、集合(Collection)、文档(Document)和字段(Field)。MongoDB 使用 BSON 格式存储数据,支持多种数据类型,如字符串、整数、数组等,并通过二进制编码实现高效存储和传输。BSON 文档结构类似 JSON,但更紧凑,适合网络传输。
26 15
|
1月前
|
负载均衡 网络协议 数据库
选择适合自己的数据库多实例负载均衡技术
【10月更文挑战第23天】选择适合自己的数据库多实例负载均衡技术需要全面考虑多种因素。通过深入的分析和评估,结合自身的实际情况,能够做出明智的决策,为数据库系统的高效运行提供有力保障。
114 61
|
1月前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
1月前
|
SQL Java 数据库连接
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率。本文介绍了连接池的工作原理、优势及实现方法,并提供了HikariCP的示例代码。
53 3
|
1月前
|
缓存 负载均衡 监控
数据库多实例的负载均衡技术深入
【10月更文挑战第23天】数据库多实例负载均衡技术是确保数据库系统高效运行的重要手段。通过合理选择负载均衡策略、实时监控实例状态、不断优化调整,能够实现资源的最优分配和系统性能的提升。在实际应用中,需要根据具体情况灵活运用各种负载均衡技术,并结合其他相关技术,以满足不断变化的业务需求。
|
1月前
|
Java 数据库连接 数据库
深入探讨Java连接池技术如何通过复用数据库连接、减少连接建立和断开的开销,从而显著提升系统性能
在Java应用开发中,数据库操作常成为性能瓶颈。本文通过问题解答形式,深入探讨Java连接池技术如何通过复用数据库连接、减少连接建立和断开的开销,从而显著提升系统性能。文章介绍了连接池的优势、选择和使用方法,以及优化配置的技巧。
39 1
|
1月前
|
SQL Java 数据库连接
打破瓶颈:利用Java连接池技术提升数据库访问效率
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,避免了频繁的连接建立和断开,显著提升了数据库访问效率。常见的连接池库包括HikariCP、C3P0和DBCP,它们提供了丰富的配置选项和强大的功能,帮助优化应用性能。
59 2
|
12天前
|
关系型数据库 MySQL 数据库
Python处理数据库:MySQL与SQLite详解 | python小知识
本文详细介绍了如何使用Python操作MySQL和SQLite数据库,包括安装必要的库、连接数据库、执行增删改查等基本操作,适合初学者快速上手。
81 15
|
6天前
|
SQL 关系型数据库 MySQL
数据库数据恢复—Mysql数据库表记录丢失的数据恢复方案
Mysql数据库故障: Mysql数据库表记录丢失。 Mysql数据库故障表现: 1、Mysql数据库表中无任何数据或只有部分数据。 2、客户端无法查询到完整的信息。

热门文章

最新文章

相关产品

  • 数据管理
  • 下一篇
    DataWorks