数据库的发展主要受三种因素驱动。其一,数据模型的发展会带来数据或管理系统的变化,此外底层体系架构的变化和应用需求的驱动也会带来数据库系统的巨大变革。
东数西算工程,指通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,利用西部较好的自然条件构建数据中心,建构全国性的算力网络。我们有理由相信,东数西算会改变中国的算力格局。
东数西算里“数”主要为解决当前普遍存在的数据孤岛问题。
数字经济是当下的核心话题,其主要目的在于释放数据价值。网络界的著名定律梅特卡夫定律告诉我们,节点越多,连接越多,则价值也会越大。数字经济背景下,参与共享和协同的数据越多,数据价值也可以得到更大的增长。
因此,数字经济的核心任务即在于打破数据孤岛。
由于大家“不会、不愿、不想”,使得数据之间的共享和协同异常困难。因此,跨域、高效、安全的数据共享与协同是未来的刚需,这也催生了跨域数据管理。我们希望算力网络上的数据库之间能够实现有效、安全的数据共享。
跨域可以从三个方面进行解读。
第一,跨空间域。两个数据集在物理空间上是远距离的,通过算力网络进行连接,主要问题在于网络的不确定性。
第二,跨管辖域。每个数据库都有自己的数据模型,不同数据模型之间如何进行数据交换和共享是一大挑战。
第三,跨信任域。每个数据库系统之间并不是完全相互信任,如何保障数据安全是主要问题。
当前,很多大厂采用了三地五中心的分布式架构来支持跨空间域的需求。这其中存在资源浪费,也存在安全性问题。需要解决的问题在于如何在广域网的基础上实现跨域的有效数据管理,会面临网络的不稳定和数据传输延时等挑战。
通常专用网络的时延为10微秒,数据中心内网络时延大概为百微秒级别,而跨空间域网络的时延大约需要10毫秒甚至更高。在较高时延下,如何实现传统的分布式数据管理是一大挑战。
其次,相比于专用网络和局域网,跨域网络抖动会更严重,网络传输的时延也会发生数量级的变化。
跨空间域数据管理的挑战覆盖了数据库管理的方方面面,比如存储管理、查询处理、事务管理等。
而目前,跨空间域的数据管理技术已经取得了一定的进展。比如通过避免跨域数据访问来解决存储管理的问题;通过减少数据传输量解决查询处理的问题;事务处理方面包括减少传输次数、减少数据传输量以及降低服务执行的不确定概率等。
未来,随着不确定性网络向确定性网络转变,相关研究也一定会取得更大进展。
跨管辖域数据管理方面,主要需解决不同数据模型之间的数据统计管理和交互。上世纪 80 年代,数据库领域提出了联邦数据库的概念,为了解决公司在并购过程中出现的问题,也提出了相关的概念,这些概念在今天也有不同的呈现,比如企业数据中台等场景也有类似的要求。
当前,跨管辖域数据管理面临的挑战主要为面向异构数据的统一高效查询以及多源异构数据的即席语义融合。目前的语义融合多为根据特定任务,offline 构建,可能要花费数月才能完成。我们期待有一种新的技术来支撑ad-hoc语义融合。
当前,跨管辖域的数据管理技术也已取得一定进展,比如统一查询、质量提升以及高时效。
企业、机构为了数据保护形成相对独立的域称为信任域,信任域之间的数据共享存在障碍。在此背景下,如何实现可信的共享、安全的计算以及隐私的保护是重中之重。
解决方案主要分为事前、事中、事后。
事前包括跨域用户的访问,事中主要包括基于区块链的合约执行以及面向隐私保护的计算技术,事后主要为审计技术等。
相关方面的研究也已取得一定的进展,比如基于密码学、新硬件以及统计学的解决方案。
跨域数据管理背景下,如何将技术统一应用起来,仍然存在诸多挑战。
数据要素跨域、高效、安全共享协同催生了跨域数据管理,也为数据管理带来了全新挑战。