开发者学堂课程【分布式数据库技术与实现:分布式数据库查询】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/373/detail/4690
分布式数据库查询
目录
一. 查询种类
二. 阿里云 RDS 分布式系统
一.查询种类
分布式数据库系统的查询分为两类
1. 单节点类
是比较简单的,这只需要全局管理系统把请求分配到单一的节点,在单一的节点上面进行查询,直接返回结果,这类查询比较简单。
2. 跨节点类
跨节点查询是属于分布式数据库系统里面的业务的硬需求,大量的查询是需要通过从不同的节点取得数据,大量的查询是需要依赖于多个节点的数据,对于这类查询,为了保证最快的速度和对系统最小的消耗,在工程上会做不同的处理。
二.阿里云 RDS 分布式系统
1.查询下发
在阿里云 RDS 的分布式系统里,将查询分成以下几类处理,第一种处理叫查询下发,这一类查询主要是针对每个数据节点能够单独计算出一部分结果,如计算商品的总数,可以将计算总数这个请求发送到每个节点,每个节点只需要访问一个数字,而集中管理系统只需要做一个总和就完成,这类查询属于跨节点查询里最简单的一种。
2.结合不同节点间的数据
更复杂的查询是需要结合不同的节点之间的数据内容本身,这类请求要求把数据先汇总到一起,再做计算,由于分布式数据库系统的数据较大,如果将所有数据都汇总到一起,这个系统的数据量就会过大,易成为瓶颈。
因此需要对查询做改写,获取最小的数据分片,全局管理系统在接收到请求以后,需要根据查询的条件,将语句改写分发到不同的节点上,不同的节点拿到部分数据以后汇总,这种汇总在工程上又分成两种不同的操作:
集中到同一的节点
如取价格最大的前十个商品,则可以在不同的节点分别取到各自节点里面的最大值合并到全局管理系统的中心节点做统一的逻辑处理。
对于需要交互的数据特别大的类型,这种方法是不可行,因为它需要占用大量带宽,并且需要占用全局管理系统大量的 CPU。
把数据做横向的广播
即当一个全局管理系统取到请求以后,通过思考改写,分配到每个不同的分节点以后,每个不同的分节点第一步先计算为了完成这个语句、完成这个查询请求本地需要哪些数据,然后第二步每一个子节点之间都计算出本地这个数据子集的集合大小,分布式数据库系统每个子节点之间也是有通信的。
在工程上的做法是将数据汇总到拥有最大数据子集的那个节点,例如一个请求需要涉及到五个子节点的操作,则第一个子节点需要的数据是1G,而其他子节点的数据都是百兆级别,则会把其他子节点查询出来的子集全部传输到最大数据集的子节点里,这个问题就转化成在这个单节点的数据操作。
在工程上面这种方法用的比较多,是由于分布式数据库系统需要执行大量的数据分析的操作,数据在节点之间的传输是常见的,进一步的优化,会发现有一些数据是需要一直在节点之间做传输,如果每一次查询都需要将相同的数据在节点之间做传输,则会将这一部分数据以广播的方式固定存储在所有的节点里,如商品的类目信息,这类信息实际上跟商品总量相比,是一个小数据,而这种数据几乎每次产品都会使用到,
此时用广播的方式,虽然以商品信息按照不同的维度,如地域、商品种类分配到不同的节点上,但是如分类信息类似于原数据的信息会采取广播的方式,即并不是存在于某个具体的节点,而是所有的节点都拥有相同的一份信息,从统一入口的所有的更新都直接下发到每一个节点,这样就会保证所有的查询只要涉及到需要商品的分类信息,都可以在任意的一个节点上取得全量的分类信息,减少查询过程中的数据传输,这种方法在功能上一般称为小表广播,大表分片。