分布式缓存的路由算法是如何实现的?

简介: 所谓分布式对象缓存是指对对象缓存以一个分布式集群的方式对外提供服务,多个应用系统使用同一个分布式对象缓存提供的缓存服务。这里的缓存服务器是由多台服务器组成。这些服务器共同构成了一个集群对外提供服务,所以使用分布式对象缓存一个重要的问题就是,数据进行读写操作的时候,如何找到正确的缓存服务器进行读写操作。如果第一次写入数据的时候写入的是A服务器,但是数据进行缓存读取操作的时候访问的是B服务器,就不能够正确的查找到数据,缓存也就没有效果。

所谓分布式对象缓存是指对对象缓存以一个分布式集群的方式对外提供服务,多个应用系统使用同一个分布式对象缓存提供的缓存服务。这里的缓存服务器是由多台服务器组成。这些服务器共同构成了一个集群对外提供服务,所以使用分布式对象缓存一个重要的问题就是,数据进行读写操作的时候,如何找到正确的缓存服务器进行读写操作。如果第一次写入数据的时候写入的是A服务器,但是数据进行缓存读取操作的时候访问的是B服务器,就不能够正确的查找到数据,缓存也就没有效果。

那么如何才能找到正确的缓存服务器呢?

当需要进行分布式缓存访问的时候,依然是以Key、value这样的数据结构进行访问的。比如Memcached提供的一个客户端API程序进行访问,客户端API程序会使用自己的路由算法进行路由选择,选择其中的某一台服务器,找到这台服务器的IP地址和端口以后,通过通讯模块和响应的服务器进行通信。

因为进行路由选择的时候,就是使用缓存对象的key进行计算,下次使用相同的key,使用相同路由算法进行计算,算出来的服务器依然还是前面计算出来这个服务器,所以通过这种方法可以访问到正确的服务器进行数据读写。服务器越多,提供的缓存空间就越大,实现的缓存效果也就越好。

那么,路由算法又是如何进行服务器路由选择的呢?

主要算法是哈希表的路由算法,也就是取模算法。

例如,我们这里缓存服务器集群有3台服务器,key的哈希值对3取模得到的余数一定在0、1、2三个数据之间,那么每一个数字都对应一台服务器,根据这个数字查询对应的服务器IP地址就可以了。这种取模算法进行路由计算非常简单,但是这个算法有一个问题,就是当服务器扩容个到时候,比如当前的缓存服务器集群有3台服务器,再添加1台的时候,这个时候就会由对3取模变为对4取模,导致的后果就是对3取模的时候写入的数据,对4取模的时候可能就查不到了。如果缓存查不到了之后,就会去数据库里查找。这样就会出现类似缓存雪崩现象。

对于这个路由算法,也可以使用一致性哈希算法。

一致性哈希算法与取余哈希算法不同,一致性哈希是有一个一致性哈希环构成。一致性哈希环的大小是0-2的32次方减1。这个取值范围的0和最后一个值2的32次方减1收尾相连,就构成了一个一致性哈希环。
image.png

分布式缓存的路由算法是如何实现的?
对每个服务器的节点取模,求它的哈希值并把这个哈希值放在环上,所有的服务器都取哈希值放到环上,每一次进行服务器查找路由计算的时候,把key也取它的哈希值,取到的哈希值以后把key放到环上,顺时针查找距离它最近的服务器的节点是哪一个。通过这种方式可以实现,key不变的情况下找到的总是相同的服务器,这种一致性哈希算法除了可以实现像余数哈希一样的路由效果,对服务器的扩容效果比较好。

在一致性哈希环上进行服务器扩容的时候,新增加一个节点不需要改动前面取模算法的除数,导致最后的取值结果全部混乱,它只需要在哈希环里根据新的服务器节点的名称计算它的哈希值,把哈希值放到这个环上就可以。放到环上后,不会影响原先节点的哈希值,也不会影响到原先服务器在哈希环上的分布,只会影响到离它最近的服务器。这样的话对缓存的影响也比较小,它值会影响缓存里的一小段。对于这个一小段的数据,可以从数据库中读取,而数据库的压力只要在它的负载能力之内,也不会崩溃,系统就可以正常运行。所以通过一致性哈希算法可以实现缓存服务器的顺利伸缩扩容。

但是一致性哈希算法也有缺点,哈希值是一个随机值,把随机值放到一个环上,可能是不均衡的,也就是说某两个服务器可能距离很近,而和其他的服务器距离很远,这个时候就会导致有些服务器的负载压力特别大,有些服务器的负载压力特别小。

对于这个问题,改进办法就是使用虚拟节点,我们把一个服务器节点放入到一致性哈希环上的时候,并不是把真实的服务器的哈希值放到环上,而是将一个服务器虚拟成若干个虚拟节点,把这些虚拟节点的hash值放到环上。实践中一把一个服务器节点虚拟成200个虚拟节点,然后把200个虚拟节点放到环上。key依然是顺时针的查找距离它最近的虚拟节点,找到虚拟节点以后,根据映射关系找到真正的物理节点。

目录
相关文章
|
4天前
|
算法 关系型数据库 MySQL
分布式唯一ID生成:深入理解Snowflake算法在Go中的实现
在分布式系统中,确保每个节点生成的 ID 唯一且高效至关重要。Snowflake 算法由 Twitter 开发,通过 64 位 long 型数字生成全局唯一 ID,包括 1 位标识位、41 位时间戳、10 位机器 ID 和 12 位序列号。该算法具备全局唯一性、递增性、高可用性和高性能,适用于高并发场景,如电商促销时的大量订单生成。本文介绍了使用 Go 语言的 `bwmarrin/snowflake` 和 `sony/sonyflake` 库实现 Snowflake 算法的方法。
17 1
分布式唯一ID生成:深入理解Snowflake算法在Go中的实现
|
16天前
|
存储 缓存 算法
分布式缓存有哪些常用的数据分片算法?
【10月更文挑战第25天】在实际应用中,需要根据具体的业务需求、数据特征以及系统的可扩展性要求等因素综合考虑,选择合适的数据分片算法,以实现分布式缓存的高效运行和数据的合理分布。
|
16天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
30天前
|
JavaScript 网络架构
Vue中实现分布式动态路由:基础步骤详解
Vue中实现分布式动态路由:基础步骤详解
19 2
|
1月前
|
缓存 移动开发 JavaScript
《vue2进阶篇:路由》第10章:vue-router,包括基础路由、嵌套路由、路由的query参数和params参数、命名路由、router-link的replace属性、编程式路由、缓存路由组件
《vue2进阶篇:路由》第10章:vue-router,包括基础路由、嵌套路由、路由的query参数和params参数、命名路由、router-link的replace属性、编程式路由、缓存路由组件
43 2
|
1月前
|
缓存
vue2进阶篇:vue-router之缓存路由组件
vue2进阶篇:vue-router之缓存路由组件
34 1
|
2月前
|
缓存 JavaScript 中间件
优化Express.js应用程序性能:缓存策略、请求压缩和路由匹配
在开发Express.js应用时,采用合理的缓存策略、请求压缩及优化路由匹配可大幅提升性能。本文介绍如何利用`express.static`实现缓存、`compression`中间件压缩响应数据,并通过精确匹配、模块化路由及参数化路由提高路由处理效率,从而打造高效应用。
149 10
|
3月前
|
缓存 JavaScript
Vue学习之--------编程式路由导航、缓存路由组件、新的钩子函数(4)(2022/9/5)
这篇文章介绍了Vue中编程式路由导航的方法,包括使用`$router.push`、`$router.replace`、`$router.forward`、`$router.back`和`$router.go`进行路由跳转和历史记录操作,以及如何利用`<keep-alive>`组件缓存路由组件,和Vue Router新增的两个生命周期钩子`activated`和`deactivated`的用法及其在项目中的应用和测试结果。
Vue学习之--------编程式路由导航、缓存路由组件、新的钩子函数(4)(2022/9/5)
|
3月前
|
缓存 算法 前端开发
深入理解缓存淘汰策略:LRU和LFU算法的解析与应用
【8月更文挑战第25天】在计算机科学领域,高效管理资源对于提升系统性能至关重要。内存缓存作为一种加速数据读取的有效方法,其管理策略直接影响整体性能。本文重点介绍两种常用的缓存淘汰算法:LRU(最近最少使用)和LFU(最不经常使用)。LRU算法依据数据最近是否被访问来进行淘汰决策;而LFU算法则根据数据的访问频率做出判断。这两种算法各有特点,适用于不同的应用场景。通过深入分析这两种算法的原理、实现方式及适用场景,本文旨在帮助开发者更好地理解缓存管理机制,从而在实际应用中作出更合理的选择,有效提升系统性能和用户体验。
184 1
|
3月前
|
算法
基于多路径路由的全局感知网络流量分配优化算法matlab仿真
本文提出一种全局感知网络流量分配优化算法,针对现代网络中多路径路由的需求,旨在均衡分配流量、减轻拥塞并提升吞吐量。算法基于网络模型G(N, M),包含N节点与M连接,并考虑K种不同优先级的流量。通过迭代调整每种流量在各路径上的分配比例,依据带宽利用率um=Σ(xm,k * dk) / cm来优化网络性能,确保高优先级流量的有效传输同时最大化利用网络资源。算法设定收敛条件以避免陷入局部最优解。