MySQL分库分表缓存乱、命中率低还易不一致？ShardingSphere+Redis+监控，搭建高可用缓存管理体系-阿里云开发者社区

做后端开发的朋友，只要接触过分库分表，大概率都踩过缓存的坑——业务量上来后，单库单表扛不住，只能做分库分表拆分，可拆分完麻烦就来了：缓存怎么存才不混乱？数据更新后缓存和数据库怎么保持一致？缓存穿透、击穿、雪崩说来就来，一不注意就导致数据库压力暴增，线上服务卡顿甚至崩溃；更头疼的是，出了问题连问题在哪都找不到，排查半天毫无头绪。
360截图20260408165053418.jpg

其实这些痛点，不是分库分表本身的问题，而是没搭建一套完整的缓存管理体系。今天就结合实战，跟大家用口语化的方式，把ShardingSphere+Redis+监控这套组合拳讲透，从缓存设计、一致性保障、问题防控到实时监控，一步步教你搭建稳定、高效、可落地的分库分表缓存管理体系，彻底解决缓存管理的各种糟心事。

先跟大家说个大前提：分库分表后的缓存管理，核心不是“加个Redis就完事”，而是要解决“分库分表的路由规则和缓存的存储、更新规则对齐”，不然缓存就会变成“乱葬岗”——要么查不到缓存，要么查到的是错数据，反而拖慢系统性能。而ShardingSphere的核心作用，就是帮我们打通分库分表和缓存的“任督二脉”，再配合Redis的高性能缓存和完善的监控体系，就能实现缓存的全流程可控。

首先我们先搞清楚，分库分表后，缓存管理到底有哪些绕不开的痛点，咱们逐个对应解决，不搞虚的。第一个痛点就是“缓存路由混乱”，分库分表后数据被拆到多个库、多个表，比如订单表按用户ID取模拆成10个库、每个库拆成20个表，那么缓存的key该怎么设计？如果key不跟分片规则绑定，比如随便用“order:123”当key，下次查询的时候，根本不知道这个缓存对应的是哪个分库、哪个分表，要么查不到，要么查错分片，缓存命中率直接拉胯。

这时候ShardingSphere就派上用场了。ShardingSphere作为分库分表中间件，本身就掌握着所有的分片规则——比如按什么字段分片、分了多少个库和表、每个分片对应的数据源是什么。我们要做的，就是让Redis的缓存key和ShardingSphere的分片规则深度绑定，实现“缓存路由和数据路由一致”。

具体怎么操作？给大家说个实操方案，也是我们线上在用的：缓存key的设计采用“业务前缀+分片键+业务ID”的格式，比如订单表按用户ID分片，用户ID取模10得到分片编号，那么缓存key就可以设计成“order:shard:0:user:1001:order:5678”，其中“shard:0”就是ShardingSphere计算出的分片编号，“user:1001”是分片键和分片值，“order:5678”是订单ID。这样一来，每次查询的时候，ShardingSphere先根据分片键计算出分片编号，再拼接成缓存key去Redis查询，既能快速命中缓存，又能确保缓存和数据的分片对应，不会出现混乱。

这里要提醒大家一个细节：ShardingSphere支持多种分片策略，比如取模分片、范围分片、哈希分片，不管用哪种，缓存key都要包含“分片标识”——要么是分片编号，要么是分片键的具体值，只要能和ShardingSphere的路由规则对应上就行。另外，不要用随机字符串当缓存key，也不要省略分片相关的标识，不然缓存就会和分库分表脱节，等于白加。

第二个痛点，也是最让人头疼的：缓存和数据库数据不一致。分库分表后，数据更新会涉及多个分库、多个表，比如一个下单操作，可能要更新订单表、库存表、用户余额表，这些表可能在不同的分库，要是缓存更新不及时，或者更新顺序错了，就会出现“缓存有数据、数据库没数据”“数据库有数据、缓存没数据”，甚至“缓存数据和数据库数据对不上”的情况，用户看到的就是错数据，投诉不断。

解决这个问题，核心是“缓存更新和数据更新强关联”，而ShardingSphere+Redis的组合，就能完美实现这一点，主要靠两种方案，大家可以根据自己的业务场景选择。

第一种方案，也是最常用的：Cache-Aside模式（旁路缓存模式），配合ShardingSphere的事务一致性保障。简单说就是“查缓存先于查数据库，更数据先更数据库再更缓存”。具体流程是这样的：用户发起查询请求，先通过ShardingSphere的路由规则，计算出对应的分片，然后拼接缓存key去Redis查询；如果缓存命中，直接返回数据，不用访问数据库；如果缓存未命中，就通过ShardingSphere访问对应的分库分表，查询到数据后，先把数据写入Redis缓存，再返回给用户。

而更新数据的时候，流程刚好反过来：先通过ShardingSphere更新对应的分库分表数据，更新成功后，再删除对应的Redis缓存（注意是删除，不是更新），下次查询的时候再重新从数据库加载数据到缓存。为什么是删除而不是直接更新缓存？因为分库分表后，一个业务操作可能涉及多个分片的缓存，直接更新容易遗漏，而且删除缓存更简单、更安全，能避免更新顺序错误导致的一致性问题。

这里要重点说一下ShardingSphere的作用：它能确保“数据更新”和“缓存删除”在同一个逻辑事务里，比如更新订单表和库存表后，ShardingSphere会自动触发对应的缓存删除操作，不用我们手动去写代码删除每个分片的缓存，减少了冗余代码，也避免了漏删的情况。而且ShardingSphere支持分布式事务，哪怕涉及多个分库的更新，也能确保数据更新和缓存删除的一致性，不会出现“数据更了、缓存没删”的情况。

第二种方案，适合写多读少的场景：Write-Through模式（写透模式），也就是“更新数据时，同时更新数据库和缓存”。这种模式下，ShardingSphere在执行数据更新操作时，会自动同步更新Redis缓存，确保数据库和缓存的数据实时一致。不过这种方案有个缺点，就是会增加写操作的耗时，因为要同时写数据库和缓存，所以更适合写操作频率不高、对数据一致性要求极高的场景，比如金融类业务的核心数据。

另外，还有一种特殊情况：跨分片查询的缓存处理。分库分表后，难免会有跨多个分片的查询，比如查询“近7天所有用户的订单总数”，这种查询会涉及多个分库的多个表，缓存该怎么处理？这里给大家一个实操建议：不要缓存跨分片查询的完整结果，而是缓存每个分片的查询结果，然后在应用层聚合。比如每个分片的订单总数缓存key是“order:shard:0:total:7days”“order:shard:1:total:7days”，查询时先从Redis获取每个分片的总数，再汇总得到最终结果，这样既能提升查询性能，又能避免跨分片查询导致的缓存一致性问题。

第三个痛点：缓存穿透、击穿、雪崩，分库分表后这些问题会被放大，一旦出现，直接压垮数据库。很多朋友只知道加缓存，却忽略了这些风险，结果线上出了问题才手忙脚乱。结合ShardingSphere+Redis，我们可以针对性地做好防控，每个问题都有明确的解决方案，不用慌。

先说说缓存穿透：就是查询的数据在缓存和数据库里都不存在，比如有人恶意查询不存在的订单ID，大量这类请求会绕过缓存，直接冲击分库分表的数据库，导致数据库压力暴增。解决这个问题，主要靠两种方式结合：一是缓存空值，二是布隆过滤器。

缓存空值很简单：当查询的数据在数据库里不存在时，不要直接返回空，而是在Redis里缓存一个空值，设置较短的过期时间（比如5分钟），这样下次再查询这个不存在的数据时，就会直接从Redis获取空值，不会再访问数据库。这里要注意，空值的缓存key也要遵循之前的分片规则，比如“order:shard:0:user:9999:order:0000”，确保和分片规则对齐，避免缓存混乱。

布隆过滤器则适合数据量极大、恶意查询频繁的场景。我们可以在ShardingSphere和Redis之间加一层布隆过滤器，提前将所有存在的业务ID（比如订单ID、用户ID）存入布隆过滤器，当有查询请求时，先通过布隆过滤器判断该ID是否存在，如果不存在，直接拒绝请求，不用访问Redis和数据库，从源头挡住穿透请求。而且布隆过滤器可以和ShardingSphere的分片规则结合，每个分片对应一个布隆过滤器，进一步提升过滤效率，避免单个布隆过滤器压力过大。

然后是缓存击穿：就是某个热点key过期了，大量请求同时涌入数据库，导致数据库瞬时压力过大。分库分表后，热点数据会集中在某个或某几个分片，一旦这些分片的热点key过期，冲击会更集中。解决这个问题，有两种常用方案，大家可以根据业务场景选择。

第一种方案：热点key永不过期。对于核心热点数据，比如首页热门商品、高频访问的用户信息，我们可以设置缓存永不过期，然后通过后台异步任务定期更新缓存数据，确保数据一致性。这种方案最简单、最有效，适合热点数据更新频率不高的场景。

第二种方案：互斥锁。当热点key过期时，第一个请求获取分布式锁，然后去数据库查询数据、更新缓存，其他请求则等待锁释放后，再从缓存获取数据，避免大量请求同时访问数据库。这里的分布式锁，可以用Redis的SETNX命令实现，也可以用Redisson框架，操作起来都很简单。而且我们可以结合ShardingSphere的分片规则，将锁和分片绑定，比如“lock:order:shard:0:user:1001”，避免锁冲突，提升并发性能。

最后是缓存雪崩：就是大量缓存key同时过期，或者Redis集群宕机，导致所有请求都直接访问数据库，引发数据库崩溃。分库分表后，数据库本身就承担着较大的压力，一旦出现缓存雪崩，后果不堪设想。解决这个问题，主要靠三个层面：缓存过期时间优化、Redis高可用、降级兜底。

缓存过期时间优化：给每个缓存key设置基础过期时间，再加上一个随机值（比如基础过期时间1小时，随机增加0-300秒），这样就能避免大量key同时过期，分散过期压力。比如订单缓存的过期时间可以设置为3600+Random(0,300)秒，这样每个key的过期时间都不一样，就不会出现同时失效的情况。

Redis高可用：不要用单节点Redis，一定要搭建Redis集群，比如主从复制+哨兵模式，或者Redis Cluster集群，确保即使某个Redis节点宕机，其他节点也能正常提供服务，避免Redis单点故障导致的缓存雪崩。而且Redis集群的分片，可以和ShardingSphere的分库分表分片对应起来，比如一个ShardingSphere分片对应一个Redis分片，提升缓存访问效率。

降级兜底：当Redis集群出现故障，无法提供服务时，要及时启动降级策略，比如直接访问数据库，但要做好限流，避免数据库被压垮。这里可以借助ShardingSphere的限流功能，对数据库的访问请求进行限流，比如每个分片每秒最多处理1000个请求，超出的请求直接返回降级提示，确保数据库的稳定性。

第四个痛点：缓存管理无监控，出了问题找不到根源。很多朋友搭建完缓存体系后，就不管了，不知道缓存命中率是多少、有没有出现穿透/击穿/雪崩、Redis节点是否正常、ShardingSphere的路由是否正常，直到线上出现问题，才去排查，不仅耗时费力，还会影响用户体验。所以，一套完整的缓存管理体系，监控是必不可少的，而且要做到“全方位、无死角”，覆盖ShardingSphere、Redis、数据库三个层面。

先说说Redis的监控，核心要监控这几个指标：缓存命中率、内存使用情况、过期key数量、请求QPS、节点健康状态。缓存命中率是核心指标，一般要保持在90%以上，如果命中率过低，就要排查缓存key的设计、分片规则是否合理，或者是否有大量无效查询；内存使用情况要重点监控，避免Redis内存溢出，导致缓存失效；过期key数量可以反映缓存过期的情况，及时发现可能出现的缓存雪崩风险；请求QPS可以反映Redis的压力，避免Redis成为性能瓶颈。

然后是ShardingSphere的监控，主要监控这几个方面：分片路由成功率、SQL执行耗时、缓存操作日志、分布式事务状态。分片路由成功率要确保100%，如果出现路由失败，就要排查分片规则是否配置正确；SQL执行耗时可以反映数据库的压力，以及ShardingSphere的路由性能；缓存操作日志可以记录缓存的查询、删除、更新情况，方便排查缓存一致性问题；分布式事务状态可以监控跨分片事务的执行情况，避免事务失败导致的数据不一致。

最后是数据库的监控，主要监控：各分片的QPS、CPU使用率、内存使用率、磁盘IO、连接数。分库分表后，每个分片的数据库压力都要单独监控，避免某个分片压力过大，影响整个系统的性能。比如某个分片的QPS突然飙升，可能是缓存出现了问题，导致大量请求穿透到数据库，这时候就要及时排查缓存。

监控工具的选择，这里给大家推荐一套实操组合：Prometheus+Grafana，配合ShardingSphere和Redis的监控插件。ShardingSphere本身提供了完善的监控指标，比如分片路由次数、SQL执行次数、缓存操作次数等，可以通过Prometheus采集这些指标，然后用Grafana制作可视化仪表盘，实时展示各项监控数据；Redis也可以通过Prometheus采集指标，比如缓存命中率、内存使用、QPS等，同样在Grafana上展示。除了Prometheus+Grafana这些常用工具，大家也可以去www.tiancebbs.cn交流更多分库分表缓存实战经验，里面有很多同行分享的监控配置案例，能帮我们少走很多弯路。

另外，还要设置告警规则，比如缓存命中率低于90%、Redis内存使用率超过80%、ShardingSphere路由失败率大于0%、数据库CPU使用率超过70%时，及时发送告警信息（比如短信、钉钉、企业微信），让运维人员第一时间发现问题、解决问题，避免小问题演变成大故障。

讲到这里，很多朋友可能会问：这套ShardingSphere+Redis+监控的缓存管理体系，具体怎么落地？有没有实操步骤？这里给大家梳理一个简单的落地流程，大家可以直接参考：

第一步，梳理分库分表规则，确定分片键、分片策略、分库分表数量，确保ShardingSphere配置正确，能正常实现数据路由。这是基础，要是分片规则没设计好，后面的缓存管理都会出问题。

第二步，设计缓存key规则，结合ShardingSphere的分片规则，确定缓存key的格式，确保缓存路由和数据路由一致，同时做好缓存过期时间的设置，加入随机值，避免缓存雪崩。

第三步，集成ShardingSphere和Redis，配置缓存插件，实现缓存的自动查询、删除、更新，结合业务场景选择合适的缓存更新模式（Cache-Aside或Write-Through），确保缓存和数据库数据一致。

第四步，部署Redis集群，搭建主从复制+哨兵模式，确保Redis高可用，同时配置布隆过滤器，防控缓存穿透，设置互斥锁，防控缓存击穿。

第五步，搭建监控体系，部署Prometheus+Grafana，采集ShardingSphere、Redis、数据库的监控指标，制作可视化仪表盘，设置告警规则，实现全方位监控。

第六步，上线后进行压测，模拟高并发场景，测试缓存命中率、系统响应时间、缓存一致性、监控告警是否正常，根据压测结果优化缓存策略、分片规则、监控指标，确保体系稳定运行。

最后再跟大家强调几点注意事项，都是我们线上踩过的坑，大家可以避开：

缓存key的设计一定要和ShardingSphere的分片规则绑定，不要省略分片标识，否则会出现缓存混乱、命中率低的问题；
缓存更新优先选择“先更数据库、再删缓存”的模式，避免直接更新缓存，减少一致性问题；
不要忽视缓存穿透、击穿、雪崩的防控，尤其是分库分表后，这些问题的影响会被放大，一定要提前做好预案；
监控体系一定要搭建完善，不要等到出了问题再排查，要做到“早发现、早解决”；
上线后要定期复盘缓存命中率、监控数据，根据业务变化优化缓存策略和分片规则，比如业务增长后，及时调整分库分表数量和Redis集群规模。

其实分库分表后的缓存管理，核心就是“对齐规则、保障一致、防控风险、实时监控”，ShardingSphere解决路由和一致性的问题，Redis解决高性能缓存的问题，监控解决可观测性的问题，三者结合，就能搭建一套稳定、高效的缓存管理体系，彻底解决分库分表后的缓存痛点，让系统既能扛住高并发，又能保证数据一致性和稳定性。

很多朋友觉得这套体系复杂，其实只要一步步落地，先搞定核心的缓存路由和一致性，再逐步完善防控和监控，难度并不大。而且现在很多成熟的插件和工具，能帮我们减少大量开发和运维成本，比如ShardingSphere的缓存插件、Redis的监控插件，还有Prometheus+Grafana的可视化工具，只要配置得当，就能快速搭建起完整的缓存管理体系。

另外，不同的业务场景，缓存策略也会有所不同，比如电商的订单业务和资讯的内容业务，缓存的过期时间、更新模式、防控重点都不一样，大家要结合自己的业务实际，灵活调整，不要生搬硬套。比如电商订单的缓存过期时间可以设置短一点（比如1小时），而资讯内容的缓存过期时间可以设置长一点（比如24小时），根据数据更新频率调整即可。

还有一点，缓存不是万能的，分库分表后的性能优化，不能只靠缓存，还要配合数据库的优化，比如索引优化、SQL优化、连接池优化等，多方面结合，才能让整个系统的性能达到最佳状态。比如ShardingSphere可以配合数据库的读写分离，将读请求路由到从库，进一步减轻主库压力，再结合Redis缓存，就能实现“读请求走缓存，缓存未命中走从库，写请求走主库”的高效架构。

MySQL分库分表缓存乱、命中率低还易不一致？ShardingSphere+Redis+监控，搭建高可用缓存管理体系

数据库

热门文章

最新文章

相关电子书