Redis故障案例(一)-特定key批量丢失

简介:

TroubleShooting-排障是DBA一项重要技能,通过故障表现的症状,先让业务快速恢复止损,同时分析故障的根因(rootCause),给出解决方案并从根本上修复故障,最后总结从产品或流程上怎么规避同类型故障再次发生。

DBA排障很像医生治病、刑警破案。

医生通过了解病人病情症状(故障症状),先让病人病情缓解(服务止损)类似止痛,同时分析病灶(故障根因),给出可行的治疗方案(故障解决方案),病人完全恢复;最后给出医疗建议如何预防病情或避免恶化(故障规避);当然还有现多的类似急救(紧急故障-7位数级损失)、会诊、不治、AI医疗(AI故障根因分析)、医疗事故(背锅);其实很多相通之处。

刑警通过真凶(故障根因)留下的犯罪现场(故障症状),根据罗卡定律,各种技术分析和寻找证据,最终找出真凶和证据。(段子很多,先回到主题)

在Redis早期的运维过程中,也遇过不少Redis故障,现总结其中几个有意思的案例,希望对刚开始用Redis的DBA同学有所帮助。故障因与业务、故障场景结合较密切(脱敏),笔者尽量提炼成技术和还原现场;故障系列文章包括以下几部分:

故障背景:主要交待技术和故障背景[可选];

故障描述:故障的简单描述、根本原因和影响;

故障监控告警:故障相关的监控告警信息;

故障分析:文章核心 提供类似故障的分析思路、和技术点;

故障阶段性总结:文章核心 总结类似故障的通用性预防;

本文是Redis故障案例(一)关于一次Redis特定key丢失排查分析。

1 故障背景

A业务有一个3分片的Redis Cluster缓存集群,会定期生成数据写入Redis; 某一天,A业务的研发工程师(下文简称RD)突然找到DBA,很激动地说:“我们Redis集群突然掉很多key…” ,然后故事就开始了….

RD: “我们Redis集群中,以“t_list:”前缀的90000多key今早发现都掉了,其他key还在,是不是DBA有清理操作啊?”
DBA: “没有维护性操作(一脸懵B和无辜),先止损,把Key从Primary store中导入Redis;”
RD: “已经从MySQL把key导入到Redis,现在业务功能恢复,影响很小。但请帮忙追查原因。“

DBA: “这部分key确认最近一次还在是什么时候? 然后最早发现丢失是在什么时候?” 备注:DBA开始和当事人了解案发时间,为排查问题提供依据。
RD: “昨晚20:30前key肯定还在,最早发现key不见是今早9:20同事发现新测试功能有异常” 备注:灰度功能
DBA: ”好的,我先分析一下原因,有结果了通知你;定位问题前,你也关注一下服务,避免问题二次发生”。

然后RD就下楼了,DBA扣上他的几十元买来的boss耳机,开始自言自语Troubleshooting.

2 故障描述

因RD1同学为重写t_list的90000多个KEY, 通过keys t_list*命令获取并删除,但未及时把key新内容重到redis中;使得RD2同学以为数据灵异丢失。但因为是灰度功能使用数据,服务影响范围较小。

3 故障告警

1 业务告警缺失;见故障总结
2 Redis侧无法监控此类告警

4 故障分析

通过RD提供的线索:

  • 特定t_list:前缀90000个List元素丢失;
  • 数据丢失时间范围前日20:30~9:20之间(案发时间段,分析各种监控范围)。

通过故障症状初步分析,故障可能的根因:

  • 行了flushall/flushdb命令删除所有key,其他key是后来写入的,造成了只丢失t_list的假象
  • 这90000个List元素因执行LPOP/RPOP,导致key被删除的现象;(List中元素被全部pop完后,list相当于被删除了)
  • 这部分key因设置了TTL,在此期间内全部过期,被redis自动删除;
  • 这部分key因LRU淘汰,被redis全部驱逐淘汰;
  • 程序BUG或人为删除导致;

每个可能故障根因排查分析:

  • 排除flushall/flushdb导致;因此集群两个命令是被rename了,同时观察集群监控dbsize为了跌为0的区段; info Commandstats中没cmdstat_flushdb、cmdstat_flushall输出都可确认,不是flush造成的。
  • 排队List pop操作导致的;通过分析案发时间段内的监控图,并未发现cmdstat_rpop和cmdstat_lpop输出;
  • 排除过期删除导致; 分析监控,最近24小时expired_keys监控指标值基本为0
  • 排除LRU淘汰导致;本集群实例未设置淘汰,maxmemory-policy为noeviction;分析监控,最近24小时evicted_keys监控指标值都是0。
  • 确认是程序BUG或人为删除导致;最后定位是RD1同学,为重写这部分key,通过脚本keys t_list:*获取,并通过del命令删除。详细分析过程如下:

通过分析redis监控单个分片key个数,发现22:00到22:40时间段内,key个数下降约30000个;此集群共3个数据分片,且每个分片slots分配均匀,三个分片同时段key个数下降约90000个;和故障丢失key个数相符。

f24dff31419880efe03ce0e1405ca115f5658caf

图1. 数据key个数监控图


再分析DEL的操作,22:00~22:40时间段内,每个Redis的每秒del操作12次,持续40min; 约30000个del操作; 3个分片,共执行约90000次DEL操作

ead69d0f61d243eaa0a1d43239a594ff0a77eaa6

图2. 删除操作DEL的每秒请求数监控图


查看slowlog监控,2015-12-03 22:01:01 时间点,执行KEYS “tlist*” 获取所有key的前缀, 目的应该是执行后面的DEL操作

56326f61b960efebeef41d1237526c4a0efe212e

图3. slowlog分析图

5 故障阶段性总结和预防

  • 禁用keys命令(程序历史原因),DBA提供删除特定key的自助化服务;尽量避免RD直接操作Redis集群数据,通过review的流程减少误操作的发生;
  • 业务方加强监控告警,业务异常能及时发现。

非技术类总结:

  • 数据是公司重要的资产和生命线,DBA除了本职工作做好数据的安全和可靠外;实际工作也有很多类似的“数据丢失”场景,怎么从技术层面不做背锅侠;
  • 做好完善的监控,是精细化运营管理和自我保护的前提。


原文发布时间为:2017-11-20

本文作者:RogerZhuo

本文来自云栖社区合作伙伴“老叶茶馆”,了解相关信息可以关注“老叶茶馆”微信公众号

相关文章
|
缓存 NoSQL Java
Redis应用—6.热key探测设计与实践
热key问题在高并发系统中可能导致数据层和服务层的严重瓶颈,如Redis集群瘫痪和用户体验下降。为解决此问题,京东开发了JdHotkey热key探测框架,具备实时性、准确性、集群一致性和高性能等特点。该框架由etcd集群、Client端jar包、Worker端集群和Dashboard控制台组成,通过分布式计算快速识别热key并推送至应用内存,有效减轻数据层负载,提升服务性能。JdHotkey适用于多种场景,安装部署简便,支持毫秒级热key探测和集群一致性维护。
769 61
Redis应用—6.热key探测设计与实践
|
存储 缓存 NoSQL
【Azure Redis 缓存】关于Azure Cache for Redis 服务在传输和存储键值对(Key/Value)的加密问题
【Azure Redis 缓存】关于Azure Cache for Redis 服务在传输和存储键值对(Key/Value)的加密问题
353 2
|
11月前
|
NoSQL 测试技术 Redis
Redis批量删除Key的三种方式
Redis批量删除Key是优化数据库性能的重要操作,本文介绍三种高效方法:1) 使用通配符匹配(KEYS/SCAN+DEL),适合不同数据规模;2) Lua脚本实现原子化删除,适用于需要事务保障的场景;3) 管道批量处理提升效率。根据实际需求选择合适方案,注意操作不可逆,建议先备份数据,避免内存溢出或阻塞。
|
NoSQL API Redis
在C程序中实现类似Redis的SCAN机制的LevelDB大规模key分批扫描
通过上述步骤,可以在C程序中实现类似Redis的SCAN机制的LevelDB大规模key分批扫描。利用LevelDB的迭代器,可以高效地遍历和处理数据库中的大量键值对。该实现方法不仅简单易懂,还具有良好的性能和扩展性,希望能为您的开发工作提供实用的指导和帮助。
288 7
|
消息中间件 缓存 NoSQL
Redis 高并发竞争 key ,如何解决这个难点?
本文主要探讨 Redis 在高并发场景下的并发竞争 Key 问题,以及较为常用的两种解决方案(分布式锁+时间戳、利用消息队列)。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
Redis 高并发竞争 key ,如何解决这个难点?
|
存储 监控 NoSQL
Redis大Key问题如何排查?如何解决?
Redis大Key问题如何排查?如何解决?
859 0
Redis大Key问题如何排查?如何解决?
|
存储 NoSQL 算法
面试官:Redis 大 key 多 key,你要怎么拆分?
本文介绍了在Redis中处理大key和多key的几种策略,包括将大value拆分成多个key-value对、对包含大量元素的数据结构进行分桶处理、通过Hash结构减少key数量,以及如何合理拆分大Bitmap或布隆过滤器以提高效率和减少内存占用。这些方法有助于优化Redis性能,特别是在数据量庞大的场景下。
面试官:Redis 大 key 多 key,你要怎么拆分?
|
存储 缓存 NoSQL
Redis中大Key与热Key的解决方案
在工作中,Redis作为一款高性能缓存数据库被广泛应用,但常遇到“大key”和“热key”问题。“大key”指单个键包含大量数据,导致内存消耗高、性能下降及持久化效率降低;“热key”则是频繁访问的键,会引起CPU占用率高、请求阻塞等问题。本文详细分析了这些问题的定义、影响、原因,并提供了相应的解决方案,如合理设置缓存时间和数据结构、拆分大key、采用热点数据分片等方法。
1401 5
Redis中大Key与热Key的解决方案
|
NoSQL Unix Redis
Redis 键(key)
10月更文挑战第15天
209 1